信息化软件 企业管理 营销管理 业界消息 标签索引
信息化软件目录
OA 办公自动化 CRM 客户关系管理 PM 项目管理 CC 协同商务 BPM 业务流程管理 KM/KBS 知识管理 CMS 内容管理 SCM 供应链管理 BI 商务智能 ERP 企业资源计划 HRM 人力资源管理 EAM 企业资产管理 电子商务系统 IT综合

初等应用统计(ZT)

2008-07-29
緒論
資料的圖示方法
統計量數
集中量數 變異量
相對地位數量 分配形態量數
常態分配的考驗與圖示  

緒論<回menu>

統計學(Statistics)為搜集、整理、分析、及解釋數字資料

(numerical-data)的科學方法或程序。透過統計處理可以

把個別觀察而得的資料,結合成為團體的特徵,形成

原理原則。大體言之,統計學可分為

描述統計(descriptive-Statistics)

推論統計(inferential)等二類。

本篇重點主要在於描述統計方面的基本應用統計,所謂

描述統計的主要目的是在使用計算、測量、描述和劃記

等方法,將一群資料加以整理、摘要、和濃縮,使容易

了解其中所含的意義和其中所傳遞的訊息之性質。下節

茲將對 描述統計的分析方法及特性做一簡述。

資料的圖示方法<回menu>

次數分配表 直方圖
次數多邊圖 累積次數肩形圖
條形圖 圓形比例圖

研究者由實驗、調查或測驗所得的原始資料(raw-data),

通常雜亂無章,很難看出其意義,因此必須加以整理,

使其有組織有系統而容易了解。整理資料最基本的方法

就是將原始資料分類,計算每類出現的次數,以做成

次數分配(frequency-distribution)表。除了用次數分配表外

,也可用圖示法(graphic-methods)更能引起興趣與注意。

 

1.次數分配表<回資料的圖示方法>

組織資料之最簡單的方法,是將它們由最高至最低的方式

列出,形成所謂等級分配 (rank-order-distribution),如下面兩

表所示。通常次數分配表歸類的組數 以5~15組為宜。

初等应用统计(ZT):受試者學歷背景之次數分配表

組別 人數 累積人數 累積百分比(%)
國中 15 15 15.00
高中、職 10 25 25.00
專科 30 55 55.00
大學 25 80 80.00
研究所 20 100 100.00

 

初等应用统计(ZT):100位學生統計學成積之次數分配表

分數 組中點 次數 累積次數(cf) 累積百分比(cf%)
75-79 77 15 15 15.00
80-84 82 10 25 25.00
85-84 87 30 55 55.00
90-94 92 25 80 80.00
95-99 97 20 100 100.00

2.直方圖(histogram)<回資料的圖示方法>

次數資料常以條狀圖在兩個向度的圖形上,代表每個分數

或組距發生的次數,謂之直方圖。通常適用於等距及比率

變數。如下圖所示。

初等应用统计(ZT):100位學生統計學成績之次數分配直方圖

 

3.次數多邊圖(frequency polygons)<回資料的圖示方法>

次數多邊圖與直方圖近似,唯一不同的是以單點來取代

條狀標示,並將這些單點以直線連結起來。如下圖所示。

初等应用统计(ZT):100位學生統計學成績之次數分配多邊圖

 

4.累積次數肩形圖<回資料的圖示方法>

(Cumulative-Frequencies-Ogives)

是以累積次數及累積百分比來製作圖示,通常可分為兩類,

一類為較小累積次數肩形圖(less-than type Ogives),如下圖。

另一為較大累績次數肩形圖(more-than-Ogives)。

初等应用统计(ZT):100位學生統計學成積之次數分配肩形圖

 

5.條形圖(Bar chart)<回資料的圖示方法>

以上所述之直方圖、次數多邊圖以及累積次數肩形圖

通常適用於等矩及比率變數。而條形圖則適用於名義

及類別變數。條形圖和前面提到的直方圖形似,如下圖所示。

初等应用统计(ZT):受試者學歷背景之條形圖

 

6.圓形比例圖(pie chart)<回資料的圖示方法>

通常如受試者學歷背景之次數分配表所示的資料,依類別

分組的情況下,則圓形比例圖特別適用。如下圖所示,是將

受試者依不同學歷各組的比例分割360陣繪製而成。

 

初等应用统计(ZT):受試者學歷背景之圖形比例圖

 

統計量數<回menu>

以有意義方式描述與分析資料的統計量數可分成:

(一)集中量數(measures of central tendency)<回menu>

可用來描述整個團體的集中趨向。常用的集中量數有

平均數(mean) 中位數(median) 眾數(mode)

 

當我們所搜集到的統計資料是屬於連續變項時,最宜

使用平均數的集中量數來處理。間斷變項則常用中數

或眾數的統計方法。

(l)平均數<回集中量數>

平均數具有三個重要的意義:

1.平均數能簡化一群體的所有數值而為一數值,即簡化作用

2.平均數能代表一群體的平均水準,即代表作用

3.平均數簡化所有數值為一數值後,以該數值代表群體的平

均水準,而便於兩個或兩個以上群體問相互作比較。

平均數的種類有下列數種:

1.算術平均數(arithmitic mean),簡稱平均數,亦稱非加權平

初等应用统计(ZT):均數(unweighted mean)

2.加權平均數(weighted mean):適用於因各個數值之重要程度

不同,須用不同權數表示不同比重時。

Xi 為各數值

Wi 為各數值的權數

3.幾何平均數(geometic mean):適用於比例、變動率或對數分配

求算平均數之用。

或 GM=antilog

4. 調和平均數(harmonic mean):適用於觀察值的倒數大約成

等距的間隔,亦即適用於比率(分子固定)之平均數的求算。

(2)中位數(median)<回集中量數>

中位數係指位於群體分配中點的一個數值,其上與其下的數

值數目各佔總數的二分之一。通常它只適用於次序變項。

中位數的求算依資料性質可分為兩種:

1.未分組資料:

首先將n個數值由小而大順序排列,然後決定中位數所在位次

,如果樣本大小n 為偶數,則以第n/2個與n/2+1個數值的平均

值為中位數,如果樣本大小n為奇數, 則以第(n+1)/2個數值為

中位數。

2. 分組資料:

(3)眾數(mode)<回集中量數>

眾數係指在一群體中出現次數最多的那個數值。通常它適用名

義變項。

眾數的求算依資料性質可分為兩種:

1.未分組資料:

將資料依序歸類,找出出現次數最多的數值,即為眾數。

2.分組資料:

L=眾數所在組真正下限

fa=眾數所在組上一組的次數

fb=眾數所在組下一組的次數

I=組距

(二)變異量(measures ofdispersion)或離中量數<回menu>

用來表示群體中各分數之分散情形。常用的變異量數有下列

五種:

全距(range) 平均差(average deviation)
變異數(Variance) 標準差(standard deviation)
四分差(quartile deviation)

 

通常全距、平均差、和標準差、變異數等適用於等距變項,

而四分差則適用於次序變項。

(1)全距(range)<回變異量>

全距是表示一群體全部數值的變動範圍。其計算簡單、意義

顯明,但反應不夠靈敏,即最大、最小數值不變而其它各項

數值皆改變時,全距不能反應,此外,全距易受兩極端數值

的影響。

(2)平均差(average deviation)<回變異量>

平均差係用以表示一群體之各數值與其平均數之差異距離。

由於其係根據全部數值求得,故較全距感應靈敏,但因以

絕對值咚悖饬x不明顯。

(3)變異數(Variance)<回變異量>

變異數係用以顯示一群體中所有數值與平均數離散的情形,

應用最為廣泛。

(樣本) (母群)

其中,稱之為

離均差平方和(sum of square of deviation from the mean)

(4)標準差(standard deviat)<回變異量>

標準差為變異數的正平方根,與常態分配關係頗為密切。

由標準差變化而來的另一量數為變異係數(coefficient of variation,CV)

又稱為相對差異係數(coefficient of relative variability)。

SD:平均差

M:平均數

變異係數的主要功用是用以比較單位不同之多種資料的差異

程度。或用以比較單位相同,但平均數不同之多種資料的差

異程度。

(5)四分差(quartile deviation)<回變異量>

Q3:第三個四分位數

Q1:第一個四分位數

(三)相對地位數量(measures of relative position)<回menu>

用來描述個體在所屬群體中占有之地位的情形。

這種量數係與某一參照點比較而來,主要的有:

百分等級(percentile rank)
標準分數(standard score)
四分位數(quartile)

 

(l)百分等級(percentile rank)<回相對地位數量>

百分等級是群體分配中的一個點,標示有既定百分比的數值

位在它之下。

1.未分組資料

PK:距離頂點的等第

N:總人數

2.分組資料

X =任意原始分數

l =該原始分數所在組真正下限

fp =該原始分數所在組的次數

F =l 以下的累積次數

I =組距

(2)標準分數(standard score)<回相對地位數量>

係用以表示分配中任一數值的方法,以標準差為單位,說明該

數值與平均值間的距離,利用這種轉換,而把原始分數化成標

準分數。(z分數)

分母為群體的標準差

X=原始分數

X=群體的平均數

(3)四分位數(quartile)<回相對地位數量>

係將整個分配的數值分成四個等分,每個等分,各占25%的分

配。亦即第一個四分位數(Q1)代表在該數值以下的佔總數的

25%第二個四分位數(Q2),即為中數,代表在該數值之下的佔

總數的50%第三個四分位數(Q3)即代表在該數值之下的佔總數

的75%

L:特定四分位數所在組的真正下限

F:特定四分位數所在組以下的累積次數

fq:特定四分位數所在組的次數

I:組距

n:總人數

(四)分配形態量數(measure of distribution shape)<回menu>

為求證資料的次數分配是否為常態分配,通常需從分配曲線

偏態(skewness)
蜂度(kurtosis)

兩方面著手考驗。

偏態是指大部份的數值落在平均數的哪一邊,若分配較多集

中在低數值方面,是為正偏態分配(或稱右偏態分配);若分配

較多集中在高數值方面,是為負偏態分配(或稱左偏態分配)。

峰度是次數分配曲線與常態曲線比較,是較為尖峻或平坦;

通常較為尖峻者,稱為高狹峰(leptokurtic),較為平坦者稱為

低潤峰(platykurtic)

(1)偏態係致(g1)<回分配形態量數>

母群SKewness=,

樣本

1.m3=0,即g1=0,則此分配為對稱分配

2.m3>0,即g1>0,則此分配為右偏分配

3.m3<0,即g1<0,則此分配為左偏分配

此外,正負偏態時,平均數、中位數、和眾數的關係如下二

圖所示:

初等应用统计(ZT):正負偏態時,平均數、中位數、眾數之關係

(2)蜂度係數(g2)<回分配形態量數>

母群

樣本

 

1.g2=3,則此分配為常態峰

2.g2>3,則此分配為高狹峰

3.g2<3,則此分配為低闊峰

 

(五)常態分配的考驗與圖示<回menu>

常態分配的考驗統計量
檢驗變項分配是否符合常態分配的圖示法
莖葉圖 盒鬚圖
常態機率圖

(1)常態分配的考驗統計量<回常態分配的考驗與圖示>

初等应用统计(ZT):(test statistic for normality)

1.kolmogorov-SmirnovD統計量

2.Shapiro-WilkW統計量

當觀察體個數少於5l,則採用Shairpo-wilkW統計量考驗資

料是否為常態分配;否則,採用kolmogorov-SmirnovD統計量。

(2)檢驗變項分配是否符合常態分配的圖示法<回常態分配的考驗與圖示>

1.莖葉圖(stem-and-leaf plot)<回常態分配的考驗與圖示>

莖葉圖與直方圖近似,是提供檢驗變項分配的簡易圖示法,

其兼具數字和圖形的優點,不僅可以使我們看到資料的次數

分配圖形,更可以提供更多有關實際資料值的訊息。通常莖

葉圖是將觀察值分成兩部份,首數稱為莖(stem),尾數稱為葉

(leaf), 例如數字75,有莖為7,葉為5。

茲有觀察值分別為60,70,60,82,85,78,56,85,68,62,58,90,78,88,74等,

則其莖葉圖如下所示:

莖(stem)   葉(leaf)
9   0
8   2558
7   0488
6   0028
5   68


2. 盒鬚圖<回常態分配的考驗與圖示>

(box-and-whisker plot,亦稱box plot盒狀圖或Schematic plot骨架圖)

盒鬚圖不繪製實際的觀察值,而顯示分配的總計統計量(summary-statistics)

,其可用以檢驗資料的極端量數及分配的型態。盒鬚圖主要

是繪製中位數(median,即第50的百分位數)、第25的百分位數

,第75的百分位數等,如下圖所示,盒子的下界限是第25 的

百分位數(25%,Ql,即下四分位數),上界限是第75的百分位

數(75%,Q 3,即上四分位數),通常這些百分位數,有時亦稱

Tukey's-hinges,其計算與一般的百分位數略有不同.盒子的

長度即是代表內四分位數的範圍(interqrartilerange),亦即是第

75的百分位數與第25的百分位數之差值(IQR=Q3-Q1)。盒中的

星號“﹡”代表中位數(median),通常盒中包含有50%變項的

觀察值,因此盒子愈大,則表示觀察體散佈愈大。由盒子上

下界所延伸出的線,即稱之為鬚(whiisker),是用以連接觀察

體(非界外、極端值)的最大值與最小值。此外,盒鬚圖中亦可

顯示出資料的界外值(ourlicrs)以符號“O”表示之、與極端值

(extreme)“E”表示之。通常其界定是以任何觀察值與盒端的

距離介於1.5至3倍盒長(即內四分位數IQR=Q3-Q1)之間者,即

稱之為Outlier,而超過3倍的盒長者,即稱之為Extreme

 

初等应用统计(ZT):盒鬚圖(box-and-whisker plot)

此外,盒鬚圖可用以顯示資料的分配形態,如下三圖所示:

(a)常態分配(normal distribution)

(b)左偏分配(left-skewed distribution)

(c)右偏分配(right-skewed distritution)

初等应用统计(ZT):不同分配狀態下的盒鬚圖

3. 常態機率圖(normal probability plot)<回常態分配的考驗與圖示>

常態機率圖是另一種檢驗變項常態性的圖示,其方法是將觀

察值先依大小順序排列,然後將每一觀察值與其常態的期望

值配對,並將每一配對描繪在座標平面圖上,如下圖所示,

常態機率圖以標準常態分配的百分位數為橫軸,而以實際觀

察值所求的百分位數為縱軸。如果觀察值是來自一常態分配

,則常態機率圖應呈現出一條直線趨向。

初等应用统计(ZT):常態機率圖

相关链接
轻松掌握开发数据仓库2008-08-02 什么样的BI产品能提高客户满意度2008-08-05
商业智能已经进入人才储备期2008-08-08 浅议商务智能在B2C电子商务站点的应用2008-07-18
2008年BI领域将惊喜连连2008-08-13 Cognos之操作小技巧2008-08-13
水晶报表的使用技巧2008-07-07 操作型BI时代来临2008-08-21
2007上半年中国BI市场盘点:SAS获双冠2008-08-22 商务智能:走向完善2008-07-04
返回首页 信息化软件 企业管理 营销管理 业界消息 文档查询
Copyright © 2005-2010   http://www.ourdoc.cn, 知识文档中心