◆描述性統計分析
概念:描述性統計分析方法是指應用分類、製表、圖形及概括性數據指標(去均值,方差等)來概括數據分佈特徵的方法。
而推斷性統計分析方法則是通過隨機抽樣,應用統計方法把從樣本數據得到的結論推廣到總體的數據分析方法統計上需要把樣本數據所禦寒信息進行概括,融合和抽象,
從而得到反映樣本數據的綜合指標。這些指標稱為統計量。描述數據特徵的統計量可分為兩類:一類表示數據的中心位置,
如均值,中位數,眾數等,另一類表示數據的離散程度,如方差,標準差,極差等用來衡量個體偏離中心的程度在描述定性觀測知識,
有時候我們需要把這些指按照某種原則分成一些組或者類,使得每個觀測值必須且只能落入一個類中。對於給定的類,落入這個類的個案數稱為頻率,落入該類中的個案數和個案總數的比例稱為相對頻率。
頻率分析主要通過頻率分佈表,條形圖,餅圖和直方圖,以及集中趨勢和離散趨勢的各種統計量來描述數據的分佈特徵。
◆中心趨勢的描述
中心趨勢是指以組數據向某個中心值靠攏的傾向。描述數據分佈的中心位置的統計量稱為位置統計量。
對於連續變量和定序變量,描述數據中心趨勢的指標有均值,中位數,眾數,5%截尾均值,
對於定性數據,描述數據中心趨勢的指標只有眾數。
SPSS中把變量分為三個水平,分別為尺度變量,定序變量,名義變量。
◆均值
概念:均值一般是指數據的算術均值。數據的均值容易受極端值的影響。
◆5%截尾均值
把觀測值按照從小到大順序排序,剔除掉排序後的數據序列兩端的部分數字後計算得到的均值稱為截尾均值,避免了極端值的影響。
◆幾何均值
幾何均值又稱幾何平均數。它是樣本數據連乘後得到的積開N次方得到的 計算機和平均數要求各觀察值之間存在連乘關係,
並且各個觀察值的連乘積必須具有實際意義,它主要用於相對數數列,他要求樣本數和算術平均值相比較,幾何平均數應用範圍較窄。
◆中位數
將觀測值按照從小到大的順序排列,位於中間位置的數值稱為中位數。
中位數受極端值的影響較小,在具有極大和極小值的數據中,中位數比均值往往更能代表數據的集中趨勢。
◆眾數
眾數是觀測值中出現次數最多的數值,其反映了這組觀測值的集中趨勢。不受極端值影響。可能有多個眾數離散趨勢的描述。
◆極差
數據的觀測值中的最大值與最小值之差反映了數據的波動情況。該差稱為極差或者全距,容易受極端值影響。
◆方差和標準差
標準差用來度量觀測值偏離平均數的大小,相當於平均偏差,可以直接描述數據偏離均值的程度。
◆均值的標準誤
均值的標準誤用來衡量不同樣本的均值之間的差別。
如果兩個樣本均值的差值與標準誤的比值小於-2或大於2,則可以斷定兩個均值有顯著的差別,進而斷定這兩個樣本來自於兩個不同的總體。
◆變異係數
在比較兩組數據離散程度大小時,如果觀測的測量尺度相差太大,或者是數據的量綱不一樣,這時直接比較二者的標準差並不合適,需要首先消除測量尺度和量綱的影響,變異係數就可以剔除這些影響。
◆分位數
P%分位數是指使得至少有P%的數據小於或等於這個值,且使得至少有(100-P)%的數據大於或等於這個值。
數據按照從小到大進行排序。
最小的四分位數稱為下四分位數,記為Q1,所有觀測值中有1/4的觀測值小於下四位數,3/4的觀測值大於下四位數,中點位置的四分位數就是中位數。最大的四分位數稱為上四分位數,記為Q3
統計中常常把數據的最小值,下四分位數,中位數,上四分位數和最大值稱為數據的總結五數。從這五個值可以大致看出數據分佈的中心和離散程度。而箱圖則是這五個數的圖形表現。
◆分佈的形狀
當α>0時,分佈為正偏和右偏,及分佈圖形在右邊拖尾,分佈圖有很長的右尾尖鋒偏左,
α<0,分佈為負片和左偏,及分佈圖形在左邊拖尾,分佈圖有很長的左尾,峯尖偏右,α=0,分佈對稱,
不論正負哪種偏態,偏度的絕對值最大表示偏斜的程度越大,反之偏斜程度越小,分佈形狀越接近對稱。