33
第第第 第第第第第第第第第第 3-1 第第第第 3-2 第第第第第第第 (Descrip tive Statistics)

第三章 檢視資料與敍述性統計

Embed Size (px)

DESCRIPTION

第三章 檢視資料與敍述性統計. 3-1  檢視資料 3-2  敘述性統計分析 (Descriptive Statistics). 3-1 檢視資料.   檢視資料是在統計分析之前 , 必需要作的事 , 目的是為了確保資料分析結果的正確性。   我們整理檢視資料時 , 常見又可以避免或處理的問題如下: 登錄錯誤 遺漏值 遺漏值的處理 偏離值 ( 是否要刪除 ) 檢定多變量分析的基本假設. 3-1-1 登錄錯誤. - PowerPoint PPT Presentation

Citation preview

Page 1: 第三章 檢視資料與敍述性統計

第三章 檢視資料與敍述性統計

3-1  檢視資料

3-2  敘述性統計分析

(Descriptive Statistics)

Page 2: 第三章 檢視資料與敍述性統計

3-1 檢視資料  檢視資料是在統計分析之前 , 必需要作的事 , 目的是為了確保資料分析結果的正確性。

  我們整理檢視資料時 , 常見又可以避免或處理的問題如下:登錄錯誤遺漏值遺漏值的處理偏離值 ( 是否要刪除 )檢定多變量分析的基本假設

Page 3: 第三章 檢視資料與敍述性統計

3-1-1 登錄錯誤  登錄錯誤是很難避免的 , 只要是有人工輸入的資料 , 經常會發生登錄錯誤 , 在筆者的經驗中 , 不管是自行輸入或則找工讀生輸入資料 , 都曾經發生過登錄錯誤 , 例 (1) :輸入性別 , 男性為 1, 女性為 2, 在登錄資料時 , 很容易發生資料登錄為 12 和 21, 例 (2) :輸入李克特 (Linkert)5 點量表 , 非常不滿意為 1 到非常滿意為 5, 在登錄資料時 , 很容易發生資料登錄為 11,12, 23, 34, 45… 等等 , 這時候應如何處理呢 ? 我們提供最簡單的方式便是利用數值統計中的次數,最小值 (minimum) 和最大值 (maximum) 來檢視資料一旦發現異常值 , 則馬上可以回到資料集進行修正。

Page 4: 第三章 檢視資料與敍述性統計

1. 開啟範例檔 missing data.sav 2. 按 Analyze Descriptive Statistics Frequencies 3. 選取 Sex 4. 按 > ,將 Sex 選入 Variable(s) 5. 按 Statistics ,選取 Range 、 Minimum 、 Maximum 6. 按 Continue ,回到 Frequencies 視窗 7. 按 OK ,出現報表結果,如下圖:

實務操作如下:

Page 5: 第三章 檢視資料與敍述性統計

我們登錄性別是男性為 1 ,女性為 2 ,因此 Minimum 應為 1 ,Maximum 應為 2 ,上表中的 Maximum 為 11 ,顯然是有登錄錯誤,請回原始資料進行修正。

輸出報表結果如下:

Page 6: 第三章 檢視資料與敍述性統計

  遺漏值一直也是在數量方法中 , 很常碰到的問題 , 一般在 E-mail(word 檔 ) 和當面填寫問卷回收後 , 都會發覺有漏填 , 甚至是有大半都未填 , 這些漏填的值 , 可能對於結果都有著多多少少的影響 , 甚至會將結果倒轉 , 也就是從顯著影響變成不顯著 , 或則是從不顯著變成了顯著的影響 , 因此 , 當遺漏值發生時 , 對於遺漏值的處理 , 我們就必須謹慎小心 , 適當地去處理。

3-1-2 遺漏值

Page 7: 第三章 檢視資料與敍述性統計

  遺漏值發生的原因有很多 , 有可能是未登錄而產生遺漏值 , 填答者拒絶回答 ( 隱私的問題… ), 或則是取樣不適當 , 也就是找來的填答者 , 根本不適合填答我們的問題 , 這些都有可能導致於遺漏值的發生。當遺漏值發生時,我們就需要做遺漏值的分析。 1. 開啟範例檔 missing data.sav ,按 Analyze Missing Value Analysis 2. 選取 Score , Cost 3. 按 > , 將 Score , Cost 選入 Quantitative Variables ,點選 Listwise 、 Pairwise 、 EM 、 Regression ,再選取 Sex 、 Income 、 Location 4. 按 > ,將 Sex 、 Income 、 Location 選入 Categorical Variables 5. 按 Descriptives , 選取 Univariate statistics 、 Percent mismatch 、Sort by missing value patterns 、 t tests with groups formed by indicator variabels 、 Crosstabulations of categorical and indicator variables 6. 按 Continue ,回到 Missing Value Analysis 視窗 7. 按 Variables ,使用預設 Use all quantitative variables 8. 按 Cancel ,回到 Missing Value Analysis 視窗 9. 按 EM ,使用預設 Normal 10. 按 Continue ,回到 Missing Value Analysis 視窗 11. 按 Regression ,使用預設 Residuals 12. 按 Continue ,回到 Missing Value Analysis 視窗 13. 按 OK ,出現報表結果

遺漏值的分析

Page 8: 第三章 檢視資料與敍述性統計
Page 9: 第三章 檢視資料與敍述性統計

MVA (missing values analysis) 遺漏值分析Univariate Statistics

a Number of cases outside the range (Q1 - 1.5*IQR, Q3 + 1.5*IQR).

Missing Count 遺漏值的數量Missing Percent 遺漏值百分比

報表結果

Page 10: 第三章 檢視資料與敍述性統計

  一般處理遺漏值的方法有 (1) 只採用填寫完整的資料 (2) 刪除樣本個數 (3) 插補法 三大類 , 我們介紹如下:

1. 只採用填寫完整的資料

2. 刪除樣本個數或變數

3. 插補法 (Imputation method)

插補法適用於量化的變數 (metric variables), 常用的方法有 (a) 使用所有資訊 (b) 估計取代遺漏的資料兩個方法。

3-1-3 遺漏值的處理

Page 11: 第三章 檢視資料與敍述性統計

1. 開啟範例檔 missing data.sav

2. 按 Transform Replace Missing Values

3. 選取 Score

4. 在 Method 選取 Series mean ,按 > ,將 Score 選入 New Variable(s)

 ,變成 Score_1

5. 選取 Cost

6. 按 > ,將 Cost 選入 New Variable(s) ,變成 Cost_1 ,在 Method 選

取 Linear trend at point

7. 按 Change

8. 按 OK ,出現報表結果

9. 我們回到資料檔,會看到插補的數值,以新的變數 Score_1 和

Cost_1 儲存,如下圖:

實務操作如下:

Page 12: 第三章 檢視資料與敍述性統計

  在 Score_1 變數中,用 Score 變數的 Series mean 平均數 : 例如 75.78 ,來代替遺漏值。在 Cost_1 變數中,用 Cost 變數的線性迴歸所預測的數值 : 例如 9072.93 來代替遺漏值。

Page 13: 第三章 檢視資料與敍述性統計

  偏離值指的是變數的觀察值明顯的與其它值有所有不同 , 我們不能因此就判定偏離值的好與壞 , 而是要依變數含的內容而定 , 例如 , 變數代表的是企業的年淨利 , 若是有正的偏離值 , 其所代表的是企業該年表現的很傑出 , 賺了很多錢 , 相反的 , 調查物品的賣出價格時 , 若是有多個偏離值 , 其所代表的可能是售價有異常 , 需要加以檢視 , 以判定要保留或刪除 , 以避免偏離值影響正常的研究結果。

  偏離值發生的原因很多 , 常見的有輸入或編碼錯誤 , 異常的事件發生 , 若是具有代表性 , 則保留偏離值 , 若是不具有代表性 , 則刪除此偏離值 , 異常事件發生的偏離值 , 雖然本身是偏離值 , 但若是與其它變數結合時 , 其有相當的代表含意 , 則我們仍然需要保留此偏離值。有關偏離值的量測,我們會在檢定多變量分析基本假設的實務操作中,一併實作。

3-1-4 偏離值 Outlier

Page 14: 第三章 檢視資料與敍述性統計

  在進行多變量分析之前 , 我們須先確認收集而來的樣本 , 必須符合多變量分析的基本假設 , 有常態性 (normality), 同質性 (homoscedasticity) 也稱為變異數相等 , 和線性 (linearity), 若是變數和變量無法符合多變量分析的基本假設 , 則可以透過資料的轉換 , 以達到符合多變量分析的基本假設 , 在一般的量化研究中 , 若是資料未符合多變量分析的基本假設 , 並且未經由資料的轉換而符合多變量分析的基本假設 , 那麼使用多變量技術 , 進行統計的假設檢定結果 , 無法支持其結果無法支持結果的論述 , 原因就在於其收集的資料 , 根本就不適用於多變量分析 , 而是需要其它量化技術的處理。

3-1-5 檢定多變量分析的基本假設

Page 15: 第三章 檢視資料與敍述性統計

常態性的檢定有多種 , 我們介紹常用的方式如下:Histogram 直方圖Stem-and-leaf 根菜圖skewness 偏度kurtosis 峰度kolmogorov-Smirnov, K-S 檢定Shapiro-wilk, S-W 檢定

常態性的檢定

Page 16: 第三章 檢視資料與敍述性統計

直方圖是簡易的判定方式 , 如下圖 , 其呈現的分配 , 如同常態分配的型態

       中間較高 , 兩邊較低

Histogram 直方圖

Page 17: 第三章 檢視資料與敍述性統計

根菜圖是另一種簡易的判別方式 , 如下圖:

   Stem 是根 , 也就是觀察的值 , leaf 是次數 , 觀察值發生的次數 , 看根葉圖時 , 必須轉 90 度看 , 也是如同常態分配的型態中間較高 , 兩邊較低。

Stem-and-leaf 根菜圖

Page 18: 第三章 檢視資料與敍述性統計

Skewness 偏度  資料分佈的情形 , 以偏度來看除了正常的常態分配外 , 有可能是左偏或右偏的資料分配 , 如下圖:

  資料的左偏和右偏的分佈 , 有時難以判定時 , 可以用偏度的統計值 Z skewness 來作統計檢定

Z skewness =           N 是樣本數 (Hair, 1998)

我們需要的是 Z 值小於常態分配的臨界值 , 例如 , 在 95% 的信心水準下 , 臨界值是 1.96, 也就是說 , z 值介於 1.96 時 , 接受為常態分配 , 若是在 99% 的信心水準下 , 臨界值是+ 2.58, 也就是說 z 值介於+ 2.58 時 , 接受常態分配。

N

skewness

6

Page 19: 第三章 檢視資料與敍述性統計

kurtosis 峰度  資料的分佈 , 以峰度來看 , 除了正常的常態分配外 , 有可能是高狹峰態分佈和低闊峰態分佈 , 如下圖:

  資料的高狹峰態分佈和低闊峰態分佈 , 有時難以判定時 , 可以用峰度的統計值 Z kurtosis 來作統計檢定

Z kurtosis =         N 是樣本數 (Hair, 1998)

  我們需要的是 Z 值小於常態分配的臨界值 , 例如 , 在 95% 的信心水準下 , 臨界值是+ 1.96, 也就是說 , z 值介於+ 1.96 時 , 接受為常態分配 , 若是在 99% 的信心水準下 , 臨界值是+ 2.58, 也就是說 z 值介於+ 2.58 時 , 接受常態分配。

N

kurtosis

24

Page 20: 第三章 檢視資料與敍述性統計

Kolmogorov-Smirnov 檢定和 Shapiro-wilk 檢定

   Kolmogorov-Smirnov 檢定和 Shapiro-wilk 檢定是常態性檢定中 , 最常用的 2個方法 , 因為這兩種檢定都提供了統計檢定的顯著水準 , 若是達到顯著水準 , 以 95%的信心水準為例 , Sig.p0.05, 則會拒絶虛無假設 – 也就是拒絶了常態性 , 我們想要的是”不顯著” , Sig.p > 0.05, 代表的是符合常態分配。Homoscedasticity ( 同質性 )

   Homoscedasticity ( 同質性 ) 也稱為變異數相等 , 我們檢定變異數相等的目的是避免依變數只被部份的自變數所解釋 , 特別是在 ANOVA 單變量變異數分析和 MANOVA 多變量變異數分析 , 都需要作變異數相等的檢定 , 一般最常用的方式如下:依變數為一個計量變數 (metric) 時 , 適用 Levene test, 來檢測單一變數是否平均分佈於不同組別。依變數為兩個計量變數 (metric) 時 , 適用 Box’s M 檢定 , 來檢測變異矩陣或共變異矩陣的相等性。

  對於 Levene test 和 Box’s M 檢定 , 我們在 ANOVA 和 MANOVA 章節有實作和解說。

Page 21: 第三章 檢視資料與敍述性統計

Linearity 線性

  多變量分析中 , 另一個重要的基本假設就是 Linearity 線性 , 只要是基於線性結合的多項式關係而進行的多變量分析技術 , 都需要符合線性的特性 , 例如 , 多元迴歸 (Multiple regression), 邏輯迴歸 (Logic regression) 和結構方程式 (SEM), 一般用來檢定變數是否為線性分佈的方法有散佈圖 (scatter plots) 和簡易迴歸 , 從散佈圖可以看出資料呈現的型態是否為線性 , 從簡易迴歸可以看出非線性部份所呈現的殘差 (residuals), 殘差會反應出依變數無法解釋的部份 , 若是殘差過大 , 已經影響到線性分佈時 , 就需要透過資料的轉換作處理 , 將非線性份佈的變數轉換成線性分佈 , 我們整理資料的轉換方式如下:變數在偏度 Skewness 為平坦時 , 適用倒數 ( 例如:     )變數在偏度 Skewness 左偏時 , 適用開根號變數在偏度 Skewness 右偏時 , 適用倒數或 log

  讀者可以視需要將資料轉換成常態分佈和線性的分佈

y1 x

1 或

Page 22: 第三章 檢視資料與敍述性統計

1. 開啟範例檔 normal data.sav 2. 按 Analyze Descriptive Statistics Explore 3. 選取 Score 和 Cost 4. 按 > , 將 Score 和 Cost 選入 Dependent List 5. 按 Statistics ,選取 Descriptives 和 Outliers 6. 按 Continue ,回到 Explore 視窗 7. 按 Plots ,選 Factor levels together 、 Stem-and-leaf 、 Histogram 、 Normality plots   with tests 8. 按 Continue ,回到 Explore 視窗 9. 按 OK ,出現結果報表

實務操作如下:

Page 23: 第三章 檢視資料與敍述性統計

Tests of Normality :常態性檢定

* This is a lower bound of the true significance. a Lilliefors Significance Correction Score 和 Cost 變數經由 Kolmogorov-Smirnov 和 Shapiro-Wilk 檢定,均 為不顯著,化表的是符合常態分配。

報表輸出的結果如下:

Page 24: 第三章 檢視資料與敍述性統計

3-2 敘述性統計分析( Descriptive statistics )

  敘述性統計就是將收集到的資料,使用各種統計圖表及統計量的計算,清楚的呈現統計的結果。範例 : 我們設計的研究問卷如下:

  本研究問卷共發出 957 份,回收有效問卷 350 份。根據問卷企業基本資料部份之填答內容,有公司使用之大型資訊系統、員工人數、資本額、營業額、 ERP 專案預算、公司產業類別等,經編碼輸入資料後,存檔成 descriptive.sav 。

Page 25: 第三章 檢視資料與敍述性統計

實務操作如下:1. 開啟範例檔 descriptive.sav 2. 按 Analyze Descriptive Statistics Frequencies 3. 在 Frequencies 視窗,選取所有變數 4. 按 > ,將所有變數選入 Variable(s) 5. 按 Statistics ,選取 Std. deviation , Variance , Range , Minimum , Maximum , S.E.Mean 6. 按 Continue ,回到 Frequencies 視窗 7. 按 OK ,出現報表結果

Page 26: 第三章 檢視資料與敍述性統計

敘述統計結果整理 回收樣本基本資料描述  本研究問卷共發出 957 份,回收 372 份,扣除填答不全與胡亂填答之無效問卷22 份,有效問卷 350 份,有效回收率為 36.57 % 。根據問卷企業基本資料部份之填答內容,依公司使用之大型資訊系統、員工人數、資本額、營業額、 ERP 專案預算、公司產業類別等。

資本額  企業年資本額,如下表所示,以 2 億 ~10 億 ( 不含 ) 佔最多,共 152 家( 43.4%),其次為 10 億 ~50 億 ( 不含 ) ,佔樣本 25.1% 。 2 億以上之企業共佔 79.7% 。         樣本回收企業 2004 年資本額分佈情況

Page 27: 第三章 檢視資料與敍述性統計

公司員工總人數

  在公司員工總人數方面,如下表所示,以 100~ 499 人為最多,共有 179 家 (51.1%) ,其次為 100 人以下,佔樣本 16.6% , 500~999 人,佔樣本15.1% , 1000~1999 人為最少,共 22 家( 6.3% )。

          樣本回收總人數分佈情況表

Page 28: 第三章 檢視資料與敍述性統計

營業額  營業額如下表所示,顯示企業年營業額以 10 億 ~20 億 ( 不含 ) 最多,佔樣本 27.1% ,其次為 10 億以下佔樣本 25.7% , 20 億 ~30 億 ( 不含 ) 佔樣本 12.0% 和 30 億 ~50 億 ( 不含 ) 佔樣本 12.0% , 100 億以上佔樣本 11.7% , 50 億 ~100 億 ( 不含 ) 佔樣本 11.4% 。         樣本回收企業營業額分佈情況

Page 29: 第三章 檢視資料與敍述性統計

  我國 ERP 專案建置的方式,主要可以分為專案統包與專業分工兩種類型。外商 ERP 軟體業者多採取「專業分工」的策略,透過企業管理顧問公司或國際級資訊大廠,以專業顧問服務與最佳典範經驗滿足大型企業流程再造的需求。而所謂「專案統包」指業者同時扮演專案建置與 ERP 軟體開發的角色。過去,由於台灣軟體市場規模太小(不及資訊硬體的十分之一) ( 資料來源: 2003 ,周樹林 ) ,造成本土 ERP 業者多採取專案統包的建置策略,並強調軟體修改的彈性以滿足企業本土化特殊流程的需求,所以大部分的企業 ERP 系統屬於客制化的系統,故回收問卷回覆多以 40.6% 「其他」。  另外,企業對於 ERP 專案資本支出的要求謹慎,其中 ERP 專案預算低於一千萬高達 63.4% ,因為導入 ERP金額多寡為台灣地區企業主之考慮建置 ERP 系統之關鍵因素之一,雖然 SAP 及 Oracle擁有技術領先及軟體功能完整之優勢,但其高額的導入費用 (SAP :一億以上及 Oracle : 1千萬 ~五千萬 ) 也令台灣企業望之卻步。故回收樣本中,除了其他之外,有部分企業是優先以企業本身的資訊部門來自行開發相關軟體,有 23.4% 以「自行開發」為主。

Page 30: 第三章 檢視資料與敍述性統計

  在企業採用 ERP 系統方面,以「其他」所佔樣本比率最高為 40.6% ,其次為「自行開發」,佔樣本 24.3% , SAP 佔樣本 8.9% , Oracle 佔樣本 10.0% 和鼎新 Tip-Top 佔樣本 16.3% 。除「其他」和「自行開發」以外,台灣企業電子化 (e-Business) 軟體市場在經過整合後,有呈現大者恆大的態勢,本研究調查 ERP 前三大的廠商 SAP(8.9%) 、 Oracle(10.0%) 與鼎新 (16.3%) 合計市佔率即高達 35.2% 。整體而言, 在各項應用軟體市場中, 除國外大廠 SAP 及 Oracle 等外,鼎新為目前國內最具規模之廠商。

               ERP 系統採用現況

企業採用 ERP 系統現況

Page 31: 第三章 檢視資料與敍述性統計

  在專案預算方面,顯示企業大部分對於 ERP 導入的投資費用以 1仟萬以下所佔比率最高為 63.1% ,其次為 1仟萬 ~3仟萬 ( 不含 ) ,佔樣本 24.9% , 3仟萬 ~5仟萬 ( 不含 ) 佔樣本 3.4% , 5仟萬 ~1 億 ( 不含 ) 佔樣本 3.7% , 2 億以上佔樣本 2.6% , 1 億 ~2 億 ( 不含 ) 佔樣本 2.3% ,如下表所示。

               ERP 專案預算

ERP 專案預算 ( 包含軟硬體和系統開發 )

Page 32: 第三章 檢視資料與敍述性統計

  企業產業別分佈情況,如下表所示,在企業產業類別以電子及通訊器材為最多,共 102 家 (29.1%) ,其次為消費性電子,佔樣本 10.9% ,在其次為電機機械與其他,皆佔樣本 9.4% 。           樣本回收企業產業別分佈情況

企業產業別分佈情況

Page 33: 第三章 檢視資料與敍述性統計

  問卷回收後,針對填答「其他」的企業,再以電子郵件的方式詢問其行業別,對於仍無回函者,參考中華徵信所「 2004 年台灣地區 TOP 5000 」之行業別,對回收樣本中「其他」部分的資料進行分類,如下表所示。           樣本回收「其他」產業別分佈情況