View
255
Download
0
Embed Size (px)
Citation preview
統計實務 Fall 2002
授課教師:統計系余清祥 日期: 2002 年 10 月 16日
第五週:問卷資料的分析
抽樣調查的浮濫與誤用『在超市與藥房,私人贊助的調查取代了醫師、父母與藥劑師的地位;在法庭上,各類調查以取代律師的功能;在立法院,民意調查是人民的代言人;市調更是廣告與促銷最有用的利器。市調與民意的關係是一種詭異的循環,個人的信念被千百名陌生人的信念左右』
--- 「真實的謊言」
問卷設計的統計分析 敘述性統計量 (Descriptive Statistics)
相關性分析 卡方檢定 (Chi-Square Test )
因素分析 (Factor Analysis)
其他方法 ( 例如:迴歸、時間數列、存活分析、類別資料分析 )
敘述性統計量 基本資料分析 (Explanatory Data Analysis或 Initial Data Analysis) 是資料分析中最基本、也是非常重要的一個步驟,資料分析的成敗往往在這個步驟中決定。 敘述性統計量包括資料的基本特性,例如:平均數、標準差、所佔比例 ( 圖表 ) 等 。
一般的分類方式為:集中趨勢量數、差異量數
基本資料分析 資料偵錯
資料輸入錯誤、尋找可能的離群值。 初步探索資料的特性
資料的集中、散佈趨勢。 驗證已知的結果
是否與已知的結果相同?
集中趨勢量數 平均數 (Mean; 期望值 )
算術平均數 (Average) ; 加權平均數 (Weighted Average) ; 其他 ( 幾何平均數、調合平均數 ) 。 中位數 (Median): 一半的數值比中位數大,一半的數值比中位數小。
眾數 (Mode): 出現次數最多的數值
集中趨勢量數 ( 範例 ) 員工薪資為 25, 30, 30, 30, 35, 43, 70, 80, 85
→ 中位數是 35 25, 30, 30, 30, 35, 43, 70, 80, 85, 90
→中位數是 員工薪資為 25, 30, 30, 30, 35, 43, 70, 80, 85 →眾數是 30
25, 30, 30, 35, 38, 43, 43, 80, 85
→眾數是 30 及 43( 眾數不唯一 )
392
4335
差異量數 全距 (Range): 最大與最小數值之差 (Range = Max - Min) 四分位差 (Quartile Deviation): 四分位數 (Quartile;Q1): 3/4 的數值比大 Q1,
1/4 的數值比 Q1小。 四分位差 = Q3 – Q1
變異數 (Variance; σ2) 與標準差 (Standard Deviation;σ)
現代化連鎖餐飲店有什麼吸引你的地方
38.25%
22.25%
33.75%
5.75%
0.00% 10.00% 20.00% 30.00% 40.00% 50.00% 60.00% 70.00%
簡便快速
食物
環境因素
其它
選項 人數 百分比
1 簡便快速 153 38.25
2 食物 89 22.25
3 環境因素 135 33.75
4 其它 23 5.75 N= 400
問卷分析範例 以表格、圖形展示資料更有效果!
長條圖 (Bar Chart)
圓餅圖 (Pie Chart) 也是另一種圖形表示法。
§Ö³t (152, 38.1%)
¨ä¥L( 23, 5.8%)
Àô¹Ò(135, 33.8%)
¹ ª«( 89, 22.3%)
總統候選人的支持比例 (88 年 11 月 )圓餅圖的範例 ( 立體 )
許信良1%
不知道25%
李敖2%
連戰22%
鄭邦鎮0%
陳水扁21%
宋楚瑜30%
12
19
36
30
15
20
36
27
1719
31 31
2221
30
25
0
5
10
15
20
25
30
35
40
連戰 陳水扁 宋楚瑜 未表態
蓋洛普
中國時報
聯合報
政治大學民調中心
23.320.6
28.9
25.7
21.6 20.5
30.1
25.1
0
5
10
15
20
25
30
35
連戰
陳水扁
宋楚瑜
未回答
921地震災後(105~106)重建
宋楚瑜宣布副總統人選(11/11~11/12)
敘述統計量 ( 範例 )
例題一、試以文字詮釋以下隨機抽出某公司業務部門 20 位員工的年齡:41 25 25 33 27 31 42
35 36 32 36 41 34 29
34 31 34 35 32 35
平均數= 33.4 ,中位數= 34.0 , 標準差= 4.75 ,全距= 17 。
敘述統計量 (續 )
例題二、試以文字詮釋以下隨機抽出某公司 20 位員工去年請假的天數:
0 0 0 0 0 0 0 0 1 1
1 2 2 3 4 5 5 6 7 42
你 /妳 看到了甚麼現象?
敘述統計量 (續 )
例題三、街頭隨機訪問 20 位成年受訪者去年閱讀某月刊的期數:
0 1 11 0 0 0 2 12 0 0
12 1 0 0 0 0 12 0 11 0
請問這是甚麼樣的月刊?
敘述統計量 (續 )
例題四、以下為隨機抽出某地區 16 位孕婦的身高 (單位:公尺 ) :
1.57 1.55 1.60 1.52 1.68 1.57 1.62 1.55
1.65 1.52 2.55 1.60 1.55 1.60 1.62 1.57
請問你 /妳看到資料有何特性?
驟下結論?
驟下結論 ( 範例 ) 多數車禍發生在車速 40~ 60公里 / 時,僅有少數在車速超過 100公里。
開快車比較安全? 美國亞歷桑那州死於肺結核的比例最高。亞歷桑那州的天氣易於感染肺結核? 調查小學生的拼字能力,發現腳愈大的拼字能力也較強。
腳的大小影響拼字能力?
驟下結論 (續 ) 2001 年大陸調查發現長壽者中,排行老大者最多。
排行老大較長壽?抑或是排行老大者佔了多數? 英國公務統計顯示在家裡生產者,發生意外的比例較在醫院生產者高,因此孕婦都應該在醫院生產。
為什麼有些孕婦會在醫院以外的地方生產?
報紙上常看到的敘述! 《聯合報》 2002 年 9 月發表〈八月失業率,高學歷升幅最大〉。
1993 年 10 月 14 日《中國時報》刊出〈高學歷、高學費與高失業率〉,除了舉證當年前八個月專上失業高於平均水準外,還擔心中央政府「教科文支出」不得低於預算 15% 的憲法規定,將使大學院校大幅擴張,大學素質日益降低,「高學歷高失業率」現象未來 5 年到 10 年會更加凸顯。
表格與圖形 ( 範例 )例題五、大略敘述下圖資料的特性。
01
23
45
6
原始資料 (你 /妳猜對了嗎? )
0 1 2 3 4 5 6
01
02
03
0
Data
表格與圖形 (續 )例題六、 A 、 B兩公司的差距大嗎?
Year
Ea
rnin
g P
er
Sh
are
82 84 86 88 90
8.5
9.0
9.5
10
.01
0.5
Company ACompany B
更動 Y 軸標示單位的效果!
Year
Ea
rnin
g P
er
Sh
are
82 84 86 88 90
02
46
81
0
Company ACompany B
The Difference is smaller!!!
表格與圖形 (續 )例題七、謀殺率上升嚴重嗎?
No
. o
f M
urd
ers
1963 1964 1965 1966 1967 1968
14
01
60
18
02
00
22
0
Murders
Violent Crimes
-15000
-30000
No. of Violent Crimes
相關性分析 相關性分析的主旨在於找出數字大小的差異或關係,例如:
比較平均數 (Z 或 t 檢定 ) 、變異數 線性相關係數 (Correlation Coefficient)
但相關性分析在一般的問卷分析中無法進行,因為資料為選項式,不見得具有大小關係。
相關性分析 (續 ) 有些問卷會要求受訪者填寫 0到 9( 或 1到
5) 的數字,代表喜好 ( 或贊成 ) 的程度。 因此資料具有連續的大小關係,相關分析、甚至多變量分析都可使用。
這些分析假設填寫的數字具有大小關係,也就是說填寫 9 分者是填寫 1 分者的 9倍。 ( 實際上,很難驗證這是否合理! )
相關性分析 (續 ) 例如:以下為某項調查的兩個問項1.請問您平均一週到現代連鎖餐飲店用餐的次數:ˍ1. 0 次 ˍ2. 1~ 3 次 ˍ3. 3~ 6 次 ˍ4. 6~ 10 次ˍ5. 10 次以上2.請問您覺得現代連鎖餐飲店的價格如何?ˍ1.高很多 ˍ2.高一些 ˍ3. 差不多 ˍ4.低一些 ˍ5.低很多 計算出兩者的相關係數為 0.08 ,兩者間似乎不相關。
相關性分析 (續 ) 建議:以圖形或表格找出較明確的資訊。
第 2 題:價格
第 1
題 : 次 數
1 2 3 4 加總
1 34 47 4 2 87
2 67 199 14 0 280
3 3 22 2 0 27
4 1 3 0 0 4
5 1 1 0 0 2
加總 106 272 20 2 400
相關性分析 (續 ) 數字定義可能引起的問題: 評審給候選人 A 、 B 、 C 、 D 的評分。評審 1 2 3 4 5 6 7 總分
A 4 1 2 4 1 2 4 18
B 3 4 1 3 4 1 3 19
C 2 3 4 2 3 4 2 20
D 1 2 3 1 2 3 1 13
相關性分析 (續 ) 候選人 D 分數明顯最低,刪除後評審重新對候選人 A 、 B 、 C評分。A 的分數反而最高。評審 1 2 3 4 5 6 7 總分
A 3 1 2 3 1 2 3 15
B 2 2 1 2 2 1 2 14
C 1 3 3 1 3 3 1 13
卡方檢定 卡方檢定 (Chi-Square Test) 在問卷分析中多為交叉分析 (獨立性檢定 ) ,測量各問項間是否相關。
例如:隨機抽樣調查 200 位大學生,獲得其就讀年級與吸煙習慣的資料如下:
年級習慣
一年級 二年級 三年級 四年級
吸煙 21 33 25 20
不吸煙 47 26 19 9
很滿意
有點滿意
不太滿意
很不滿意
不知道/拒答
總計
不是在災區
12714.60
40546.55
13615.63
9911.38
10311.84
870
是在災區 6410.88
27446.60
10217.35
8514.46
6310.71
588
總計 19113.10
67946.57
23816.32
18412.62
16611.39
1458100.0
請問您對中央政府處理 921 大地震的救災工作這段期間的整體表現滿不滿意? vs. 請問您的戶籍是否在災區?
卡方檢定 (續 )
卡方檢定要求每一格的期望個數不得小於 5 ,因此個數太少者必須合併。
1 2 3 4 加總1 34 47 4 2 87
2 67 199 14 0 280
3 3 22 2 0 27
4 1 3 0 0 4
5 1 1 0 0 2
加總 106 272 20 2 400
卡方檢定 (續 ) 可能的合併方式:
分析結果:行與列有顯著的關係! 價格 vs. 次數
1 2 3 以上 加總
1 34 47 6 87
2 67 199 14 280
3 以上 5 26 2 33
加總 106 272 22 400
列聯表的資訊 美國某州的婦運團體研究判刑的輕重是否存有性別歧視,隨機抽取男女各一百名判刑確定的嫌犯,結果如下:
輕刑 重刑 總數
男嫌疑犯 40 60 100
女嫌疑犯 60 40 100
檢討第二次作業的問卷設計 問題定義除了較抽象的研究目的及方向外,問題的【操作型定義】更是重要,可將模糊的調查重點具體化。例如︰顧客的滿意度固然是某公司的調查目的,但探究隱藏在該公司提高顧客滿意度之下的動機,諸如增加營業額、或是顧客的消費金額,可以令問卷題目的設計更易捉摸。
例題:墮胎合法化 單純詢問是否支持墮胎合法化,無法幫助我們瞭解民眾支持或反對的原因。
如何將問題具像化? 可能的方向: 與墮胎同義、類似、或是可藉由聯想連接的觀念。
例如:婦女選擇墮胎應該屬於個人行為及決策,為什麼需要立法規範?
墮胎合法化 (續 )
規範墮胎不得僅憑婦女 ( 或其配偶、監護人等 ) 個人意志,代表的意義為何?
個人自由與國家社會發展間的平衡!! 對比:自由意志 與 生命無價 對比:個人生涯規劃 與 社會價值觀 可能的問題定義方向: 個人為了整個國家與社會的安定,願意犧牲自由的限度。
墮胎合法化 (續 ) 可能的問項順序:你 /妳贊成已婚婦女可自由選擇墮胎? Ǡ 1. 贊成 Ǡ 2. 贊成但需其配偶同意 Ǡ 3. 不贊成 Ǡ 4. 其他 ___________
你 /妳贊成未婚婦女可自由選擇墮胎? Ǡ 1. 贊成 Ǡ 2. 贊成但未成年者需監護人同意 Ǡ 3. 不贊成 Ǡ 4. 其他 ___________
你 /妳覺得胎兒在何時算是一個生命? Ǡ 1. 成為受精卵後 Ǡ 2.懷孕三個月後 Ǡ 3. 出生後 Ǡ 4. 其他 __________
_
墮胎合法化 (續 )你 /妳覺得台灣現在的墮胎率是否很高? Ǡ 1. 是 Ǡ 2. 不是 Ǡ 3. 其他 _________
你 /妳認為放寬現有的墮胎規定,是否會助長墮胎率的上升?
Ǡ 1.會 Ǡ 2. 不會 Ǡ 3. 其他 _________
你 /妳覺得墮胎合法化有何好處? ___________
你 /妳覺得墮胎合法化有何壞處? ___________
你 /妳覺得墮胎合法化整體而言: Ǡ 1. 利多於弊 Ǡ 2.得不償失 Ǡ 3. 其他 ___________
例題:公投議題 多數報章雜誌將公投的焦點放在「專業」與「民意」的平衡上,但這似乎過於簡化問題,本題在設計問項時需小心,盡量避免引導受訪者。
可能的問題定義方向:什麼是公投?公投與代議政治有何不同? 如果民眾普遍支持的議題,代議士反對,是否代表代議政治出現瑕疵?
公投議題 (續 )
專業意見是否正確?如果專業意見無法取得一致時,我們又該如何抉擇?
如果民眾自覺是最高原則,是否代表多數意見可以凌駕所有法令?
避免以下的詢問方式:請問你是否贊成「民意」可以凌駕在「專業」之上?( 這樣的問法多半會取得負面的答覆。 )
公投議題 (續 )
不妨採用以下的詢問方式:請問你是否知道台北縣坪林鄉舉行公投,希望北宜快速道路在坪林設置交流道?
請問你是否支持坪林鄉民的公投結果? 另外,我們也可以探討公投適用的範圍:地方性或全國性事務;公投的門檻;公投的法源基礎…等等議題。
例題:主要農產品 主要農產品與之前的題目不同,建議從調查的目的出發,例如:為什麼需要瞭解主要農產品。
一個可能的方向是調查該項農產品 /商品的知名度,或是大眾對它的印象。
類似提高顧客滿意度可聯想成提高業績,主要農產品也可往促銷的角度聯想,進一步轉成商品定位、或是行銷方式。