50
統統統統 Fa ll 2002 授授授授 授授授授授授 授授2002 授 10 授 16 授 授授授 授授授授授授授

統計實務 Fall 2002 授課教師:統計系余清祥 日期: 2002 年 10 月 16 日 第五週:問卷資料的分析

  • View
    255

  • Download
    0

Embed Size (px)

Citation preview

Page 1: 統計實務 Fall 2002 授課教師:統計系余清祥 日期: 2002 年 10 月 16 日 第五週:問卷資料的分析

統計實務 Fall 2002

授課教師:統計系余清祥 日期: 2002 年 10 月 16日

第五週:問卷資料的分析

Page 2: 統計實務 Fall 2002 授課教師:統計系余清祥 日期: 2002 年 10 月 16 日 第五週:問卷資料的分析

抽樣調查的浮濫與誤用『在超市與藥房,私人贊助的調查取代了醫師、父母與藥劑師的地位;在法庭上,各類調查以取代律師的功能;在立法院,民意調查是人民的代言人;市調更是廣告與促銷最有用的利器。市調與民意的關係是一種詭異的循環,個人的信念被千百名陌生人的信念左右』

--- 「真實的謊言」

Page 3: 統計實務 Fall 2002 授課教師:統計系余清祥 日期: 2002 年 10 月 16 日 第五週:問卷資料的分析

問卷設計的統計分析 敘述性統計量 (Descriptive Statistics)

相關性分析 卡方檢定 (Chi-Square Test )

因素分析 (Factor Analysis)

其他方法 ( 例如:迴歸、時間數列、存活分析、類別資料分析 )

Page 4: 統計實務 Fall 2002 授課教師:統計系余清祥 日期: 2002 年 10 月 16 日 第五週:問卷資料的分析

敘述性統計量 基本資料分析 (Explanatory Data Analysis或 Initial Data Analysis) 是資料分析中最基本、也是非常重要的一個步驟,資料分析的成敗往往在這個步驟中決定。 敘述性統計量包括資料的基本特性,例如:平均數、標準差、所佔比例 ( 圖表 ) 等 。

一般的分類方式為:集中趨勢量數、差異量數

Page 5: 統計實務 Fall 2002 授課教師:統計系余清祥 日期: 2002 年 10 月 16 日 第五週:問卷資料的分析

基本資料分析 資料偵錯

資料輸入錯誤、尋找可能的離群值。 初步探索資料的特性

資料的集中、散佈趨勢。 驗證已知的結果

是否與已知的結果相同?

Page 6: 統計實務 Fall 2002 授課教師:統計系余清祥 日期: 2002 年 10 月 16 日 第五週:問卷資料的分析

集中趨勢量數 平均數 (Mean; 期望值 )

算術平均數 (Average) ; 加權平均數 (Weighted Average) ; 其他 ( 幾何平均數、調合平均數 ) 。 中位數 (Median): 一半的數值比中位數大,一半的數值比中位數小。

眾數 (Mode): 出現次數最多的數值

Page 7: 統計實務 Fall 2002 授課教師:統計系余清祥 日期: 2002 年 10 月 16 日 第五週:問卷資料的分析

集中趨勢量數 ( 範例 ) 員工薪資為 25, 30, 30, 30, 35, 43, 70, 80, 85

→ 中位數是 35 25, 30, 30, 30, 35, 43, 70, 80, 85, 90

→中位數是 員工薪資為 25, 30, 30, 30, 35, 43, 70, 80, 85 →眾數是 30

25, 30, 30, 35, 38, 43, 43, 80, 85

→眾數是 30 及 43( 眾數不唯一 )

392

4335

Page 8: 統計實務 Fall 2002 授課教師:統計系余清祥 日期: 2002 年 10 月 16 日 第五週:問卷資料的分析

差異量數 全距 (Range): 最大與最小數值之差 (Range = Max - Min) 四分位差 (Quartile Deviation): 四分位數 (Quartile;Q1): 3/4 的數值比大 Q1,

1/4 的數值比 Q1小。 四分位差 = Q3 – Q1

變異數 (Variance; σ2) 與標準差 (Standard Deviation;σ)

Page 9: 統計實務 Fall 2002 授課教師:統計系余清祥 日期: 2002 年 10 月 16 日 第五週:問卷資料的分析

現代化連鎖餐飲店有什麼吸引你的地方

38.25%

22.25%

33.75%

5.75%

0.00% 10.00% 20.00% 30.00% 40.00% 50.00% 60.00% 70.00%

簡便快速

食物

環境因素

其它

選項 人數 百分比

1 簡便快速 153 38.25

2 食物 89 22.25

3 環境因素 135 33.75

4 其它 23 5.75  N= 400  

問卷分析範例 以表格、圖形展示資料更有效果!

長條圖 (Bar Chart)

Page 10: 統計實務 Fall 2002 授課教師:統計系余清祥 日期: 2002 年 10 月 16 日 第五週:問卷資料的分析

圓餅圖 (Pie Chart) 也是另一種圖形表示法。

§Ö³t (152, 38.1%)

¨ä¥L( 23, 5.8%)

Àô¹Ò(135, 33.8%)

¹ ª«( 89, 22.3%)

Page 11: 統計實務 Fall 2002 授課教師:統計系余清祥 日期: 2002 年 10 月 16 日 第五週:問卷資料的分析

總統候選人的支持比例 (88 年 11 月 )圓餅圖的範例 ( 立體 )

許信良1%

不知道25%

李敖2%

連戰22%

鄭邦鎮0%

陳水扁21%

宋楚瑜30%

Page 12: 統計實務 Fall 2002 授課教師:統計系余清祥 日期: 2002 年 10 月 16 日 第五週:問卷資料的分析

12

19

36

30

15

20

36

27

1719

31 31

2221

30

25

0

5

10

15

20

25

30

35

40

連戰 陳水扁 宋楚瑜 未表態

蓋洛普

中國時報

聯合報

政治大學民調中心

Page 13: 統計實務 Fall 2002 授課教師:統計系余清祥 日期: 2002 年 10 月 16 日 第五週:問卷資料的分析

23.320.6

28.9

25.7

21.6 20.5

30.1

25.1

0

5

10

15

20

25

30

35

連戰

陳水扁

宋楚瑜

未回答

921地震災後(105~106)重建

宋楚瑜宣布副總統人選(11/11~11/12)

Page 14: 統計實務 Fall 2002 授課教師:統計系余清祥 日期: 2002 年 10 月 16 日 第五週:問卷資料的分析

敘述統計量 ( 範例 )

例題一、試以文字詮釋以下隨機抽出某公司業務部門 20 位員工的年齡:41 25 25 33 27 31 42

35 36 32 36 41 34 29

34 31 34 35 32 35

平均數= 33.4 ,中位數= 34.0 , 標準差= 4.75 ,全距= 17 。

Page 15: 統計實務 Fall 2002 授課教師:統計系余清祥 日期: 2002 年 10 月 16 日 第五週:問卷資料的分析

敘述統計量 (續 )

例題二、試以文字詮釋以下隨機抽出某公司 20 位員工去年請假的天數:

0 0 0 0 0 0 0 0 1 1

1 2 2 3 4 5 5 6 7 42

你 /妳 看到了甚麼現象?

Page 16: 統計實務 Fall 2002 授課教師:統計系余清祥 日期: 2002 年 10 月 16 日 第五週:問卷資料的分析

敘述統計量 (續 )

例題三、街頭隨機訪問 20 位成年受訪者去年閱讀某月刊的期數:

0 1 11 0 0 0 2 12 0 0

12 1 0 0 0 0 12 0 11 0

請問這是甚麼樣的月刊?

Page 17: 統計實務 Fall 2002 授課教師:統計系余清祥 日期: 2002 年 10 月 16 日 第五週:問卷資料的分析

敘述統計量 (續 )

例題四、以下為隨機抽出某地區 16 位孕婦的身高 (單位:公尺 ) :

1.57 1.55 1.60 1.52 1.68 1.57 1.62 1.55

1.65 1.52 2.55 1.60 1.55 1.60 1.62 1.57

請問你 /妳看到資料有何特性?

Page 18: 統計實務 Fall 2002 授課教師:統計系余清祥 日期: 2002 年 10 月 16 日 第五週:問卷資料的分析

驟下結論?

Page 19: 統計實務 Fall 2002 授課教師:統計系余清祥 日期: 2002 年 10 月 16 日 第五週:問卷資料的分析
Page 20: 統計實務 Fall 2002 授課教師:統計系余清祥 日期: 2002 年 10 月 16 日 第五週:問卷資料的分析

驟下結論 ( 範例 ) 多數車禍發生在車速 40~ 60公里 / 時,僅有少數在車速超過 100公里。

開快車比較安全? 美國亞歷桑那州死於肺結核的比例最高。亞歷桑那州的天氣易於感染肺結核? 調查小學生的拼字能力,發現腳愈大的拼字能力也較強。

腳的大小影響拼字能力?

Page 21: 統計實務 Fall 2002 授課教師:統計系余清祥 日期: 2002 年 10 月 16 日 第五週:問卷資料的分析

驟下結論 (續 ) 2001 年大陸調查發現長壽者中,排行老大者最多。

排行老大較長壽?抑或是排行老大者佔了多數? 英國公務統計顯示在家裡生產者,發生意外的比例較在醫院生產者高,因此孕婦都應該在醫院生產。

為什麼有些孕婦會在醫院以外的地方生產?

Page 22: 統計實務 Fall 2002 授課教師:統計系余清祥 日期: 2002 年 10 月 16 日 第五週:問卷資料的分析

報紙上常看到的敘述! 《聯合報》 2002 年 9 月發表〈八月失業率,高學歷升幅最大〉。

1993 年 10 月 14 日《中國時報》刊出〈高學歷、高學費與高失業率〉,除了舉證當年前八個月專上失業高於平均水準外,還擔心中央政府「教科文支出」不得低於預算 15% 的憲法規定,將使大學院校大幅擴張,大學素質日益降低,「高學歷高失業率」現象未來 5 年到 10 年會更加凸顯。

Page 23: 統計實務 Fall 2002 授課教師:統計系余清祥 日期: 2002 年 10 月 16 日 第五週:問卷資料的分析

表格與圖形 ( 範例 )例題五、大略敘述下圖資料的特性。

01

23

45

6

Page 24: 統計實務 Fall 2002 授課教師:統計系余清祥 日期: 2002 年 10 月 16 日 第五週:問卷資料的分析

原始資料 (你 /妳猜對了嗎? )

0 1 2 3 4 5 6

01

02

03

0

Data

Page 25: 統計實務 Fall 2002 授課教師:統計系余清祥 日期: 2002 年 10 月 16 日 第五週:問卷資料的分析

表格與圖形 (續 )例題六、 A 、 B兩公司的差距大嗎?

Year

Ea

rnin

g P

er

Sh

are

82 84 86 88 90

8.5

9.0

9.5

10

.01

0.5

Company ACompany B

Page 26: 統計實務 Fall 2002 授課教師:統計系余清祥 日期: 2002 年 10 月 16 日 第五週:問卷資料的分析

更動 Y 軸標示單位的效果!

Year

Ea

rnin

g P

er

Sh

are

82 84 86 88 90

02

46

81

0

Company ACompany B

The Difference is smaller!!!

Page 27: 統計實務 Fall 2002 授課教師:統計系余清祥 日期: 2002 年 10 月 16 日 第五週:問卷資料的分析

表格與圖形 (續 )例題七、謀殺率上升嚴重嗎?

No

. o

f M

urd

ers

1963 1964 1965 1966 1967 1968

14

01

60

18

02

00

22

0

Murders

Violent Crimes

-15000

-30000

No. of Violent Crimes

Page 28: 統計實務 Fall 2002 授課教師:統計系余清祥 日期: 2002 年 10 月 16 日 第五週:問卷資料的分析

相關性分析 相關性分析的主旨在於找出數字大小的差異或關係,例如:

比較平均數 (Z 或 t 檢定 ) 、變異數 線性相關係數 (Correlation Coefficient)

但相關性分析在一般的問卷分析中無法進行,因為資料為選項式,不見得具有大小關係。

Page 29: 統計實務 Fall 2002 授課教師:統計系余清祥 日期: 2002 年 10 月 16 日 第五週:問卷資料的分析
Page 30: 統計實務 Fall 2002 授課教師:統計系余清祥 日期: 2002 年 10 月 16 日 第五週:問卷資料的分析

相關性分析 (續 ) 有些問卷會要求受訪者填寫 0到 9( 或 1到

5) 的數字,代表喜好 ( 或贊成 ) 的程度。 因此資料具有連續的大小關係,相關分析、甚至多變量分析都可使用。

這些分析假設填寫的數字具有大小關係,也就是說填寫 9 分者是填寫 1 分者的 9倍。 ( 實際上,很難驗證這是否合理! )

Page 31: 統計實務 Fall 2002 授課教師:統計系余清祥 日期: 2002 年 10 月 16 日 第五週:問卷資料的分析

相關性分析 (續 ) 例如:以下為某項調查的兩個問項1.請問您平均一週到現代連鎖餐飲店用餐的次數:ˍ1. 0 次 ˍ2. 1~ 3 次 ˍ3. 3~ 6 次 ˍ4. 6~ 10 次ˍ5. 10 次以上2.請問您覺得現代連鎖餐飲店的價格如何?ˍ1.高很多 ˍ2.高一些 ˍ3. 差不多 ˍ4.低一些 ˍ5.低很多 計算出兩者的相關係數為 0.08 ,兩者間似乎不相關。

Page 32: 統計實務 Fall 2002 授課教師:統計系余清祥 日期: 2002 年 10 月 16 日 第五週:問卷資料的分析

相關性分析 (續 ) 建議:以圖形或表格找出較明確的資訊。

第 2 題:價格

第 1

題 : 次 數

  1 2 3 4 加總

1 34 47 4 2 87

2 67 199 14 0 280

3 3 22 2 0 27

4 1 3 0 0 4

5 1 1 0 0 2

加總 106 272 20 2 400

Page 33: 統計實務 Fall 2002 授課教師:統計系余清祥 日期: 2002 年 10 月 16 日 第五週:問卷資料的分析

相關性分析 (續 ) 數字定義可能引起的問題: 評審給候選人 A 、 B 、 C 、 D 的評分。評審 1 2 3 4 5 6 7 總分

A 4 1 2 4 1 2 4 18

B 3 4 1 3 4 1 3 19

C 2 3 4 2 3 4 2 20

D 1 2 3 1 2 3 1 13

Page 34: 統計實務 Fall 2002 授課教師:統計系余清祥 日期: 2002 年 10 月 16 日 第五週:問卷資料的分析

相關性分析 (續 ) 候選人 D 分數明顯最低,刪除後評審重新對候選人 A 、 B 、 C評分。A 的分數反而最高。評審 1 2 3 4 5 6 7 總分

A 3 1 2 3 1 2 3 15

B 2 2 1 2 2 1 2 14

C 1 3 3 1 3 3 1 13

Page 35: 統計實務 Fall 2002 授課教師:統計系余清祥 日期: 2002 年 10 月 16 日 第五週:問卷資料的分析

卡方檢定 卡方檢定 (Chi-Square Test) 在問卷分析中多為交叉分析 (獨立性檢定 ) ,測量各問項間是否相關。

例如:隨機抽樣調查 200 位大學生,獲得其就讀年級與吸煙習慣的資料如下:

年級習慣

一年級 二年級 三年級 四年級

吸煙 21 33 25 20

不吸煙 47 26 19 9

Page 36: 統計實務 Fall 2002 授課教師:統計系余清祥 日期: 2002 年 10 月 16 日 第五週:問卷資料的分析

  很滿意

有點滿意

不太滿意

很不滿意

不知道/拒答

總計

不是在災區 

12714.60

40546.55

13615.63

9911.38

10311.84

870 

是在災區 6410.88

27446.60

10217.35

8514.46

6310.71

588

總計 19113.10

67946.57

23816.32

18412.62

16611.39

1458100.0

請問您對中央政府處理 921 大地震的救災工作這段期間的整體表現滿不滿意? vs. 請問您的戶籍是否在災區?

Page 37: 統計實務 Fall 2002 授課教師:統計系余清祥 日期: 2002 年 10 月 16 日 第五週:問卷資料的分析
Page 38: 統計實務 Fall 2002 授課教師:統計系余清祥 日期: 2002 年 10 月 16 日 第五週:問卷資料的分析
Page 39: 統計實務 Fall 2002 授課教師:統計系余清祥 日期: 2002 年 10 月 16 日 第五週:問卷資料的分析

卡方檢定 (續 )

卡方檢定要求每一格的期望個數不得小於 5 ,因此個數太少者必須合併。

  1 2 3 4 加總1 34 47 4 2 87

2 67 199 14 0 280

3 3 22 2 0 27

4 1 3 0 0 4

5 1 1 0 0 2

加總 106 272 20 2 400

Page 40: 統計實務 Fall 2002 授課教師:統計系余清祥 日期: 2002 年 10 月 16 日 第五週:問卷資料的分析

卡方檢定 (續 ) 可能的合併方式:

分析結果:行與列有顯著的關係! 價格 vs. 次數

  1 2 3 以上 加總

1 34 47 6 87

2 67 199 14 280

3 以上 5 26 2 33

加總 106 272 22 400

Page 41: 統計實務 Fall 2002 授課教師:統計系余清祥 日期: 2002 年 10 月 16 日 第五週:問卷資料的分析

列聯表的資訊 美國某州的婦運團體研究判刑的輕重是否存有性別歧視,隨機抽取男女各一百名判刑確定的嫌犯,結果如下:

  輕刑 重刑 總數

男嫌疑犯 40 60 100

女嫌疑犯 60 40 100

Page 42: 統計實務 Fall 2002 授課教師:統計系余清祥 日期: 2002 年 10 月 16 日 第五週:問卷資料的分析

檢討第二次作業的問卷設計 問題定義除了較抽象的研究目的及方向外,問題的【操作型定義】更是重要,可將模糊的調查重點具體化。例如︰顧客的滿意度固然是某公司的調查目的,但探究隱藏在該公司提高顧客滿意度之下的動機,諸如增加營業額、或是顧客的消費金額,可以令問卷題目的設計更易捉摸。

Page 43: 統計實務 Fall 2002 授課教師:統計系余清祥 日期: 2002 年 10 月 16 日 第五週:問卷資料的分析

例題:墮胎合法化 單純詢問是否支持墮胎合法化,無法幫助我們瞭解民眾支持或反對的原因。

如何將問題具像化? 可能的方向: 與墮胎同義、類似、或是可藉由聯想連接的觀念。

例如:婦女選擇墮胎應該屬於個人行為及決策,為什麼需要立法規範?

Page 44: 統計實務 Fall 2002 授課教師:統計系余清祥 日期: 2002 年 10 月 16 日 第五週:問卷資料的分析

墮胎合法化 (續 )

規範墮胎不得僅憑婦女 ( 或其配偶、監護人等 ) 個人意志,代表的意義為何?

個人自由與國家社會發展間的平衡!! 對比:自由意志 與 生命無價 對比:個人生涯規劃 與 社會價值觀 可能的問題定義方向: 個人為了整個國家與社會的安定,願意犧牲自由的限度。

Page 45: 統計實務 Fall 2002 授課教師:統計系余清祥 日期: 2002 年 10 月 16 日 第五週:問卷資料的分析

墮胎合法化 (續 ) 可能的問項順序:你 /妳贊成已婚婦女可自由選擇墮胎? Ǡ 1. 贊成 Ǡ 2. 贊成但需其配偶同意 Ǡ 3. 不贊成 Ǡ 4. 其他 ___________

你 /妳贊成未婚婦女可自由選擇墮胎? Ǡ 1. 贊成 Ǡ 2. 贊成但未成年者需監護人同意 Ǡ 3. 不贊成 Ǡ 4. 其他 ___________

你 /妳覺得胎兒在何時算是一個生命? Ǡ 1. 成為受精卵後 Ǡ 2.懷孕三個月後 Ǡ 3. 出生後 Ǡ 4. 其他 __________

_

Page 46: 統計實務 Fall 2002 授課教師:統計系余清祥 日期: 2002 年 10 月 16 日 第五週:問卷資料的分析

墮胎合法化 (續 )你 /妳覺得台灣現在的墮胎率是否很高? Ǡ 1. 是 Ǡ 2. 不是 Ǡ 3. 其他 _________

你 /妳認為放寬現有的墮胎規定,是否會助長墮胎率的上升?

Ǡ 1.會 Ǡ 2. 不會 Ǡ 3. 其他 _________

你 /妳覺得墮胎合法化有何好處? ___________

你 /妳覺得墮胎合法化有何壞處? ___________

你 /妳覺得墮胎合法化整體而言: Ǡ 1. 利多於弊 Ǡ 2.得不償失 Ǡ 3. 其他 ___________

Page 47: 統計實務 Fall 2002 授課教師:統計系余清祥 日期: 2002 年 10 月 16 日 第五週:問卷資料的分析

例題:公投議題 多數報章雜誌將公投的焦點放在「專業」與「民意」的平衡上,但這似乎過於簡化問題,本題在設計問項時需小心,盡量避免引導受訪者。

可能的問題定義方向:什麼是公投?公投與代議政治有何不同? 如果民眾普遍支持的議題,代議士反對,是否代表代議政治出現瑕疵?

Page 48: 統計實務 Fall 2002 授課教師:統計系余清祥 日期: 2002 年 10 月 16 日 第五週:問卷資料的分析

公投議題 (續 )

專業意見是否正確?如果專業意見無法取得一致時,我們又該如何抉擇?

如果民眾自覺是最高原則,是否代表多數意見可以凌駕所有法令?

避免以下的詢問方式:請問你是否贊成「民意」可以凌駕在「專業」之上?( 這樣的問法多半會取得負面的答覆。 )

Page 49: 統計實務 Fall 2002 授課教師:統計系余清祥 日期: 2002 年 10 月 16 日 第五週:問卷資料的分析

公投議題 (續 )

不妨採用以下的詢問方式:請問你是否知道台北縣坪林鄉舉行公投,希望北宜快速道路在坪林設置交流道?

請問你是否支持坪林鄉民的公投結果? 另外,我們也可以探討公投適用的範圍:地方性或全國性事務;公投的門檻;公投的法源基礎…等等議題。

Page 50: 統計實務 Fall 2002 授課教師:統計系余清祥 日期: 2002 年 10 月 16 日 第五週:問卷資料的分析

例題:主要農產品 主要農產品與之前的題目不同,建議從調查的目的出發,例如:為什麼需要瞭解主要農產品。

一個可能的方向是調查該項農產品 /商品的知名度,或是大眾對它的印象。

類似提高顧客滿意度可聯想成提高業績,主要農產品也可往促銷的角度聯想,進一步轉成商品定位、或是行銷方式。