第五組報告卡方檢定

卡方檢定：測驗兩個類別變數的獨立性

第五組：林晏平．劉佩怡．廖一珊．　　　　洪子媛．劉佳宜．謝雯帆．

要比較的樣本個數單一樣本→ｔ檢定雙樣本→雙樣本獨立ｔ檢定兩個以上的樣本→ＡＮＯＶＡ　　　　　　　　以上皆可→卡方檢定

卡方適合度檢定

類別資料所佔的比例可以反映出某種特定的機率分配

投擲一硬幣 500 次，得出 230 個正面，欲檢定此硬幣為公平硬幣

正面反面

觀察值 230 270

理論值 250 250

卡方獨立性檢定

兩種類別資料是否相關

隨機抽樣調查 200 位大學生，獲得其就讀年級與吸煙習慣的資料如下：

年級

習慣

一年級二年級三年級四年級

吸煙 21 33 25 20

不吸煙 47 26 19 9

無母數與有母數之比較＊無母數統計方法（ nonparametric metho

d ）

一種不需要知道母體機率分配的類型，不用在乎母數的探討，而且主要是適用於名義變項或是次序變項資料的統計推論方法，則稱為無母數統計方法；又稱為自由分配法（ distribution free method ）。

其基本假設為： (1) 隨機抽樣 (randomized) ；(2) 獨立性 (independent) ； (3) 至少為順序變項的資料 (ordinal) 。

有母數統計無母數統計

對象有限定母體的分配型態及母體參數。

不限

樣本數較適合大樣本。較適合小樣本。

限制較嚴格 ( 如常態分配 ) 既不嚴格 ( 如抽樣分配 )

難易度較難，不易明辨。較簡單

資料型態連續變項為主。名義、次序。

中心位置算數平均數中位數

離差量數變易數 , 標準差全距 , 四分位差 , 百分位差

屬描述性統計

大樣本的問題

1. 樣本數提升，容易得到統計顯著結果，卻不見得具有實質意義。

2. 例子：兩個人

3. 希望觀察與期望個數差異大，以推翻虛無假說，所以會使樣本數增加，則達到統計意義。

例子︰ ( 課本 p.439~ p.440)

卡方檢定值 ( 表 20.17) ︰ X2 樣本 =1.08148

10 倍樣本數 (n=14610)

卡方檢定值 ( 表 20.18) ︰ X2 樣本 =10.8148

結論： a. 用更細的類別，使在類別上有更多選項。 b. 增加其中一個變數的類別題目。

步驟 1 ：列出虛無及對立假說 H0 ：性別與購買名牌的能力沒有相關 Ha ：性別與購買名牌的能力有相關步驟 2 ：選擇合適的顯著性檢定方法採用卡方檢定來測驗是否為獨立變數步驟 3 ：計算樣本統計量先算出每個格子的期望個數

虛無假說的五個步驟：

購買品牌原因是追

求流行總和

是否

大學生的性別

男個數2 9 11

期望個數 1.7 9.4 11.0

購買品牌原因是追求流行內的 % 16.7% 13.2% 13.8%

女個數 10 59 69

期望個數 10.4 58.7 69.0

購買品牌原因是追求流行內的 % 83.3% 86.8% 86.3%

總和個數 12 68 80

期望個數 12.0 68.0 80.0

購買品牌原因是追求流行內的 % 100.0% 100.0% 100.0%

X2 樣本 =0.101

步驟 4 ：建立臨界值及臨界域 X2 臨界值 =3.841(a=0.05 ， df =1)

步驟 5 ：下決策

拒絕 H0

X2 樣本 =0.101 X2 臨界值 =3.841

樣本卡方值沒有落在臨界域內，所以不能拒絕虛無假說。

即性別與購買名牌的能力沒有相關。

小樣本的問題

當 :2 維列聯表任一格子之期望個數小於 1

2 維列聯表中比例最大的格子之期望個數小於 5( 理想狀況要大於等於 5)

--- 卡方檢定對於估計過小樣本的情況並不理想

小樣本的問題

對於大於 2x2 之 2 維列聯表，建議將其中一個或兩個變數一些類別合併（合併時必須確認這些類別的出現沒有差別）

可用 SPSS 之重新編碼來避免期望個數太小的問題

例：將「最低」、「低」合併為「低」　　　　「最高」、「高」合併為「高」

1.。

圖一

30

30

如上表， III ， IV 世代之卡方檢定 P 值＜ .05 ，也即所謂樣本與母體期望差異大，可推論未婚與已婚差異甚高。因此可知 50 年代以前，由樣本推論大部分人皆已婚；而 50 年代以後出生者可能仍有許多未婚者。

附錄

卡方檢定可以 2 維列聯表 , 測驗兩個變數是否獨立 .

如果 2 維列聯表為 2x2, 則也可用 z 檢定 ,而且會得到相同結果 .

以 z 檢定比較兩個比例是否有差異 , 是卡方檢定的特例 .

用 z 檢定比較兩個比例

抽樣變異可能會抽到很極端的樣本 , 所以就算抽出的樣本相同 ,也不見得能反映母體的情況 .

而差異越大表示來自抽樣變異的可能性越低 , 用 z 檢定比較兩個比例 ,便可知發生的機率有多少 .

重點

雙樣本 z 檢定是卡方檢定的特例 . 因為雙樣本 z 檢定的公式比較繁瑣 , 所以建議用卡方檢定 .

總結

為甚麼會用卡方檢定 ?因為用來看兩個變項之間是否互相獨立 .

影響卡方檢定的因素 ?樣本大小和顯著水準 .

卡方檢定使用的前題 ?為無母數檢定和資料是名義或順序尺度 .

變項之間有組間的差異代表有顯著相關嗎 ?

這時要用 Phi 與 Cramer‘s V 係數來看變項的關聯性強度 .

Documents

第五組報告卡方檢定