View
233
Download
2
Embed Size (px)
Citation preview
Chapter 8
Inference for Proportions
第八章 母體比率的推論
Inference for Proportions
• 8.1 Inference for a Population Proportion
• 8.2 Comparing Two Proportions
例 8.1 : AIDS 風險行為• 全國性 AIDS 行為調查• 隨機樣本 2673 成年異性戀者• 其中 170 人過去一年間有兩位以上性伴侶,佔 6.36%
• 據此資料如何推估所有成年異性戀者中多重性伴侶的比率 ?
• 單母體比率問題
例 8.2 :學齡前教育是否有效• 學齡前教育計畫對貧窮小孩日後生活是否有不同?
• 1960 年代後期,接受密西根學齡前教育的62 位兒童與未接受學齡前教育的 61 位兒童比較
• 61% 學齡前受教育組與 80% 控制組在過去十年曾要求社會救助
• 此資料是否是學齡前教育有助於減少日後使用社會救助的顯著性證據 ?
• 雙母體比率的比較問題
Section 8.1母體比率的推論
樣本比率的抽樣分配推論的假設條件
z 程序樣本數的選擇
樣本比率 (Sample Proportion)
• 成功的樣本數除以全體觀察數的值稱為樣本比率 (sample proportion) ,記為 ( 念作 p-hat) 。– 多重性伴侶的樣本比率為
– 兩組曾要求社會救助的樣本比率為
樣本比率的抽樣分配• 由具有“成功”比率 p 的母體抽出樣本數為 n 的簡單隨機樣本。令樣本成功比率為 則
– 隨著樣本數 n 的增加 越接近常態– 抽樣分配的期望值為母體成功率 p– 抽樣分配的標準差為
樣本比率的抽樣分配圖示• 取很多組樣本數為 n 的隨機樣本,其樣本比率直方圖可呈現樣本比率的分配
成功率 p
母母
SRS n
SRS n
SRS n
樣本比率 的抽樣分配圖形
的值
的樣本分配
期望值 p
範例 8.3• 假設雙性戀成人有 6% 過去一年有二位以上的性伴侶 ( 且受詢問時會承認 )
• 全國性 AIDS 行為調查由此母體選出 2673 位隨機樣本
• 此樣本中至少有 5% 會承認過去一年有多性伴侶的機率為何?– 母體的多性伴侶比例為 6% , n = 2673 時的期望值為
p = 0.06 ,標準差為
– 欲求 p( 5%)
範例 8.3( 續 )• 標準化後服從近似標準常態假設
標準常態曲線
機率 =0.0146
機率 = 0.9854
推論的假設• 樣本數不太小且只佔母體的少部份時,
標準化後服從近似標準常態
• 我們可在滿足下列二規則 (rule of thumb) 下安全的用 z :1. 母體數至少 10 倍於樣本數2. 樣本數至少大到足夠使 np 和 n (1p) 都在 10
以上
推論假設的實用性• p ~ 0.5 時近似最正確, p ~ 0 或 1 時近似最不正確
• p = 0 或 1 時, = 1 或 0 ,近似一定不正確
• 上述二規則 (rule of thumb) 無法滿足時,仍可以更精緻的統計方法推論
• 在實用上, p 未知– 檢定 H0: p = p0時,以 p0 代入 z 統計量和規則 2– 信賴區間的推論,大樣本 接近 p 。以 代入安全規則。以 的標準誤差 代替標準差而得信賴區間型式為
比率推論的假設• 資料是由有興趣的母體取得的簡單隨機樣本
• 母體數至少 10 倍於樣本數• 檢定 H0: p = p0時,樣本數 n 至少大到足夠使 np0 和 n(1p0) 都在 10 以上
• 信賴區間時, n 至少大到使 n 和 n(1 ) 都在 10 以上
範例 8.4 :假設是否滿足?• 母體的多性伴侶比率的信賴區間• 資料是由複雜的分層抽樣設計取得,調查根據該設計推論程序進行,整體效果相當於簡單隨機樣本。
• 母體數遠大於樣本數 n = 2673 的 10 倍。 • 條件 2, 3 滿足,條件 1 大致滿足。
調查結論的詮釋• 調查結果可能低估,理由為:
– 調查時只有家居人口可接受電話調查,電話普及率 94% 的母體代表性夠。但 AIDS高危險群,如靜脈注射毒癮犯,多居無定所。電話調查的樣本代表低。
– 不合作比例過高 30% 。拒絕回答者與合作者或許有系統性偏差。該調查以統計方法將兩不同的回答率做調整。
– 以適當的訪員進行電訪以提高答案的真實性,但仍有可能因問題敏感而做不實回答。
z 程序 - 信賴區間• 由未知比率 p 的母體抽取簡單隨機樣本樣本為 n
• p 的 C 信賴度近似信賴區間為
其中 z*是標準常態 (1C)/2上尾臨界值
z 程序 - 檢定• 檢定 H0: p = p0時, z 統計量為
• 各對立假說下的 P- 值為– Ha: p > p0 之 P- 值為 – Ha: p < p0 之 P 值為 – Ha: p p0 之 P- 值為
範例 8.5 :風險行為的估計• 多性伴侶比率的估計值為 。• 信賴度 99% , z* = 2.576 近似信賴區間為
• 過去一年有二位以上的性伴侶之比率, 99% 近似信賴區間為 5.1% 到 7.6%之間。
範例 8.6 :銅板是否公正• Count Buffon (1707-1788)擲銅板 4040次。
– 正面次數為 2048 ,正面比率的估計值為
– 檢定銅板是否公正,即檢定 H0: p = 0.5 vs. Ha: p 0.5 – 檢定統計量為
– p- 值為
範例 8.6 :檢定圖示
= 0
p- 值 = 0.3788
-0.88 0.88
標準常態曲線
範例 8.7 :正面機率的估計• Buffon 所擲銅板正面比率的估計值為
• 信賴度 95% , z* = 1.96 近似信賴區間為
樣本數的選擇• p 之信賴區間的誤差域 (margin of error) 為
• 給定誤差域 m 及信賴水準,可查表求得臨界值 z* 。應用上,需以猜測值 p*代替 來計算所需要的樣本數– 以試驗性研究 (pilot study) 的結果作為猜測值 p*
– 以 p* = 0.5 作為猜測值。由於 p* = 0.5 時 m 最大,此法最保守。 即此法算出的 n ,所得的實際誤差域較所要求的小
給定誤差域 (margin of error) 求樣本數• 當樣本數為
時, p 之信賴區間的誤差域接近給定值 m 。其中 p*為樣本比率的猜測值。
• 猜測值 p* = 0.5 時,實際誤差域不大於給定值 m 。
範例 8.8 :抽樣調查計畫• 大城市中兩候選人得票率的調查計畫。• 信賴水準 95% 下,誤差域 m 不超過 0.03• 一般預料得票率在 30~70%之間• 令猜測值 p* = 0.5 ,則所需樣本數為
( 取 n =1068)• 若 m = 0.025 ,則所需樣本數為
• 若 m = 0.02 ,則所需樣本數為