Upload
zachary-dixon
View
73
Download
3
Embed Size (px)
DESCRIPTION
Introduction to Inference 推論簡介. 統計推論. 統計推論 (Statistical Inference) 提供方法,由樣本資料推得母體的一些結論。 常見的統計推論: 信賴區間 (confidence intervals) :對母體參數的估計。 顯著性檢定 (tests of significance) :對母體參數的某種宣告評估資料所提供之證據。 統計推論是在資料為 隨機樣本 或是來自 隨機實驗 的假設前提下提出的。. 投擲銅板出現正面的機率. Estimating with Confidence 具信賴度的估計. 例題 NAEP 調查研究. - PowerPoint PPT Presentation
Citation preview
Introduction to Inference推論簡介
統計推論• 統計推論 (Statistical Inference) 提供方法,由樣本資料推得母體的一些結論。
• 常見的統計推論:– 信賴區間 (confidence intervals) :對母體參數的估計。
– 顯著性檢定 (tests of significance) :對母體參數的某種宣告評估資料所提供之證據。
• 統計推論是在資料為隨機樣本或是來自隨機實驗的假設前提下提出的。
大數法則
若某事件有既定的機率,而我們不斷的進行相同
的實驗,則該事件發生的次數比例會越來越接近
這個既定的機率。
投擲銅板出現正面的機率
Estimating with Confidence具信賴度的估計
例題 NAEP 調查研究• National Assessment of Educational Progr
ess ( 全國性教育進展評量,簡記為 NAEP) 調查包括一份簡短測驗,內容有數量技能,涵括基礎算術及應用到實際問題的能力。測驗分數 0 ~ 500 分。– 233 分以上的人會加總兩張存款條上金額– 325 分以上的人會判別菜單上一份餐的金額– 375 分以上的人會將每盎司 (ounce) 幾分 (ce
nts) 轉換成每磅 (pound) 幾元 (dollars)
樣本資料• 一份含 840 個樣本,由全體 21~25 歲男性中隨機抽出。這 840 個男性的 NAEP ( 樣本 ) 平均成績為 。
• 這樣的結果,可以對全體九千五百萬個21~25 歲男性的平均成績 做什麼推論?
大數法則推論• 根據大數法則,隨機大樣本之樣本均數
會很接近母體均數 。• 因此用樣本平均成績 來估計全體平均成績 。
• 即全體九千五百萬個 21~25 歲男性的平均成績 大大大。
樣本平均數的變異• 取很多份樣本數為 840 的隨機樣本,則樣本平均成績 的變異如何?
• 根據中央極限定理,隨機大樣本之樣本平均數分配近似常態。– 此近似常態的平均數與原母體平均數相同。– 此近似常態的變異數為原母體變異數 2 大大大大,
大樣本平均數的變異數為 2 。• 假設原標準差 為 60 ,則樣本平均數的標準差為 。
樣本平均數的分配• 取很多組樣本數為 840 的隨機樣本,樣本平均成績分別為 = 272, =268, = 273, etc. 其直方圖可呈現樣本均數的分配。
Population
= ?
= 60
SRS n = 840
SRS n = 840
SRS n = 840
樣本平均數的分配圖形
的值
的樣本分配
未知參數
統計信賴度(Statistical Confidence)
• 根據常態 68-95-99.7 規則, 95% 樣本組的樣本均數 會落在母體均數 的兩個標準差之間。即 95% 的 落在 。
•
• 95% 的樣本組,根據樣本平均數計算出的區間 , 會包括母體平均數 。
母體平均數的信賴區間 (Confidence Interval)
• 取很多組樣本數為 840 的隨機樣本,根據樣本均數 及公式 計算出這些區間中,有 95% 會包括母體均數。
Population
= ?
= 60
SRS n = 840
SRS n = 840
SRS n = 840
95% 信賴區間圖示的樣本分配
未知參數
機率 = 0.95
• 有 50 人丟擲公平硬幣 30 次,記錄出現 head 之次數
• 利用 excel 求出 樣本之 mean, variance, standard deviation
• 公平硬幣 ( 母體 ) 之 μ = np = 30*0.5=1.5
• σ2 = npq = 30*0.5*0.5 =7.5
信賴區間之一般型式 (form)
• 未知參數的信賴水準 (confidence level) C 之信賴區間,或稱為 100C % 信賴區間 (a level C confidence interval) ,為:– 區間型式為
估計量 ± 誤差域(estimate ± margin of error)
– 在重覆取樣下,估計區間 ( 視為隨機區間 )會包括未知參數的機率,即為信賴水準 C 。
單組樣本 z 統計量• 常態母體均數為 標準差為 ,則樣本平均數 服從 。
• 標準化之統計量
服從標準常態,稱為單組樣本 z 統計量。
常態母體平均數 之信賴區間
• 常態母體均數 之 100C % 信賴區間的求法:– 標示出常態曲線下中央面積為 C 的區域, 邊界值稱為臨界值 (critical value) ,記為 z* 。
– 即 z 介於 ± z* 之間的機率為 C 。
例題 6.3 80% 之信賴區間圖示
標準常態曲線
0 1.28
機率 = 0.8
z*=1.28
機率 = (1-0.8)/2=0.1機率 = 0.1
常態母體平均數 之信賴區間
• 常態母體平均數 之 80 % 信賴區間:
常態平均數 之信賴區間圖示
標準常態曲線
0 z*
機率 = C
z*
機率 = (1-C)/2
機率 = (1-C)/2
母體平均數 之信賴區間• 母體平均數 大大標準差 大大,抽出一組樣本數為 n 之隨機樣本,則 之 100C % 信賴區間為 (z*可由表 C 查得 )
• 若母體為常態,則為正確的 (exact) 信賴區間。在其他情況,樣本數 n 夠大時為近似信賴區間。
常用之信賴水準及臨界值
信賴水準的意義• 95 % 的信賴水準的意義如下:
每一組樣本數為 n 之隨機樣本可得到一個母體平均數 之 95 % 信賴區間, 則 100 組樣本使用同樣的方法算出的 100 個 95 % 信賴區間中,其中大約有 95 個信賴區間包含了真正的母體均數 大
例題 6.4 製藥的分析• 藥廠對每一批產品抽一樣品 (specimen) 分析其某主成份之濃度。
• 假設每一樣品重複測度的結果接近常態。• 分析程序無偏差,成份分析結果可估計真正的母體濃度平均數 。
• 已知標準差為 = 0.0068 公克 / 公升。• 實驗室提供每一樣品 3 次的成份分析結果。
例題 6.4( 續 )
• 某一樣品 (specimen) 3 次成份濃度分析重複測度的結果如右: 0.8403, 0.8363, 0.8447 – 樣本平均數
• 母體均數 之 99 % 信賴區間– 由表 C 查得 z* = 2.576
– 99 % 信賴區間為 [0.8303, 0.8505]
例題 6.4 (再續 )
• 假設只用一次濃度分析的結果: 0.8404– 樣本平均數 =.8404
• 則母體均數 之 99 % 信賴區間
– 99 % 信賴區間為 [0.8229, 0.8579]
圖 6.7
• n 越大信賴區間越短。
0.84 0.85 0.860.830.82
n = 1
n = 3
信賴區間的行為 (behavior)
• 信賴區間的中心位置由樣本平均數決定。• 信賴區間寬度之一半稱為誤差域 (margin of er
ror) m
– 臨界值 z* :信賴水準越高 z*越大,信賴區間越寬。
– 標準差: 越大,信賴區間越寬。– 樣本數 n : n 越大,信賴區間越窄。
例題 6.5 改變誤差域• 例題 6.4 之信賴度由 99%改為 90% , z
* 由 2.576改為 1.645 。樣本平均數與變異數仍然相同。
• 信賴區間為
– 90 % 信賴區間為 [0.8339, 0.8469]– 誤差域由 ± 0.0101 變為 ± 0.0065 。
圖 6.8
• 信賴度越高,信賴區間越寬。
0.84 0.85 0.860.830.82
90% 信賴度
99% 信賴度
樣本數的選擇• 給定誤差域 m 及信賴水準,可查表求得臨界值 z* ,則在已知標準差時可計算所需要的樣本數。
例題 6.6 需要多少樣本數?• m = 0.005, 信賴水準 95% ,臨界值 z*
=1.96 , = 0.0068 ,則所需要的樣本數為 7.1 以上。
• 取 n = 8
一些注意事項• 資料必須是從母體中隨機抽樣取得的。• 因為 會被一些極端觀察值強烈的影響,所以離群值對信賴區間有很大的影響作用。
• 區間完全取決於 的分配。– 如果母體不為常態而且樣本很小,真正的信賴水準會與計算區間時的信賴度不相同。
– 當 n ≧15,除非有極端的離群值或是相當強烈的不對稱,信賴水準不會因母體非常態而大受影響。
• 必須知道母體的標準差 σ。這個不切實際的假設使得區間 在統計實務上用處較小。