31
區間估計

區間估計 - 長榮大學web.cjcu.edu.tw/~jdwu/stat01/lect003.pdf · 母體平均數 (σ已知) • 為了求算母體平均數的區間估計值,必須知道母體的標準 差

  • Upload
    others

  • View
    10

  • Download
    0

Embed Size (px)

Citation preview

Page 1: 區間估計 - 長榮大學web.cjcu.edu.tw/~jdwu/stat01/lect003.pdf · 母體平均數 (σ已知) • 為了求算母體平均數的區間估計值,必須知道母體的標準 差

區間估計

Page 2: 區間估計 - 長榮大學web.cjcu.edu.tw/~jdwu/stat01/lect003.pdf · 母體平均數 (σ已知) • 為了求算母體平均數的區間估計值,必須知道母體的標準 差

區間估計值 (Interval Estimate)

• 由於點估計量的值不會恰好等於母體參數,因此區間估計值通常是由點估計量的值加或減某個值求得,我們稱這個加減值是邊際誤差(margin of

error)。

• 區間估計值的一般形式是:點估計值±邊際誤差。

• 區間估計值可以讓我們瞭解,由樣本得到的點估計值與母體參數值的接近程度。

Page 3: 區間估計 - 長榮大學web.cjcu.edu.tw/~jdwu/stat01/lect003.pdf · 母體平均數 (σ已知) • 為了求算母體平均數的區間估計值,必須知道母體的標準 差

母體平均數 (σ已知)

• 為了求算母體平均數的區間估計值,必須知道母體的標準差 σ 或樣本的標準差 s 以計算邊際誤差。

• 在大部分應用中, σ 很少是已知的數值,而是以 s 來計算邊際誤差。

• 在某些應用中,歷史資料或其他某些可用的訊息,讓我們得以在抽樣前取得母體標準差的優良估計值。

• 在品質管制的應用中,如果程序進行順利無誤,或在「控制中」,是母體標準差為已知也是適當的。此種情況稱為

σ 已知的情況。

Page 4: 區間估計 - 長榮大學web.cjcu.edu.tw/~jdwu/stat01/lect003.pdf · 母體平均數 (σ已知) • 為了求算母體平均數的區間估計值,必須知道母體的標準 差

個案研究:洛依德公司

• 洛依德公司每週選擇100名顧客的簡單隨機樣本,以瞭解每位顧客每次購物的花費。若以 x 表示每次購物的花費, 樣本平均 數 可以提供母體平均數 μ 的點估計值。洛伊德公司進行此項調查已有數年,根據歷史資料,洛伊德公司假定母體平均數 μ=$82 母體標準差 σ=$20,也顯示母體是常態分配。

x

Page 5: 區間估計 - 長榮大學web.cjcu.edu.tw/~jdwu/stat01/lect003.pdf · 母體平均數 (σ已知) • 為了求算母體平均數的區間估計值,必須知道母體的標準 差

邊際誤差與區間估計 (1)

• 洛依德公司的例子,購物花費的母體是標準差 σ=$20的常態分配,根據中央極限定理, 的抽樣分配是常態分配,且其標準誤 。

x2100/20 nx

Page 6: 區間估計 - 長榮大學web.cjcu.edu.tw/~jdwu/stat01/lect003.pdf · 母體平均數 (σ已知) • 為了求算母體平均數的區間估計值,必須知道母體的標準 差

邊際誤差與區間估計 (2)

• 利用標準常態機率表,可以發現95%的常態分配隨機變數的值會落在離平均值±1.96個標準差內,因為 的抽樣分配是常態分配,有95%的 值必須落在 μ ±1.96個標準差內。

• 洛依德公司的例子, 的抽樣分配是常態分配 ,標準誤 。 因為 。結論是:樣本大小為 n=100 而得到的樣本平均數會有95%落在母體平均數±3.92的範圍內。

xx

2x 92.3296.196.1 x

x

Page 7: 區間估計 - 長榮大學web.cjcu.edu.tw/~jdwu/stat01/lect003.pdf · 母體平均數 (σ已知) • 為了求算母體平均數的區間估計值,必須知道母體的標準 差

邊際誤差與區間估計 (3)

Page 8: 區間估計 - 長榮大學web.cjcu.edu.tw/~jdwu/stat01/lect003.pdf · 母體平均數 (σ已知) • 為了求算母體平均數的區間估計值,必須知道母體的標準 差

邊際誤差與區間估計 (4) • 假定選取三個不同的隨機樣本,每個樣本100名顧客。

形成的區間並未涵蓋母體平均數

參數μ。

92.3296.196.13 xxx x

Page 9: 區間估計 - 長榮大學web.cjcu.edu.tw/~jdwu/stat01/lect003.pdf · 母體平均數 (σ已知) • 為了求算母體平均數的區間估計值,必須知道母體的標準 差

邊際誤差與區間估計 (5)

• 假定最近數週內,洛依德公司的品管團隊調查100顧客,得到的購物花費平均數是 = 82,以 計算區間估計值, 可以得到82 ±3.92。因此,以最近一個月的樣本資料得到的區間估計值是82-3.92=78.08 到 82+3.92=85.92。

• 由於以 建立的各種區間估計值中,有95%的區間估計值會包含母體平均數。因此,我們可以說有95%的信心,78.08~85.92的區間會包含母體平均數μ,可以說這個區間是在95%的信賴水準(confidence level)下建立的。其中,0.95稱為信賴係數(confidence coefficient),區間78.08~

85.92則稱為信賴區間(confidence interval)。

x 92.3x

92.3x

Page 10: 區間估計 - 長榮大學web.cjcu.edu.tw/~jdwu/stat01/lect003.pdf · 母體平均數 (σ已知) • 為了求算母體平均數的區間估計值,必須知道母體的標準 差

邊際誤差與區間估計 (6)

• 已知邊際誤差為 ,母體平均數μ的區間估計值在σ已知的情況下,通式如下:

– 其中(1- α)是信賴係數,z α/2 是右尾面積為α/2的標準常態機率分配的z值。

• 90%信賴水準下,信賴區間:

• 95%信賴水準下,信賴區間:

• 99%信賴水準下,信賴區間:

)(2 nz

nzx

2

29.85~71.7829.382100

20645.182

92.85~08.7892.382100

2096.182

15.87~85.7615.582100

20576.282

Page 11: 區間估計 - 長榮大學web.cjcu.edu.tw/~jdwu/stat01/lect003.pdf · 母體平均數 (σ已知) • 為了求算母體平均數的區間估計值,必須知道母體的標準 差

實用忠告

• 母體是常態分配,利用 求算確切的信賴區間,95%的信賴區間,會有95%的信心此區間包含母體平均數。若母體不是常態分配,信賴區間則是近似值。

• 大部分的實際應用中,建立母體平均數的信賴區間時,樣本大小n ≧30 就已足夠;如果母體不是常態分配,但大致上對稱,樣本大小至少為15,也可以得到良好的近似信賴區間。樣本數更小時,只有分析人員相信或可以假定母體分配至少是近似常態時,才可使用。

nzx

2

Page 12: 區間估計 - 長榮大學web.cjcu.edu.tw/~jdwu/stat01/lect003.pdf · 母體平均數 (σ已知) • 為了求算母體平均數的區間估計值,必須知道母體的標準 差

母體平均數 (σ未知)

• 在建立母體平均數的區間估計值時,經常沒有母體標準差的良好估計值。在這種情況下,就要以同一個樣本來估計 μ 和 σ。此種情況稱為 σ未知的情況。

• 若以 s 來估計σ,邊際誤差及母體平均數的區間估計值是根據稱為 t 分配 (t distribution)的機率分配求算而得。

• 雖然 t 分配是假設母體為常態分配而建立的機率分配,但許多研究證明,在許多母體明顯非常態分配的情況下,t 分配仍有其適用性。

Page 13: 區間估計 - 長榮大學web.cjcu.edu.tw/~jdwu/stat01/lect003.pdf · 母體平均數 (σ已知) • 為了求算母體平均數的區間估計值,必須知道母體的標準 差

t 分配 (t Distribution) (1)

• t 分配是由一群類似的機率分配所組成,任一 t 分配都有其特定的參數,即所謂的自由度(degrees of freedom)。亦即可能有自由度為1、自由度為2、自由度為3等不同的 t

分配。當自由度增加時, t 分配和標準常態分配的差異將愈來愈小。注意: t 分配的平均值為0。

Page 14: 區間估計 - 長榮大學web.cjcu.edu.tw/~jdwu/stat01/lect003.pdf · 母體平均數 (σ已知) • 為了求算母體平均數的區間估計值,必須知道母體的標準 差

t 分配 (t Distribution) (2)

Page 15: 區間估計 - 長榮大學web.cjcu.edu.tw/~jdwu/stat01/lect003.pdf · 母體平均數 (σ已知) • 為了求算母體平均數的區間估計值,必須知道母體的標準 差

t 分配 (t Distribution) (3)

• 當 t 分配的自由度為 9 時,則 t0.025=2.262;當自由度是60時,則 t0.025=2.000;當自由度繼續增加,則 t0.025愈逼近 z0.025=1.96。事實上, t 分配自由度為無限大(∞),就等同於標準常態分配。假如自由度大於100,就可以用自由度無限大的 t 值來近似。換言之,自由度超過 100 的 t 分配,標準常態 z

值是很好的近似值。

Page 16: 區間估計 - 長榮大學web.cjcu.edu.tw/~jdwu/stat01/lect003.pdf · 母體平均數 (σ已知) • 為了求算母體平均數的區間估計值,必須知道母體的標準 差

邊際誤差與區間估計 (1)

• σ未知時,要計算μ的區間估計必須以樣本標準差 s 作為σ

的估計值,同時 zα/2 則以 t 分配的tα/2 值取代。因此,邊際誤差是 利用邊際誤差,可得到σ未知情況下,母體平均數的區間估計值的通式如下:

• s 為樣本標準差,(1- α)為信賴係數; tα/2 為自由度 n-1,而右尾面積為α/2 所對應的 t 值。

nst /2

n

stx 2

Page 17: 區間估計 - 長榮大學web.cjcu.edu.tw/~jdwu/stat01/lect003.pdf · 母體平均數 (σ已知) • 為了求算母體平均數的區間估計值,必須知道母體的標準 差

邊際誤差與區間估計 (2)

• 上式中的 t 值的自由度為 n-1,與利用 s 估計母體標準差 σ

有關,樣本標準差的計算式為:

• 自由度是指在 的計算中,提供資訊的獨立資料個數,n 個計算 的資料個數如下所示: 。由於任一資料集之 ,則其中只有 n-1 個 的值是獨立的;亦即,只要知道 n-1 個 的值,則最後一個值可以藉由 這個先決條件所決定。因此,n-1是對應於 的自由度。

1

)( 2

n

xxs i

2)( xxi

2)( xxixxxxxx n ..., , , 21

0)( xxi xxi

xxi

0)( xxi

2)( xxi

Page 18: 區間估計 - 長榮大學web.cjcu.edu.tw/~jdwu/stat01/lect003.pdf · 母體平均數 (σ已知) • 為了求算母體平均數的區間估計值,必須知道母體的標準 差

邊際誤差與區間估計 (3)

• 為了說明σ未知時的區間估計程序,看看以下的例子:

– 某個研究調查美國家庭信用卡帳戶餘額,以瞭解信用卡債務的情形。研究中共有70個家庭的信用卡帳戶餘額。因為沒有任何歷史資料,無法知道信用卡帳戶餘額的母體標準差。因此,必須利用樣本標準差 s 來估計母體標準差 σ 。

– 由資料算出樣本平均數 =$9312樣本標準差 s = $4007。信賴水準是95%,樣本大小是70,自由度為 n-1 = 69,查表得知在自由度為69下,t 分配右尾是0.025時 t0.025 = 1.995。

– 信用卡帳戶餘額的母體平均數的區間估計值:

x

10267~8357

9559312

70

4007995.193122

n

stx

Page 19: 區間估計 - 長榮大學web.cjcu.edu.tw/~jdwu/stat01/lect003.pdf · 母體平均數 (σ已知) • 為了求算母體平均數的區間估計值,必須知道母體的標準 差

邊際誤差與區間估計 (4)

• 實用忠告

– 如果母體是常態分配

• 公式: 的區間估計可以適用於任何大小樣本並產生確切的區間估計值。

• 如果母體不是常態分配,此公式的區間估計只是近似值,此種情況下,近似值的近似程度則視母體的分配及樣本大小而定。

• 大部分的實際應用中,以此公式建立母體平均數的信賴區間時,樣本大小 n≧30 就已足夠。但是,如果母體分配有嚴重的偏態或離群值,建議最好將樣本大小增加到50或更多。

– 如果母體不是常態分配,但大致上對稱

• 樣本大小至少為15,此公式仍可得到良好的近似信賴區間,但在樣本更小時,只有分析人員相信或可以假定母體分配至少近似常態時,才能使用此公式。

n

stx 2

Page 20: 區間估計 - 長榮大學web.cjcu.edu.tw/~jdwu/stat01/lect003.pdf · 母體平均數 (σ已知) • 為了求算母體平均數的區間估計值,必須知道母體的標準 差

邊際誤差與區間估計 (5)

• 當只有小樣本

– 選擇20名員工為樣本,接受此項訓練,樣本中的每一位員工所需的訓練天數。根據樣本資料的直方圖,無法得到母體是常態分配的結論,也看不出偏態或離群值,因此 t 分配及20個資料值的樣本來計算母體的區間估計值,應是可接受的。

– 這些資料計算出的平均數和樣本標準差:

7.54~3.482.35.5120

84.6093.25.51

093.2 ,191

84.6120

889

1

)(

5.5120

1030

025.0

2

tn

n

xxs

n

xx

i

i

Page 21: 區間估計 - 長榮大學web.cjcu.edu.tw/~jdwu/stat01/lect003.pdf · 母體平均數 (σ已知) • 為了求算母體平均數的區間估計值,必須知道母體的標準 差

母體平均數區間估計程序摘要

Page 22: 區間估計 - 長榮大學web.cjcu.edu.tw/~jdwu/stat01/lect003.pdf · 母體平均數 (σ已知) • 為了求算母體平均數的區間估計值,必須知道母體的標準 差

• 如何選擇夠大的樣本以得到預期的邊際誤差。

• 已知區間估計值如下:

• 即是邊際誤差。因此,知道 z α/2 、母體標準差 σ 和樣本數 n 決定了此一邊際誤差。一旦決定信賴係數 1- α,就可以決定 z α/2 。 如果有σ 的值,就可以在任何特定的邊際誤差下,找到所需的樣本數 n。

• 令E=所要的邊際誤差,則

• E值是使用者在特定信賴水準下願意接受的邊際誤差,常用的信賴水準為95%,其對應的z0.025 = 1.96。

樣本數大小的決定 (1)

nzx

2

nz

2

2

222/2/

2/ E

zn

E

zn

nzE

Page 23: 區間估計 - 長榮大學web.cjcu.edu.tw/~jdwu/stat01/lect003.pdf · 母體平均數 (σ已知) • 為了求算母體平均數的區間估計值,必須知道母體的標準 差

樣本數大小的決定 (2)

• 估計樣本數大小,須先知道母體標準差 σ ,即使 σ未知,如果先前已有 σ 的初始值或計畫值(planning value),仍可以公式估計。

• 三種獲得σ 的計畫值的方法:

– 以先前來自相同或類似單位的樣本求得樣本比例;

– 以前測(或先驅)實驗取得初步樣本,以此樣本得到的樣本標準差作為σ 的計畫值;

– 利用判斷或「最佳猜測法」決定 σ 值。例如:先估計母體的最大值與最小值,最大值與最小值的差距可作為全距(range)的估計值,再將全距除以 4 作為標準差的約略估計值,以作為母體σ 的計畫值。

Page 24: 區間估計 - 長榮大學web.cjcu.edu.tw/~jdwu/stat01/lect003.pdf · 母體平均數 (σ已知) • 為了求算母體平均數的區間估計值,必須知道母體的標準 差

樣本數大小的決定 (3)

• 在一個美國租車費用的調查中發現,租用中型汽車的平均費用是每天$55。假設原先執行這項調查的公司想要執行另一項新的調查,以估計現階段在美國租用一輛中型汽車一天所需的費用。在設計此項新的研究時,計畫主持人特別指定在估計每天租車費的母體平均數時,必須採用的邊際誤差為$2,信賴水準則為95%。一位分析師看過先前研究的樣本資料,得到樣本標準差為$9.65。

• 建議的樣本數是90個中型汽車租金的樣本。

43.892

65.996.1)(2

22

2

222/

E

zn

Page 25: 區間估計 - 長榮大學web.cjcu.edu.tw/~jdwu/stat01/lect003.pdf · 母體平均數 (σ已知) • 為了求算母體平均數的區間估計值,必須知道母體的標準 差

母體比例 (1)

• 母體比例 p 的區間估計值的通式是:

• 若np≧5 且 n(1-p) ≧5,則 的抽樣分配會近似常態分配。

• 的標準誤是:

邊際誤差p

p

p

n

ppp

)1(

Page 26: 區間估計 - 長榮大學web.cjcu.edu.tw/~jdwu/stat01/lect003.pdf · 母體平均數 (σ已知) • 為了求算母體平均數的區間估計值,必須知道母體的標準 差

母體比例 (2)

• 母體比例的區間估計值:

• 其中,1- α 為信賴係數,而z α/2為標準常態分配右尾面積α/2所對應的z值。

n

ppzp

)1(2/

Page 27: 區間估計 - 長榮大學web.cjcu.edu.tw/~jdwu/stat01/lect003.pdf · 母體平均數 (σ已知) • 為了求算母體平均數的區間估計值,必須知道母體的標準 差

母體比例 (3)

• 為了瞭解女性高爾夫球員對高爾夫球課程的看法,針對全美900位女性高爾夫球員進行調查。調查結果發現,有396

位女性高爾夫球員對練習發球的次數感到滿意,如此,對發球次數感到滿意的女性高爾夫球員之母體比例的點估計為396/900=0.44,其95%的信賴區間估計為:

• 結論:我們有95%的信心說,有40.76%~47.24%的女性高爾夫球員,對其練習發球的次數感到滿意。

4724.0~4076.0

0324.044.0

900

)44.01(44.096.144.0

)1(2/

n

ppzp

Page 28: 區間估計 - 長榮大學web.cjcu.edu.tw/~jdwu/stat01/lect003.pdf · 母體平均數 (σ已知) • 為了求算母體平均數的區間估計值,必須知道母體的標準 差

母體比例 (3)

• 樣本大小的決定

• E = 所要的邊際誤差

• 我們不能使用上式公式計算特定邊際誤差下的樣本大小,因為 必須在抽樣後才能得知,因此我們需要 的計畫值,以便計算所需要的樣本大小。以符號 p*表示 的計畫值,以下式計算所需樣本大小:

2

22/

2/

)1()(

)1(

E

ppzn

n

ppzE

p p

p

2

**22/ )1()(

E

ppzn

Page 29: 區間估計 - 長榮大學web.cjcu.edu.tw/~jdwu/stat01/lect003.pdf · 母體平均數 (σ已知) • 為了求算母體平均數的區間估計值,必須知道母體的標準 差

母體比例 (4)

• 計畫值 可依下列程序獲得: – 以先前來自相同或類似的樣本之樣本比例作為計畫值p*;

– 以前測(或先驅)實驗選擇適當的樣本,以此樣本比例作為計畫值p*;

– 利用判斷或「最佳猜測法」來決定計畫值p*;

– 在沒有先前的實驗資料可用的情形下,可設 p*的計畫值為0.50。

p

Page 30: 區間估計 - 長榮大學web.cjcu.edu.tw/~jdwu/stat01/lect003.pdf · 母體平均數 (σ已知) • 為了求算母體平均數的區間估計值,必須知道母體的標準 差

母體比例 (5)

• 再回到女性高爾夫球員的相關調查,假若此調查之主持人希望在95%的信賴水準下,母體比例估計的邊際誤差為0.025,則需要多大的樣本?

• 以之前的調查結果中 = 0.44當作計畫值 p*:

• 若沒有其他資訊,而選擇使用p* = 0.50當作計畫值的理由是因為,此時樣本數會最大,可保證有足夠的樣本數來確保達到所需要的精確度。

5.1514025.0

)44.01(44.096.1)1()(2

2

2

**22/

E

ppzn

p

6.1536025.0

)50.01(50.096.1)1()(2

2

2

**22/

E

ppzn

Page 31: 區間估計 - 長榮大學web.cjcu.edu.tw/~jdwu/stat01/lect003.pdf · 母體平均數 (σ已知) • 為了求算母體平均數的區間估計值,必須知道母體的標準 差

母體比例 (6)