抽樣與抽樣分配 - web.cjcu.edu.twweb.cjcu.edu.tw/~jdwu/stat01/lect002.pdf · 統計推論的目的 •建立估計值(統計值)及利用樣本資訊來檢定母體的假設。

抽樣與抽樣分配

統計推論的目的

• 建立估計值(統計值)及利用樣本資訊來檢定母體的假設。

• 因為在實際上，對母體內的所有個體或物件進行測定或測試的，考量時間和成本的不可行，因此抽取樣本進行調查，變成必要的做法。

抽樣

• 抽樣的結果只是母體某些特徵值的估計值，我們不可能期待樣本平均數恰巧正是母體平均數，理由是樣本只是母體的一部分。

• 透過適當的抽樣方法，抽樣結果可以提供對母體特性的”良好”估計值，但估測的結果有多好，統計方法可回答此問題。

Electronics Associates公司(EAI)

的抽樣問題 (1)

• 2500位主管做為母體，從人事資料了解每個人的年薪及受訓狀況。

– 母體平均數： μ =$51,800

– 母體標準差： σ=$4,000

• 資料顯示2500位主管中有1500完成訓練課程，以p

代表完成課程的母體比例，p=1500/2500=0.60。

Electronics Associates公司(EAI)

的抽樣問題 (2)

• EAI公司如何利用樣本資料取得母體參數的估計值，假設抽出30位主管作為樣本，希望樣本資料可以提供母體的充分資訊，要如何抽出這30位主管?

簡單隨機抽樣 (Simple Random Sampling) (1)

• 簡單隨機抽樣樣本的定義和抽取程序視母體為有限(finite)或無限(infinite)母體而定。

• 簡單隨機樣本(有限母體)

–某一個大小為N的有限母體中，抽出樣本大小為n的簡單隨機樣本，意指大小為n的每個可能樣本被抽出的機率皆相同。

• EAI的抽樣問題包含2500為主管，屬於有限母體。

簡單隨機抽樣

(Simple Random Sampling) (2)

• 不歸還抽樣(sampling without replacement) – 選取樣本時，每個個體在樣本中只出現一次。

• 歸還抽樣(sampling with replacement) – 選取樣本時，每個個體在樣本中出現兩次甚至更多。

• 歸還抽樣雖然是簡單隨機抽樣的一個有效方法，但大部分的人還是使用不歸還抽樣方式，因此一般假設簡單隨機抽樣是以不歸還抽樣的方式進行。

簡單隨機抽樣

(Simple Random Sampling) (3) • 簡單隨機樣本(無限母體)

– 從無限母體抽出一個簡單隨機樣本必須滿足下列條件： • 每一個元素(或個體)皆抽自相同的母體。 • 每一個元素(或個體)皆可獨立抽出。

– 例子： • 速食店隨機選取顧客回答問題。

– 強調每一個元素(或個體)皆可獨立抽出的目的，是為了要避免選擇偏差。 • 如何做到獨立?

– 確保任一個被選中的顧客，都不會影響下一個顧客是否被選中。

– 以麥當勞為例：若有顧客使用折價卷，下個顧客就會被要求填答問卷。

點估計 (Point Estimation) (1)

• 樣本平均值( )是母體平均數(μ)的點估計量(point estimator)。

• 樣本標準差(s)是母體平均數(σ)的點估計量。

• 樣本比例( )是母體比例 p 的點估計量。

• 在特定樣本中得到的、s 或的值則稱為點估計值(point estimate)。

x

p

x p

點估計

(Point Estimation) (2) • 30位EAI主管樣本的點估計值

– 母體參數值

• μ = $51800

• σ = $ 4000

• p = 0.60

– 點估計值

• = $51814

• s = $ 3348

• = 0.63

• 沒有任何一項點估計值會恰好等於對應的母體參數，此項差異是意料中之事，因為我們只是應用樣本而非整個母體普查來進行點估計。

x

p

抽樣分配 (Sampling Distribution) (1)

• 假設我們現在另外抽出30位主管的資料，得到以下的點估計值：

• = $52670

• = 0.70

– 注意：此次的和值與前面不同。

• 假設我們重複同樣的抽樣程序，每次抽出30位主管為樣本，並計算的和值。

x

p

x p

x p




的抽樣分配 (1)

• 樣本平均數是隨機變數，的機率分配稱為的抽樣分配，它是樣本平均數的所有可能值的機率分配。

• 的期望值

• 在簡單隨機抽樣下，的抽樣分配的期望值或平均數等於母體平均數。

x

x x x

x

x

母體平均數

的期望值

)(

)(

xxE

xE

x

的抽樣分配 (2)

• 當點估計量的期望值等於母體參數，我們稱此點估計量為不偏估計量(unbiased estimator)，所以

是母體平均數的不偏估計量。

x

x

𝒙 的標準偏差 (1)

• 𝑥 的標準偏差

–有限母體

–無限母體

nN

nNx

1

母體大小

樣本大小

母體標準差

的標準偏差

N

n

x

n

x

x


• 比較兩個標準偏差算式，主要差別在有限母體算式多

了 (𝑁 − 𝑛)/(𝑁 − 1)，這個因子通常被稱為有限母體

校正因子(finite population correction factor)。

• 在許多的抽樣實例中，有些有限母體”很大”，相較之下的樣本大小則是”很小”，因此有限母體校正因子

(𝑁 − 𝑛)/(𝑁 − 1)趨近於1。所以母體不論是有限或

是無限，𝑥 的標準偏差的差異並不明顯，因此可以忽略。此時雖然母體是有限的，我們仍用𝜎𝑥 =𝜎 𝑛 為𝑥 標準差的計算公式。


• 𝑥 的標準偏差計算公式：

– 適用於當母體為無限，或母體為有限，且樣本數小於或等於母體大小的5%，也就是𝑛/𝑁 ≤ 0.05。

• 為了計算𝜎𝑥 ，需要知道母體的標準差σ，為進一步強調σ與𝜎𝑥 ，的差異，我們稱𝑥 的標準差𝜎𝑥 為平均數的標準誤(standard error)。一般而言，標準誤一詞是指點估計量的標準差。

nx


• EAI的例子

– σ= 4000，N=2500

– n/N=30/2500=0.012，因為樣本數小於母體大小的5%，可以忽略校正因子，所以計算得到：

3.730

30

4000

nx

𝒙 抽樣分配的形狀

• 母體為常態分配

– 如果母體是常態分配，無論樣本大小，𝑥 的抽樣分配也是常態分配。

• 母體不是常態分配

– 如果不是常態分配，中央極限定理(central limit theorem)

可以幫助我們決定𝑥 抽樣分配的形狀。

中央極限定理 (1)

• 由母體中抽出樣本大小為n的簡單隨機樣本，當樣本大小n夠大時，樣本平均數𝑥 抽樣分配將趨近於常態分配。



• 在大部分的統計應用實例中，只要樣本數大於30，

𝑥 的抽樣分配便會趨近常態分配。

• 如果母體的偏度高，或者有離群值，可能要求樣本數大於50。

• 如果母體是離散的，常態近似所需的樣本大小通常視母體比例而定。

𝒙 抽樣分配的實務價值 (1)



5034.02483.07517.0

)68.0()68.0(

)5230051300(

68.030.730

518005130068.0

30.730

5180052300

zPzP

xP

zz


• 一個樣本大小為30的EAI主管的簡單隨機樣本，其樣本平均數𝑥 會落在母體平均數±$500範圍內的機率為0.5034，也就是說，有1-0.5034=0.4966的機率會使樣本平均數超過 𝑥 和 = $51800範圍。

• 換句話說，樣本平均數有一半的機率會落在此範圍內，但有一半的機率不會。或許我們應該考慮更大樣本的情形，探討樣本大小與 𝑥 抽樣分配間的關係。

樣本大小與𝒙 抽樣分配的關係 (1)

樣本大小與抽樣分配的關係 (1)

• 假設在EAI抽樣的例子中，抽取的隨機樣本的大小為100位主管而非30位，直覺上，大樣本好像可以提供較多的資訊，樣本數 n=100 的樣本平均數比 n=30 的樣本平均數似乎會是更好的母體平均估計值。

• 首先並不考慮樣本大小，因此不管樣本大小 n 是多少，所有的可能值的平均數等於母體平均數 μ 。然而，樣本平均標準誤，則與樣本數的平方根有關。當樣本數增加，則標準誤減少。

– 在EAI問題中，當 n=30，標準誤為730.3，而當 n=100 時，則標準誤降為

x

)(xE

xnx

x

400100

4000

nx


x


• 計算在 n=100時，100位EAI主管簡單隨機樣本的平均數

會落在母體平均數±$500範圍內的機率。因為抽樣分配為常態，且其平均數為$51800，標準誤為$400，利用標準常態分配獲得機率值：

• z = 1.25的累積機率為0.8944，z = -1.25的累積機率為0.1056

x

x

25.1400

5180051300

25.1400

5180052300

z

z

7888.0

1056.08944.0

)25.1()25.1(

)5230051300(

zPzP

xP


• 從上述的結果得知，當抽樣樣本大小增加時，平均數的標準誤減少，因此當樣本愈大時，樣本平均數落於母體平均數的誤差在某特定範圍內的機率會愈高。

x

的抽樣分配 (1)

• 樣本比例是母體比例 p 的點估計量，計算樣本比例的公式是：

• 樣本比例是隨機變數，且其機率分配稱為的抽樣分配。

p

p

樣本大小

素數目樣本中有某種特性的元

n

x

n

xp

p p

的抽樣分配 (2)

• 為了決定樣本比例有多接近母體比例 p，需要先了解抽樣分配的幾個特徵值：的期望值、

的標準差及抽樣分配的形狀。

• 的期望值

• 的標準差

p

p

p pp

p

p

母體比例

的期望值

p

ppE

ppE

)(

)(

p

n

pp

n

pp

N

nN

p

p

)1(

)1(

1

無限母體：

有限母體：

的抽樣分配 (3)

• 樣本數夠大，無限母體與有限母體的差異是可以忽略的。樣本比例的標準差的計算，當母體為有限且 n/N0.05，可以使用的公式。但如果母體有限且 n/N>0.05，則必須加上有限母體校正因子。

• 在EAI例子中，參加管理課程的主管的比例為 p=0.60，由於 n/N=30/2500=0.012，故計算比例的標準誤時，可忽略有限母體校正因子，若樣本數為30位主管，則

p

nppp /)1(

0894.030

)06.01(06.0)1(

n

ppp

的抽樣分配 (4)

• 抽樣分配的形狀

– 樣本比例，就取自大母體的簡單隨機樣本而言，x值可視為二項隨機變數，表示樣本中具有某種特定屬性的元素個數。由於n是常數，x/n 的機率就像 x 的二項機率，的抽樣分配也是離散機率分配，每個 x/n 的機率即為 x 的機率。

– 當 np ≧ 5 及 n(1-p) ≧5，的抽樣分配可以利用常態分配來近似。

p

p

nxp /

p

p

的抽樣分配 (5)

• 在EAI抽樣的例子中，有參加管理訓練課程的主管的母體比例 p=0.60，當取樣樣本大小為30，則np=30 ×0.60=18且n(1-p)=30 ×0.40=12，的抽樣分配可以趨近常態分配描述。

p

p

0894.030

)60.01(60.0

p

的抽樣分配 (6)

• 樣本比例值落在 0.55 到 0.65 間的機率

p

p

4246.02877.07123.0)65.055.0( pP

的抽樣分配 (7)

• 若樣本大小由 30 增加為100，樣本比例值落在

0.55 到 0.65 間的機率：

p

p

049.0100

)60.01(60.0

p

02.1049.0

60.065.0

02.1049.0

6055.0

z

z

6922.01539.08461.0)02.102.1( zP

點估計量的性質 (1)

• 樣本統計量作為點估計量，需具備良好的點估計量的性質，包括：

–不偏性

–有效性

–一致性

• 以θ代表母體參數，代表樣本統計量或θ的點估計量。


• 不偏性

–樣本統計量的期望值等於要估計的母體參數的期望值，則此樣本統計量就是母體參數的不偏估計量(unbiased estimator)。

–樣本統計量，是母體參數θ的不偏估計量。

)ˆ(E



• 有效性

– 假定有n個元素的簡單隨機樣本可以提供同一個母體參數兩個不偏估計量，此種情況下，我們會使用標準差較小的點估計量，因為它可以提供更接近母體參數的估計值。標準差較小的點估計量相對於其他點估計量，有更高的相對有效性(relative efficiency)。


• 兩個不偏點估計量與的抽樣分配，的標準誤比的標準誤來得小，相較於，更有效，也是更好的點估計量。

1 2 1

2 2 1


• 一致性(consistency)

– 當樣本數變大時，點估計量的數值變得更接近母體參數時，就稱點估計量是一致的。換言之，大樣本比小樣本能提供更好的點估計值。

其他抽樣方法 (1)

• 分層隨機抽樣(stratified random sampling)

– 母體的所有元素先被區隔成數群，稱為層(strata)。母體中每一個元素只歸屬在某一個資料層中，常見的區分基準如部門、地理位置、年齡、產業別等，由樣本設計者自行決定。較好的區分方法是資料層內的元素愈相像愈好。

– 區隔出資料層後，再由每個資料層進行簡單隨機抽樣。分層抽樣的品質好壞，端視資料層內元素的同質性程度，同質性高，層內的變異將減少，只要少量的抽樣資料就可得到良好的估計值。


• 叢式抽樣或集束抽樣(cluster sampling)

– 母體首先被分出幾群，稱為叢體(clusters)，每個元素只歸屬一個叢體，然後再就所有叢體中進行簡單隨機抽樣。被抽出的叢體中的所有元素即構成樣本。

– 當一個叢體內的元素是異質(不相同)時，叢式抽樣可以得到好的分析結果。叢式抽樣的好壞評斷標準在於所用的叢體對母體是否有代表性。

– 叢式抽樣主要的應用之一是地區抽樣，每一叢體可以是城市的某個地區或其他定義清楚的地區。叢式抽樣通常抽取的樣本會比簡單隨機抽樣和分層隨機抽樣來得多，但是因為已經分成幾個叢體或地區，訪問者可在同一地區訪問(例如：某縣市的一里)，成本反而會降低，時間也可縮短。因此，叢式抽樣可以讓我們在此較低的成本下，取得較大的樣本。



• 系統抽樣(systematic sampling)

– 在某些抽樣情況下，特別是指母體很大的情況，簡單隨機抽樣利用亂數找對應的樣本元素將會相當費時。此時，系統抽樣就是可行的選擇。

– 例如：在5000個元素的母體中要抽出50個當作樣本，可以從每5000/50=100個元素中抽出一個元素，直到抽出50個元素為止。

– 這樣的抽樣方法比簡單隨機抽樣還要簡單，尤其當母體元素呈隨機排序時，由於第一個被抽出的元素是隨機決定的，系統抽樣通常也被假設為具有簡單隨機抽樣的特性。


• 便利抽樣(convenience sampling)

– 屬於非機率抽樣(nonprobability sampling)方法，正如其名，樣本是否被抽出的關鍵是便利性，我們無法知道樣本中的元素被抽中的

機率。

– 例如：教授可能以自願參與實驗的學生為樣本，因為學生是現成的，資料取得的成本也低。同樣的，檢驗員要檢驗一整個貨櫃的柳橙時，會隨意抽出幾箱柳橙作為樣本。

– 便利抽樣法的優點是樣本抽選與資料蒐集都相當簡單，但不可能以樣本的代表性來評估樣本的「適合度」(goodness)。便利抽樣的結果可能很好也可能不理想，沒有統計程序可用來對抽樣結果的品質進行機率分析或推論。

– 將便利抽樣視為隨機抽樣的做法並不被支持，因此用便利抽樣作母體的統計推論必須謹慎小心。


• 判斷抽樣(judgment sampling)

– 一種非機率抽樣方法

– 使用這種方法的研究者必須非常了解研究對象，選出他認為最能代表母體的樣本。這個方法通常也相當簡便，例如：一名記者可能會選出他認為最能反映全體參議員看法的2位或3位參議員來採訪。

– 這個方法選出的樣本的品質端視研究者的判斷而定，同樣地，利用此法做統計推論時，也要特別小心。

Documents

抽樣與抽樣分配 - web.cjcu.edu.twweb.cjcu.edu.tw/~jdwu/stat01/lect002.pdf · 統計推論的目的 •建立估計值(統計值)及利用樣本資訊來檢 定母體的假設。

抽樣與抽樣分配 - web.cjcu.edu.twweb.cjcu.edu.tw/~jdwu/stat01/lect002.pdf · 統計推論的目的 •建立估計值(統計值)及利用樣本資訊來檢定母體的假設。