18
統計学 補足文書 1 13. 統計的推定 1. 統計量 統計的推測 (1) 統計的推測には,「推定」と「検定」の 2 つの分野がある。 (2) 統計的推定(statistical estimation)とは,標本から未知母数を推定すること。単に 「推定」ともいう。推定には,「点推定」と「区間推定」がある。 (3) 統計的仮説検定(testing statistical hypothesis)とは,未知母数に関する仮説を立て て,仮説の正当性を標本から判定すること。単に「検定」ともいう。 統計量 (1) 標本変量 から作られる式 を「統計量」という。統計量は,確率変数になる。 (2) 統計量の確率分布を,「標本分布」という。 (3) 推定と検定では,各種の統計量が使用される。以下は主な統計量である。 標本平均 標本分散 標本標準偏差 不偏分散(不偏標本分散) 2 2 1 S n n U = 不偏標準偏差 ) , , , ( 2 1 n X X X ) , , , ( 2 1 n X X X T T = X + + + = = i n i X X X n X n X ) ( 1 1 2 1 2 S + + + = = i n i X X X X X X n X X n S } ) ( ) ( ) ( { 1 ) ( 1 2 2 2 2 1 2 2 S 2 S S = 2 U + + + = = i n i X X X X X X n X X n U } ) ( ) ( ) ( { 1 1 ) ( 1 1 2 2 2 2 1 2 2 U 2 U U =

1 2 ∑ − + − + + X X 1 U Sµ±計的...母平均 µ,母分散 σ 2 の母集団からの大きさ の標本変量 ( , ) 1 2 X n から,次 の2 つの統計量を考えるとき,これらの平均は以下の(1)(2)のようになる。

  • Upload
    others

  • View
    0

  • Download
    0

Embed Size (px)

Citation preview

Page 1: 1 2 ∑ − + − + + X X 1 U Sµ±計的...母平均 µ,母分散 σ 2 の母集団からの大きさ の標本変量 ( , ) 1 2 X n から,次 の2 つの統計量を考えるとき,これらの平均は以下の(1)(2)のようになる。

統計学 補足文書

1

13. 統計的推定

1. 統計量

● 統計的推測

(1) 統計的推測には,「推定」と「検定」の 2 つの分野がある。 (2) 統計的推定(statistical estimation)とは,標本から未知母数を推定すること。単に

「推定」ともいう。推定には,「点推定」と「区間推定」がある。 (3) 統計的仮説検定(testing statistical hypothesis)とは,未知母数に関する仮説を立て

て,仮説の正当性を標本から判定すること。単に「検定」ともいう。

● 統計量

(1) 標本変量 から作られる式

を「統計量」という。統計量は,確率変数になる。

(2) 統計量の確率分布を,「標本分布」という。

(3) 推定と検定では,各種の統計量が使用される。以下は主な統計量である。

① 標本平均

② 標本分散

③ 標本標準偏差

④ 不偏分散(不偏標本分散)

22

1S

nnU−

=

⑤ 不偏標準偏差

),,,( 21 nXXX

),,,( 21 nXXXTT =

X

∑ +++==i

ni XXXn

XnX )(1121

2S

∑ −++−+−=−=i

ni XXXXXXn

XXnS })()()({1)(1 222

21

22

S

2SS =

2U

∑ −++−+−−

=−−

=i

ni XXXXXXn

XXn

U })()()({1

1)(1

1 222

21

22

U2UU =

Page 2: 1 2 ∑ − + − + + X X 1 U Sµ±計的...母平均 µ,母分散 σ 2 の母集団からの大きさ の標本変量 ( , ) 1 2 X n から,次 の2 つの統計量を考えるとき,これらの平均は以下の(1)(2)のようになる。

統計学 補足文書

2

2. 標本に関する用語

(1) 統計量に関する名称は,その統計量の実現値に対しても使われる。従って,確率変数/実

現値のどちらの意味なのかに注意する必要があるが,たいていの場合は文脈から判断できる。

(2) 母集団からの大きさ n の標本 に対して, iω の特性値を ix とすると,特

性値の組 ),,,( 21 nxxx が定まる。この特性値の組を「標本値」「標本の実現値」ともいう。 この標本値から定まる標本平均 X の実現値は

∑=i

ixn

x 1

また,標本分散 2S の実現値は

∑ −=i

i xxn

s 22 )(1

x や2s は, nxxx ,,, 21 の平均・分散のことであるが,この実現値 x を「標本平均」,

2sを「標本分散」という。 以下は,観測した標本値 ),,,( 21 nxxx から具体的に計算される実現値である。ただし,

不偏分散を標本分散,不偏標準偏差を標本標準偏差と呼んでいる解説書も多数あるので,解

説書を読むときは注意する必要がある。

① 標本平均

② 標本分散 2s

{ }∑ −++−+−=−=i

ni xxxxxxn

xxn

s 222

21

22 )()()(1)(1

③ 標本標準偏差 s 2ss =

④ 不偏分散(不偏標本分散) 2u

{ }∑ −++−+−−

=−−

=i

ni xxxxxxn

xxn

u 222

21

22 )()()(1

1)(1

1

(注意) 2u は「不偏分散値」ともいう。求め方は 2

1s

nnu−

=

⑤ 不偏標準偏差 u 2uu =

■ 例題

得られた標本値 1,2,3 に対して,標本平均 x ,標本分散2s ,標本標準偏差 s ,不偏分散 2u ,

不偏標準偏差 u を求めよ。

),,,( 21 nωωω

x

)(1121 n

ii xxx

nx

nx +++== ∑

Page 3: 1 2 ∑ − + − + + X X 1 U Sµ±計的...母平均 µ,母分散 σ 2 の母集団からの大きさ の標本変量 ( , ) 1 2 X n から,次 の2 つの統計量を考えるとき,これらの平均は以下の(1)(2)のようになる。

統計学 補足文書

3

<解> 標本平均 は,1,2,3 の真ん中の値であるから, 標本分散

2s を分散の公式で求めると,

∑ =−++=−=i

i xxn

s322)321(

311 2222222

標本標準偏差 s は 36

322 === ss

不偏分散 2u は 132

23

133 22 =×=−

= su

不偏標準偏差 u は 112 === uu 3. 標本分散と不偏分散の平均

● 定理(標本分散と不偏分散の平均)

母平均 µ ,母分散 2σ の母集団からの大きさ の標本変量 ),,,( 21 nXXX から,次

の 2 つの統計量を考えるとき,これらの平均は以下の(1)(2)のようになる。

標本分散 ∑ −=i

i XXn

S 22 )(1

不偏分散 ∑ −−

=i

i XXn

U 22 )(1

1

(1) 22 1)( σn

nSE −= (2) 22 )( σ=UE

(証明) 重要な定理である。証明は以下のとおり。補足文書 p.76,p.80 より,

µ=)( iXE ,2)( σ=iXV ( ni ,,2,1 = )

µ=)( XE ,n

XV2

)( σ=

XnXi

i =∑ に注意すると,

∑ ∑ +−=−=i i

iii XXXXXXSn )2()( 2222

∑∑ ∑ ∑ +−=+−=i

ii i i

ii XnXnXXXXX 22222 22

∑ −=i

i XnX 22

一般に,確率変数Y について,分散の公式より, 22 )()()( YEYEYV −= であるから, 22 )()()( YEYVYE +=

が成立するので,

x 2=x

n

Page 4: 1 2 ∑ − + − + + X X 1 U Sµ±計的...母平均 µ,母分散 σ 2 の母集団からの大きさ の標本変量 ( , ) 1 2 X n から,次 の2 つの統計量を考えるとき,これらの平均は以下の(1)(2)のようになる。

統計学 補足文書

4

2222 )()()( µσ +=+= iii XEXVXE

22

22 )()()( µσ+=+=

nXEXVXE

よって,

)()()( 222222 XnEXEXnXESnESEni

ii

i −

=

−== ∑∑

∑∑

+×−+=−=

iii n

nXEnXE 22

2222 )()()( µσµσ

22222 )1()()( σµσµσ −=+−+×= nnn

従って,22 1)( σ

nnSE −

= となり,(1)が証明された。

これにより,

22222 11

)(11

)( σσ =−

×−

=−

=

=n

nn

nSEn

nSn

nEUE

これで,(2)も証明された。 4. 点推定

● 点推定

(1) 母集団の未知母数θ を,1 つの値で推定することを「点推定」という。

(2) を推定するための統計量 をθ の「推定量」,標本値 から定まる の実現値 をθ の「推定値」という。

(3) 推定量T によるθ の点推定とは,θ の推定値を求めることである。

(4) の推定量 が

θ=)(TE (確率変数 の平均が に等しい)

をみたすとき,T は不偏性をもつという。このT をθ の「不偏推定量」, の実現値をθの「不偏推定値」という。

(1) 母数とは,母平均や母分散など,母集団から定まる定数のことである。これまで,母平均

や母分散の値は,すでに分かっていると仮定して議論したが,実際には分からない場合が多

い。値の分からない母数を未知母数という。

(2) 点推定とは,「母平均は 10 で推定できる」というように,未知母数を 1 つの数値で推定す

ることであるが,具体的には,推定値を 1 つ求めるだけである。

(3) 点推定では,未知母数θ を推定するための統計量(θ の推定量)

θ ),,,( 21 nXXXTT =

),,,( 21 nxxx T ),,,( 21 nxxxT

θ ),,,( 21 nXXXTT =

T θ

T

Page 5: 1 2 ∑ − + − + + X X 1 U Sµ±計的...母平均 µ,母分散 σ 2 の母集団からの大きさ の標本変量 ( , ) 1 2 X n から,次 の2 つの統計量を考えるとき,これらの平均は以下の(1)(2)のようになる。

統計学 補足文書

5

を考え,得られた標本値 ),,,( 21 nxxx から定まるT の実現値 ),,,( 21 nxxxT で推定

する。この実現値をθ の推定値という。

(4) θ の推定量T が, θ=)(TE を満たすとき,T を「θ の不偏推定量」,標本値から定まる

T の実現値を「θ の不偏推定値」という。一般に,点推定は,不偏推定量を用いて推定され

る。

● 定理

母平均 ,母分散 の母集団について,以下が成り立つ。

(1) 標本平均 は,母平均 の不偏推定量である。

(2) 標本分散 2S は,母分散 の不偏推定量ではない。

(3) 不偏分散 2U は,母分散 の不偏推定量である。

● 母平均 µ と母分散 2σ の点推定

(1) 一般に,標本平均 の実現値 x を,母平均 µ の不偏推定値とする。

(2) 一般に,不偏分散 2U の実現値(不偏分散値) 2u を,母分散 2σ の不偏推定値とする。

(1) 標本平均 X については,常に

µ== )()( XEXE

が成立するので, X は µ の不偏推定量であり,標本から得られる X の実現値が µ の不偏推

定値になる。 ところが,前述のページ(p.100)の定理より,標本分散 2S は,母分散 2σ の不偏推定量

にはならない。そのかわりに, 1−n で割った不偏分散 2U が, 2σ の不偏推定量になる。よっ

て,標本から決まる 2U の実現値(不偏分散値)が, 2σ の不偏推定値になる。

(2) 統計学の解説書によっては,標本分散 2S の実現値(通常の分散2

xσ )ではなく,不偏分

),,,( 21 nXXXTT =

µ 2σ

X µ2σ2σ

X

未知母数 θ

不偏推定量

T の実現値

標本値

点推定 不偏推定値

代入

母集団

),,,( 21 nxxxT

),,,( 21 nxxx ),,,( 21 nXXXTT =

Page 6: 1 2 ∑ − + − + + X X 1 U Sµ±計的...母平均 µ,母分散 σ 2 の母集団からの大きさ の標本変量 ( , ) 1 2 X n から,次 の2 つの統計量を考えるとき,これらの平均は以下の(1)(2)のようになる。

統計学 補足文書

6

散値が 2σ の不偏推定値になるという理由から,分散2

xσ を不偏分散の意味で説明し,

∑ −−

=i

ix xxn

22 )(1

と定義しているものも多数ある。ただし, n で割る通常の分散2

xσ は,記述統計では重要な

値なので,通常の分散と不偏分散は区別して理解した方がよい。

(3) 1 つの母数に対して,その不偏推定量は無数にある。例えば,標本のサイズを 2,標本変

量を ),( 21 XX とすると,標本平均

21 21

21 XXX +=

は,母平均 µ の不偏推定量だが,次の統計量T も µ の不偏推定量になる。

21 32

31 XXT +=

実際,T の平均を計算すれば,

µµµ =+=+=32

31)(

32)(

31)( 21 XEXETE

(4) 点推定では,適切な性質をもつ推定量で推定するのが望ましいとされる。詳細は略すが,

適切な性質には,「不偏性」のほかに「一致性」「有効性」などもある。 前述したように,母数θ に対して, θ=)(TE を満たす推定量T が,不偏推定量である。

また,標本のサイズ nを大きくすると,T の実現値が限りなくθ に近づくとき,推定量T を

「一致推定量」という。さらに,不偏推定量T の中で,その分散 )(TV が最小になるものを

「有効推定量」という。 1 つの母数θ に対して,その不偏推定量は無数にあるが,一般に,母平均の推定では標本

平均 X ,母分散の推定では不偏分散 2U が推定量として使用される。 よって,母平均や母分散の不偏推定値を求めよ,という問題に対しては,標本平均 x と不

偏分散値 2u を,それらの不偏推定値にすればよい。 ■ 例題

母平均 µ ,母分散 2σ の母集団から大きさ 4 の標本を無作為抽出して,標本値

4− ,1, 2 , 1−

を得た。このとき,次の値を求めよ。

(1) 母平均 µ の不偏推定値 (2) 母分散 2σ の不偏推定値

<解> まず, 4− ,1, 2 , 1− の標本平均 x と標本分散 2s を求める。 (1) 標本平均は

5.021)1214(

41

−=−=−++−=x

Page 7: 1 2 ∑ − + − + + X X 1 U Sµ±計的...母平均 µ,母分散 σ 2 の母集団からの大きさ の標本変量 ( , ) 1 2 X n から,次 の2 つの統計量を考えるとき,これらの平均は以下の(1)(2)のようになる。

統計学 補足文書

7

従って,母平均 µ の不偏推定値は 5.0− (答)

(2) 標本分散は,分散の公式から

{ }421

21)1(21)4(

41

222222 =

−−−+++−=s

よって,不偏分散は

7421

34

144 22 =×=−

= su

従って,母分散 2σ の不偏推定値は 7(答) 5. パーセント点

統計学では,パーセント点という表現がよく使用される。確率 に対して,100 %点は,

単に「 点」ともいう。 例えば, の場合は,100 %点は,「5%点」または「0.05 点」のことになる。パー

セント点の定義は,次のとおりである。

● パーセント点の定義

確率変数 と, を満たす実数 に対して,次のようにパーセント点を定義

する。

① 実数 が上側 100 %点 ⇔

② 実数 が下側 100 %点 ⇔

③ の確率分布が の平均 に関して対象であるとき,

実数 が両側 100 %点 ⇔

※ ③において, の に関する対称点を とすれば,

2/)()( α=≤=≥ LR xXPxXP

● 標準正規分布のパーセント点

確率変数 が標準正規分布に従うとする。 を満たす実数 に対して,上側 100 %点を で表す。すなわち,

このとき,次が成立する。

① は下側 100 点,すなわち,

② は両側 100 点,すなわち,

α α

α

05.0=α α

X 10 << α α

Rx α α=≥ )( RxXP

Lx α α=≤ )( LxXP

X X µ

Rx α 2/)( α=≥ RxXP

Rx µ Lx

Z

10 << α α α )(αz

αα =≥ ))(( zZP

)(αz− α αα =−≤ ))(( zZP

2αz α

222ααα

=

−≤=

≥ zZPzZP

Page 8: 1 2 ∑ − + − + + X X 1 U Sµ±計的...母平均 µ,母分散 σ 2 の母集団からの大きさ の標本変量 ( , ) 1 2 X n から,次 の2 つの統計量を考えるとき,これらの平均は以下の(1)(2)のようになる。

統計学 補足文書

8

● 標準正規分布でよく使用するパーセント点

(1) 両側 5%点(上側 2.5%点)は, 96.1)025.0( =z

(2) 両側 1%点(上側 0.5%点)は, 58.2)005.0( =z

■ 例題

標準正規分布において,次のパーセント点の値を求めよ。

(1) 上側 2.5%点(両側 5%点) )025.0(z

(2) 下側 2.5%点(両側 5%点) )025.0(z−

<解> Z ~ )1,0(N とする。

(1) 025.0))025.0(( =≥ zZP , 975.0025.01))025.0(( =−=≤ zZP 正規分布表より, 9750.0)96.1( =≤ZP であるから,

96.1)025.0( =z (答)

(2) 下側 2.5%点とは, 025.0)( 0 =≤ zZP を満たす 0z のことだが,対称性より 96.1)025.0(0 −=−= zz (答)

6. 区間推定

● 定義(区間推定)

(1) 母集団の未知母数θ を区間で推定する方法を,区間推定という。

(2) 適切な統計量 の 2 つの実現値 1t と 2t と,確率α に対して,

未知母数θ が関係式

αθ −=≤≤ 1)( 21 ttP

をみたすとき,次のように表現する。 ① 閉区間 ],[ 21 tt を,θ の )1(100 α− % 信頼区間

② )1(100 α− %を,区間 ],[ 21 tt の信頼度(または信頼係数)

③ 端点 1t と 2t を,信頼限界

④ 12 tt − を,信頼限界の幅

(3) 未知母数θ を信頼度 95%で推定せよとは,θ の 95%信頼区間を求めることである。 (注意) 信頼度には 95%や 99%がよく用いられる。

05.0=α の場合, )1(100 α− % = 95% 01.0=α の場合, )1(100 α− % = 99%

),,,( 21 nXXXTT =

Page 9: 1 2 ∑ − + − + + X X 1 U Sµ±計的...母平均 µ,母分散 σ 2 の母集団からの大きさ の標本変量 ( , ) 1 2 X n から,次 の2 つの統計量を考えるとき,これらの平均は以下の(1)(2)のようになる。

統計学 補足文書

9

(1) 上記は,以下の例題等で理解すればよい。通常は,確率 α−1 を信頼係数(信頼度)と

いう。 05.0=α のときは,信頼係数は 95.01 =− α だが,分かりやすいように 100 倍して,

「信頼度は 95%である」と表現する。

(2) 区間推定の問題の答え方は,以下のようにいろいろあるが,どれでもよい。 例えば,身長の母平均 µ を信頼度 95%で推定せよ,という問いに対しては,

母平均 µ の信頼度 95%の信頼区間(母平均 µ の 95%信頼区間)は

①(答) 180170 ≤≤ µ (不等式で答える) ②(答) ]180,170[ (閉区間で答える) ③(答) )180,170( (開区間で答える) ④(答)170cm 以上 180cm 以下

7. 母平均の区間推定(母分散が既知の場合)

● 定理(母平均の推定-母分散 2σ が既知の場合)

母平均 ,母分散 の母集団から抽出した大きさ n の無作為標本の標本平均を x とす

る。ここで,次の 2 つを仮定する。

① 正規母集団,または,大標本( 30≥n ) ② は既知

このとき,母平均 µ の )1(100 α− %信頼区間は

nzx

nzx σαµσα

+≤≤

22

(注意) 特に, 01.0,05.0=α の場合

① 母平均 µ の 95%信頼区間

nx

nx σµσ 96.196.1 +≤≤−

② 母平均 µ の 99%信頼区間

nx

nx σµσ 58.258.2 +≤≤−

(証明) 仮定の①より,大きさ nの標本平均 X は正規分布に従うので,

X ~ ),(2

nN σµ 従って,

n

XZ σµ−

= ~ )1,0(N

µ 2σ

Page 10: 1 2 ∑ − + − + + X X 1 U Sµ±計的...母平均 µ,母分散 σ 2 の母集団からの大きさ の標本変量 ( , ) 1 2 X n から,次 の2 つの統計量を考えるとき,これらの平均は以下の(1)(2)のようになる。

統計学 補足文書

10

標準正規分布の両側 α100 %点を

=

α zk とすると,

2/)( αα =−< kZP , 2/)( αα =< ZkP

であるから,

ααα −=≤≤− 1)( kZkP

ここで,不等式 αα kZk ≤≤− を X で表すと, αα σµ k

n

Xk ≤−

≤−

この不等式を変形すると,

nkX

nkX αµα

αα +≤≤−

従って,

ααµααα −=

+≤≤− 1

nkX

nkXP

この等式は, X の 1 つの実現値 x に対して,

nkx

nkx αµα

αα +≤≤−

が正しい確率が α−1 であることを意味する。 従って,母平均 µ の )1(100 α− %信頼区間は

nzx

nzx σαµσα

+≤≤

22

■ 例題1

A県の 17歳男子の中から 100人を無作為に選んだところ,身長の平均が 168.0cmであった。

母標準偏差を 6.5cm として,この県の 17 歳男子全体の平均身長 µ を,信頼度 95%で推定せよ。

<解説> この例で,区間推定の意味を詳しく説明しよう。いま,A 県の 17 歳男子全体が母集団であ

る。母平均は µ ,母標準偏差は 65.0=σ ,標本のサイズは 100=n である。 30≥n であるから,大標本である。よって,中心極限定理により,大きさ 100 の標本平均 X

は正規分布をなすと考えてよい。 信頼度は 95%であるから, 95)1(100 =− α より, 05.0=α であり,標準正規分布におけ

る両側 5%点(上側 2.5%点)は 1.96 である。従って,次が成り立つ。

ασµσ−=

+≤≤− 196.196.1

nX

nXP

ここで,母標準偏差σ が既知なので,次の値が具体的に定まることに注目しよう。

Page 11: 1 2 ∑ − + − + + X X 1 U Sµ±計的...母平均 µ,母分散 σ 2 の母集団からの大きさ の標本変量 ( , ) 1 2 X n から,次 の2 つの統計量を考えるとき,これらの平均は以下の(1)(2)のようになる。

統計学 補足文書

11

274.1100

5.696.196.1 =×=nσ

よって,

95.0)274.1274.1( =+≤≤− XXP µ …… ①

この X に,観測した実現値 168.0cm を代入すると,母平均 µ の信頼度 95%の信頼区間

274.1168274.1168 +≤≤− µ

が得られる。信頼限界を小数第 1 位まで求めると,信頼区間は

3.1697.166 ≤≤ µ (答)…… ②

さて,結論の②で何が分かるのだろうか。次のような解釈は誤りである。

(誤り)母平均 µ は,166.7~169.3 の間にある。

(誤り)母平均 µ が 166.7~169.3 の間に入る確率は 0.95 である。

不等式が成り立つことを「真」,成り立たないことを「偽」と表現すれば,正しい解釈は次の

とおりである。どちらでもよい。

(正解) 3.1697.166 ≤≤ µ が真である確率は 0.95(95%)である。

(正解) 3.1697.166 ≤≤ µ が偽である確率は 0.05(5%)である。

母平均 は未知ではあるが,あくまでも定数である。一方,信頼限界の 166.7 や 169.3 は,

標本によって変動する。 例えば,X の実現値が全部で 100 個あるとし, 1x , 2x ,…, 100x を X の実現値とする。

これらを①の左辺の不等式に代入すれば,次の 100 個の信頼区間の不等式が得られ,信頼限界

もいろいろである。

274.1274.1 11 +≤≤− xx µ

274.1274.1 22 +≤≤− xx µ

…………

274.1274.1 100100 +≤≤− xx µ 等式①の意味は,これら 100 個のうちの 95 個(95%)の不等式は真であり,残りの 5 個(5%)

の不等式は偽ということである。そして,区間推定とは,このような 100 個の不等式のうちの

1 つ(②)を,我々が観測するということである。 我々が観測した②が真か偽のどちらであるかは,分からない。分かることは,観測した②が,

95%は真であり 5%は偽であるという不等式の集まり(※)から無策に選ばれた 1 つというこ

µ

(※)

Page 12: 1 2 ∑ − + − + + X X 1 U Sµ±計的...母平均 µ,母分散 σ 2 の母集団からの大きさ の標本変量 ( , ) 1 2 X n から,次 の2 つの統計量を考えるとき,これらの平均は以下の(1)(2)のようになる。

統計学 補足文書

12

とである。従って,②が真である確率は 0.95,同じことだが,②が偽である確率は 0.05 とい

うことになる。 では,最終的に②をどのように判断すべきだろうか。例えば,標本抽出を 100 回行い,得ら

れた信頼区間を毎回真と判断したとしよう。現実に 100 回行うことは不可能であるが,このよ

うに考えてみる。 この場合,その判断が正しい回数が 100 回中およそ 95 回,判断が誤る回数がおよそ 5 回と

いうことになる。100 回のうち 95 回は正しい判断になるのである。そうであれば,判断が誤り

となる 5 回(5%)のリスク(危険性)に目をつむって,得られた信頼区間は真と判断するのが

妥当な考え方ではないだろうか。要するに,「判断が誤っている確率が 5%であることは知って

いますが,一応,この信頼区間は真であると判断します」という結論になる。これはまさに「得

られた不等式の信頼性は 95%である」という表現になる。 信頼度 95%の推定の本質は,95%は正しく 5%は誤りである不等式の集まり(※)を作るこ

とができるという点である。 ■ 例題2

ある工場で大量生産されている電球の中から 25 個を無作為抽出して調べたところ,それら

の平均寿命時間は 1415 時間であった。この製品の寿命時間は,標準偏差が 110 時間の正規分

布に従っているものとして,次の問いに答えよ。

(1) 製品全体の平均寿命を信頼度 95%で推定せよ。(信頼限界は小数第 1 位まで求めること) (2) (1)において,信頼区間の幅を 20 時間以内にするには,少なくとも何個の電球を調べる必

要があるか。

<解説> ※ 通常の区間推定の問題はワンパターンであり,(1)では信頼限界を計算するだけである。

ただし,母分散が既知なのか未知なのかに注意する必要がある。 (1) (正規母集団であるから,標本のサイズに関係なく, X は正規分布をなす。) 母平均(製品全体の平均寿命)を µ とする。正規母集団であり,母分散は 22 110=σ で既知

である。標本のサイズは 25=n で,標本平均は 1415=x であるから,95%信頼区間の信頼限

界は

12.1458,88.137112.43141525

11096.1141596.1 =±=×±=×±n

x σ

よって,母平均 µ の 95%信頼区間は, 1.14589.1371 ≤≤ µ (答)

(2) 信頼度 95%の信頼区間の幅は

nnn2.43111096.1296.12 =××=××

σ

202.431≤

n とすると, n×≤ 202.431 より,

202.431

≥n

Page 13: 1 2 ∑ − + − + + X X 1 U Sµ±計的...母平均 µ,母分散 σ 2 の母集団からの大きさ の標本変量 ( , ) 1 2 X n から,次 の2 つの統計量を考えるとき,これらの平均は以下の(1)(2)のようになる。

統計学 補足文書

13

両辺を 2 乗して, 8.464400

)2.431(20

2.431 22

==

≥n

n は整数値であるから, 465≥n (答)465 個 ● 注意

上記のとおり,95%の場合の信頼区間の幅は nσ

×× 96.12 であり,標本のサイズ n を

大きくすればするほど,その幅は小さくなる。

一方,その半分の nσ

×96.1 は,標本平均 x を母平均と見なしたときの,真の母平均と

の誤差(最大誤差)を表す。 例えば,(1)の信頼区間 12.43141512.431415 +≤≤− µ を変形すると,

12.43141512.43 ≤−≤− µ

これは,標本平均 1415 を母平均と見なした場合,この値(1415)と真の母平均 µ との誤差

が 43.12 になることを示している。 8. 母平均の区間推定(母分散が未知の場合)

● 定理(母平均の推定-母分散 2σ が未知の場合)

母平均 ,母分散 の母集団から大きさ n の無作為標本を抽出し,次の 2 つを仮定する。

① 大標本( 30≥n ) ② は未知

このとき,標本の不偏標準偏差をu とすれば,母平均 µ の )1(100 α− %信頼区間は

nuzx

nuzx

+≤≤

22αµα

(注意) 特に, 01.0,05.0=α の場合

① 母平均 の 95%信頼区間

n

uxn

ux 96.196.1 +≤≤− µ

② 母平均 の 99%信頼区間

n

uxn

ux 58.258.2 +≤≤− µ

(解説) 大標本であるから,標本平均 X は正規分布に従うので,母分散 2σ が既知の場合と同様に,

µ 2σ

µ

µ

Page 14: 1 2 ∑ − + − + + X X 1 U Sµ±計的...母平均 µ,母分散 σ 2 の母集団からの大きさ の標本変量 ( , ) 1 2 X n から,次 の2 つの統計量を考えるとき,これらの平均は以下の(1)(2)のようになる。

統計学 補足文書

14

nzx

nzx σαµσα

+≤≤

22

という,信頼区間を定める不等式が得られる。しかし, 2σ が未知なので,信頼区間が定まら

ない。 この場合は,σ の代わりに,標本の不偏標準偏差 u を使えばよい。不偏分散 2U は,母分散 2σの不偏推定量であった(補足 p.100)。さらに,証明は略すが,標本のサイズ n を大きくしてい

くと, 2U の実現値は 2σ に限りなく近づいていくことが知られている。従って,大標本のとき

は, 2σ を, 2U の実現値 2u で近似できるのである。 高校数学 B では,σ の代わりに,u ではなく標本の標準偏差 sを使っているが,これでも構

わない。標本のサイズ nを大きくすると,標本分散 2S の実現値も 2σ に近づくからである。し

かし, 2S ではなく 2U が母分散 2σ の不偏推定量であることを考えれば, sよりも u を使用し

た方がよい。 ■ 例題1(母分散が既知)

無作為に 3 歳児 65 人を選んで体重を測定したところ,平均は 14.0kg であった。3 歳児全体

の体重の標準偏差は,2.5kg であることが知られている。3 歳児全体の平均体重 µ を信頼度 95%で推定するとき,次の問いに答えよ。

(1) 母平均 µ の 95%信頼区間を求めよ。(信頼限界は小数第 1 位まで求めること。)

(2) 標本平均 14.0kg を母平均と見なしたとき,真の母平均 µ との誤差(最大誤差)はいくら

か。(小数第 1 位まで求めること。)

(3) 信頼区間の幅を 1.0kg 以内にするためには,標本の対象となる 3 歳児を何人以上選べばよ

いか。 <解> (1) 標本のサイズは 65=n ,標本平均は 0.14=x ,母標準偏差は 5.2=σ である。 大標本で母分散は既知であるから,信頼限界は

608.14,392.13608.014655.296.11496.1 =±=×±=×±

nx σ

従って,母平均 µ の 95%信頼区間は 6.144.13 ≤≤ µ (答)

(2) 求める誤差は

608.0655.296.196.1 =×=×

(答) 6.0 kg

(3) 信頼区間の幅は,

nnn8.95.296.1296.12 =××=××

σ

Page 15: 1 2 ∑ − + − + + X X 1 U Sµ±計的...母平均 µ,母分散 σ 2 の母集団からの大きさ の標本変量 ( , ) 1 2 X n から,次 の2 つの統計量を考えるとき,これらの平均は以下の(1)(2)のようになる。

統計学 補足文書

15

ここで,

0.18.9≤

n とすると, 8.9≥n ∴ 04.96)8.9( 2 =≥n

nは整数であるので, 97≥n である。 (答)97 以上 ■ 例題2(母分散が未知)

無作為に 3 歳児 65 人を選んで体重を測定したところ,平均は 14.0kg で,標準偏差は 2.0kgであった。このとき,3 歳児全体の平均体重 µ を信頼度 95%で推定せよ。(信頼限界は小数第 1位まで求めること。) <解> ※ 母分散が未知なので,不偏標準偏差u を求める。 標本のサイズは 65=n であり,標本平均は 0.14=x ,標本標準偏差は 0.2=s である。 標本の不偏標準偏差を u とすると,

16652

16565

1222 =×

−=

−= s

nnu ∴

465

1665

==u

大標本で母分散は未知であるから,信頼限界は

49.14,51.1349.014465

65196.11496.1 =±=××±=×±

nux

従って,母平均 µ の 95%信頼区間は 5.145.13 ≤≤ µ (答)

9. 母比率の区間推定(母分散が既知の場合)

● 定理(母比率の推定-大標本の場合)

母集団に対して,性質 を持つ個体の母比率を とする。この母集団から,大きさ

( )の標本を無作為抽出し,標本比率を p̂ とする。 このとき,母比率 p の )1(100 α− %信頼区間は

nppzpp

nppzp )ˆ1(ˆ

2ˆ)ˆ1(ˆ

2ˆ −

−≤≤

αα

(注意) 特に, 01.0,05.0=α の場合

① 母比率 p の 95%信頼区間

npppp

nppp )ˆ1(ˆ

96.1ˆ)ˆ1(ˆ96.1ˆ −

+≤≤−

E p n

30≥

Page 16: 1 2 ∑ − + − + + X X 1 U Sµ±計的...母平均 µ,母分散 σ 2 の母集団からの大きさ の標本変量 ( , ) 1 2 X n から,次 の2 つの統計量を考えるとき,これらの平均は以下の(1)(2)のようになる。

統計学 補足文書

16

② 母平均 p の 99%信頼区間

npppp

nppp )ˆ1(ˆ

58.2ˆ)ˆ1(ˆ58.2ˆ −

+≤≤−

(1) ここでは,世論調査や視聴率調査のように,ある母集団の中である性質をもつ個体の比率

を考察の対象にするが,この比率は母平均と捉えることができる。まず,以下の用語を理解

しよう。

(2) 母集団の中で,性質 E をもつ個体の個数の割合を,「性質 E の母比率」という。また,抽

出された標本の中で,性質 をもつ個体の個数の割合を,「性質 の標本比率」という。一

般に,母比率は ,標本比率は で表す( はピー・ハットと読む)。 は母数であるが,

は標本ごとに変化する値なので,確率変数である。

(3) 例えば,100 人の人からなる母集団があり,男性は 60 人,女性は 40 人いるとする。この

母集団から 10 人を選んだとき,10 人の中に男性が 7 人,女性が 3 人いたとすれば,母比率

や標本比率は次のようになる。

男性 女性 男性の母比率 男性の標本比率

大きさ100の母集団 60 人 40 人 6.0100/60 ==p

大きさ 10 の標本 7 人 3 人

(4) では,上記の定理を確認してみよう。ただし,信頼度は 95%とする。 母集団の大きさを ,性質 の母比率を とすれば,

母比率:

ここで,個体 の特性値 を,次のように定める。

1 ( は性質 を持つ)

0 ( は性質 を持たない)

このとき,この特性値 X の平均 )( XE は,母比率 p のことになる。

○ 母平均 pXE == )(µ

○ 母分散 qpXV == )(2σ ( pq −= 1 )

○ 母標準偏差 )1( ppqp −==σ

次に,標本変量 から,和 nXXXY +++= 21 を考えると,Yの値は,抽出した標本において,性質 をもつ個体の個数を意味する。従って,

E Ep p̂ p̂ p p̂

7.010/7ˆ ==p

N E p

Np

Eを持つ個体の個数性質=

ω X

ω E=X

ω E

),,,( 21 nXXX

E

1 0 計 1

XP p q

Page 17: 1 2 ∑ − + − + + X X 1 U Sµ±計的...母平均 µ,母分散 σ 2 の母集団からの大きさ の標本変量 ( , ) 1 2 X n から,次 の2 つの統計量を考えるとき,これらの平均は以下の(1)(2)のようになる。

統計学 補足文書

17

標本平均 と 標本比率 は一致する

補足 p.95 で見たように,Y ~ ),( pnB である。

以上より,母比率の推定は,母平均の推定のことになる。ここでは,大標本であり,さら

に,母分散 2σ が既知とすれば,母平均 p=µ の 95%信頼区間は

nx

nx σµσ 96.196.1 +≤≤−

確率変数 p̂ の実現値を同じ p̂ で表せば,上記の不等式は次のようになる。

npppp

nppp )1(96.1ˆ)1(96.1ˆ −

+≤≤−

しかし,信頼限界に母比率 p が含まれ,これでは信頼区間が定まらない。 そこで,大数の法則を使う。つまり, n を大きくすると,標本平均 pX ˆ= の実現値は,

母平均 p=µ に近づくので,上式の )1( pp − を )ˆ1(ˆ pp − に置き換えてよい。すなわ

ち,

npppp

nppp )ˆ1(ˆ

96.1ˆ)ˆ1(ˆ96.1ˆ −

+≤≤−

これを,母比率 p の 95%信頼区間として考える。この不等式における p̂ は,実現値である。 ■ 例題1

大学で合鍵を作り,そのうちの 400 本を無作為に抽出したところ,8 本が不良品であった。

合鍵全体に対して不良品の含まれる比率 p を,95%の信頼度で推定せよ。(信頼限界は小数第 3位まで求めること) (解説) 標本比率 p̂ は

02.04008ˆ ==p ∴ 98.002.01ˆ1 =−=− p

従って,信頼限界は

007.096.102.0400

98.002.096.102.0)ˆ1(ˆ96.1ˆ ×±=

×±=

−±

nppp

03372.0,00628.001372.002.0 =±=

よって,求める信頼区間は 034.0006.0 ≤≤ p (答)

■ 例題2

ある意見に対する賛成率は,約 60%と予想されている。この意見に対する賛成率を,信頼度

)(121 nXXXnX +++= p̂

Page 18: 1 2 ∑ − + − + + X X 1 U Sµ±計的...母平均 µ,母分散 σ 2 の母集団からの大きさ の標本変量 ( , ) 1 2 X n から,次 の2 つの統計量を考えるとき,これらの平均は以下の(1)(2)のようになる。

統計学 補足文書

18

95%で信頼区間の幅が 8%以下になるように推定したい。何人抽出して調べればよいか。 (解説) 標本比率は 6.0ˆ =p である。標本のサイズを n とすると,信頼度 95%の信頼区間の幅は

nnnpp 24.092.34.06.092.3)ˆ1(ˆ

96.12×

=−

×

信頼区間の幅を 8%以下とすると,

08.024.092.3

≤×

n ∴ n×≤× 08.024.092.3

従って,

08.024.092.3 ×

≥n

両辺を 2 乗すると,

24.57624.049)08.0(

24.0)92.3( 22

2=×=

×≥n

n は整数であるから, 577≥n (答)577 以上