Upload
others
View
5
Download
0
Embed Size (px)
Citation preview
統計統計ⅠⅠ第第44回回 標本データの要約標本データの要約
授業担当:徳永伸一授業担当:徳永伸一
東京医科歯科大学教養部東京医科歯科大学教養部 数学講座数学講座
今日(第今日(第44回)の授業の概要:回)の授業の概要:
第第11回~回~33回の授業内容を回の授業内容を軽く軽く振り返振り返るる
33章の補足(中心極限定理など)章の補足(中心極限定理など)
44章(標本データの要約)へ章(標本データの要約)へ
S. TOKUNAGAS. TOKUNAGA 33
OverviewOverview ~~ REPRISEREPRISE
記述統計記述統計((44章章)・・・・情報の要約)・・・・情報の要約–– 表やグラフで表す表やグラフで表す
–– 代表値(平均など)や散布度(分散など)を求める代表値(平均など)や散布度(分散など)を求める
確率モデル(2・3章)
推測統計(5章~)推定(点推定、区間推定)
仮説検定
第第11回の要点(重要項目とキーワード)回の要点(重要項目とキーワード)
11章「序説」の要点章「序説」の要点–– 連続型データと離散型データ連続型データと離散型データ–– 母集団と標本,無作為抽出母集団と標本,無作為抽出
確率の基礎概念確率の基礎概念–– 標本空間,事象(根元事象,全事象,余事象,・・・)標本空間,事象(根元事象,全事象,余事象,・・・)–– 排反排反確率の乗法定理確率の乗法定理 ~~ 事象の事象の独立性独立性–– 条件付き確率,確率の乗法定理条件付き確率,確率の乗法定理–– 独立独立とと従属従属ベイズの定理ベイズの定理
ベイズの定理ベイズの定理 BayesBayes’’ TheoremTheorem ―――― RECALL RECALL ――――事象事象AA,,BB11,,BB22,・・・,・・・ BBr r ∈∈ ΩΩ についてについて
[仮定][仮定]①① UU11≦≦ii≦≦rr BBii == ΩΩ かつかつ
②② 各各BBii は互いに排反は互いに排反
であるとき,であるとき,
[結論][結論]条件付確率条件付確率PP((BB11|A|A)) に関して,以下の公式が成立に関して,以下の公式が成立つ.つ.
∑=
= r
iii BAPBP
BAPBPABP
1
111
)|()(
)|()()|(
第第22回の要点回の要点
確率変数・確率分布の定義確率変数・確率分布の定義––離散型確率変数と確率分布離散型確率変数と確率分布
––連続型確率変数と確率密度関数連続型確率変数と確率密度関数
確率変数の平均と分散,標準偏差,確率変数の平均と分散,標準偏差,およびそれらの基本的な性質およびそれらの基本的な性質––期待値の加法性(常に成立)期待値の加法性(常に成立)
EE((XX++YY)) == EE((XX)+)+EE((YY))
第3回の要点第3回の要点確率変数の独立性確率変数の独立性
––分散の加法性(独立な確率変数に対して成立)分散の加法性(独立な確率変数に対して成立)
22項分布項分布BB((n,pn,p))
––定義(ベルヌーイ試行による)定義(ベルヌーイ試行による)
––期待値と分散の公式期待値と分散の公式
正規分布正規分布NN((μμ,,σσ2 2 ))
–– 標準正規分布標準正規分布NN((0, 10, 1))
–– 正規分布の標準化変換正規分布の標準化変換
中心極限定理中心極限定理
–– 22項分布の正規近似項分布の正規近似
第第33回の復習~回の復習~確率変数の独立性(一般の場合)確率変数の独立性(一般の場合)
[定義][定義]確率変数確率変数XX,,YYについてについて『『任意の任意の実数実数a,a,bb,,cc,,ddに対しに対し事象「事象「aa≦≦XX≦≦bb」と事象「」と事象「cc≦≦YY≦≦dd」が独立」が独立』』,,
すなわちすなわち『『任意の任意の実数実数a,a,bb,,cc,,ddに対しに対し
PP((aa≦≦XX≦≦b b かつかつ cc≦≦YY≦≦dd))== PP(( aa≦≦XX≦≦b b ))PP((cc≦≦YY≦≦dd ))』』
ならばならば 「「XXととYYは独立は独立」」 という.という.
【【注意注意11】】「「任意の任意の」という条件は本質的.」という条件は本質的.【【注意注意22】】上の定義は離散的確率変数にも適用上の定義は離散的確率変数にも適用できる.できる.
第第33回の復習~回の復習~確率変数の独立性(離散型の場合)確率変数の独立性(離散型の場合)
離散的確率変数離散的確率変数の場合の場合[定義][定義]XX,,YY::離散的確率変数離散的確率変数 のときのとき『『XX,,YYのとり得るのとり得るすべてのすべての値値xx,,yyについてについて
PP((X=x X=x かつかつ Y=Y=y)=y)= PP((X=xX=x))PP((Y=Y=yy))』』ならば「ならば「XXととYYは独立」という.は独立」という.
【【注意注意】】「一般の場合」で「一般の場合」で a=b=x, c=d=y a=b=x, c=d=y とおとおいたいた だけ.だけ.
S. TOKUNAGAS. TOKUNAGA 1010
第第33回の復習~回の復習~ 正規分布正規分布のの定義と記号定義と記号
正規分布の密度関数:正規分布の密度関数:
ここで,ここで,μμは平均,は平均,σσ22は分散となっている.は分散となっている.
平均平均μμ,分散,分散σσ22の正規分布をの正規分布をNN((μμ,,σσ22))で表す.で表す.
XXががNN((μμ,,σσ22))に従うとき,に従うとき,XX~~NN((μμ,,σσ22))と書く.と書く.
NN((0, 10, 1))をを標準正規分布標準正規分布という.
2
2
2)(
221)( σ
µ
σ
−−
=x
exfπ
という.
S. TOKUNAGAS. TOKUNAGA 1111
第第33回の復習~回の復習~ 正規分布のグラフ)正規分布のグラフ)
NN((0, 10, 1),), NN((0, 20, 2 ),), NN((0, 0.50, 0.5 ))のグラフ:のグラフ:
(1)(1)直線x=直線x=μμに関してに関して対称対称,,x=x=μμで最大値で最大値1/1/√√((22πσπσ22)をとる)をとる..
(2)(2)σσが大きいほど裾野が広く、小さいほど山が高い.が大きいほど裾野が広く、小さいほど山が高い.
(3)曲線と(3)曲線とxx軸で囲まれる部分の面積は常に軸で囲まれる部分の面積は常に11..
S. TOKUNAGAS. TOKUNAGA 1212
第第33回の復習~回の復習~ 標準化変換標準化変換
正規分布の標準化変換正規分布の標準化変換
Xが正規分布に従うとき,その線形変換Xが正規分布に従うとき,その線形変換
(Y=(Y=aX+aX+bbの形の変換)も正規分布に従う.の形の変換)も正規分布に従う.
したがって,したがって,
X~X~ NN((μμ,,σσ22)) のときのとき
X-X-μμ はは NN((0,0,σσ22)) に従う.に従う.
ZZ=(X-=(X-μμ))//σσ はは NN((0,10,1)) に従う.に従う.
XXからからZZへの変換をへの変換を標準化変換標準化変換,,
XをXをZZのの標準化変数標準化変数という.という.
S. TOKUNAGAS. TOKUNAGA 1313
第第33回の復習~回の復習~ 正規分布正規分布におけるにおける区間と確率の関係)区間と確率の関係)
Xの区間と確率の関係Xの区間と確率の関係(教科書(教科書p.29p.29図図3.103.10参照)参照)
P(P(μμ--σσ≦≦X≦X≦ μμ++σσ)) == P(-P(-11≦≦ZZ≦≦11)) == 0.68270.6827P(P(μμ--22σ≦σ≦X≦X≦μμ+2+2σσ)=P(-)=P(-22≦≦ZZ≦≦22)) == 0.95450.9545P(P(μμ--33σ≦σ≦X≦X≦μμ+3+3σσ)=P(-)=P(-33≦≦ZZ≦≦33)) == 0.99730.9973
★★教科書教科書p.133p.133付表付表BBで確認せよ.で確認せよ.
P(P(μμ--1.6451.645σ≦σ≦ X≦X≦ μμ+1.645+1.645σσ))== P(P(--1.645 1.645 ≦≦ ZZ≦≦ 1.6451.645)) == 0.9000.900
P(P(μμ--1.961.96σ≦σ≦ X≦X≦ μμ+1.96+1.96σσ))== P(P(--1.961.96 ≦≦ ZZ≦≦ 1.961.96)) == 0.9500.950
(特に最後の2つはよく用いられる値)(特に最後の2つはよく用いられる値)
S. TOKUNAGAS. TOKUNAGA 1414
3.3.55 正規分布(その正規分布(その66~中心極限定理)~中心極限定理)
中心極限定理中心極限定理
[仮定][仮定]XX11,X,X22,,・・・・・・, , XXnnがが
((任意の!任意の!))同じ分布同じ分布に従うに従う独立な独立な確率変数確率変数
ならば,ならば,
[結論][結論]nn→∞→∞のとき,のとき,
和和XX11++XX22+・・・++・・・+XXnnの分布はの分布は
正規分布に収束する!正規分布に収束する!
S. TOKUNAGAS. TOKUNAGA 1515
中心極限定理についての補足中心極限定理についての補足
教科書教科書p.29p.29には↓のように書いてあには↓のように書いてあるる..
「「互いに独立な確率変数互いに独立な確率変数XX11,X,X22,,……, , XXnnの分布が同一で,の分布が同一で,
EE((XXkk)=)=μμ,,VV((XXkk)=)=σσ22((kk==1,2,1,2,・・・・・・,n,n))
であるときであるとき
ZZ=(=(XX11++XX22+・・・++・・・+XXnn--nnμμ))/ / (√(√nn))σσの分布は,の分布は,nnを十分大きくすれば,を十分大きくすれば,NN((00,,11)に近づく」)に近づく」
【【注意注意】】 期待値期待値00,分散,分散11となるのはとなるのは標準化標準化したからでしたからで
あり,あり,「正規分布に近づく」という部分のみが本質的「正規分布に近づく」という部分のみが本質的..
S. TOKUNAGAS. TOKUNAGA 1616
3.3.55 正規分布(その正規分布(その77~二項分布の正規近似理)~二項分布の正規近似理)
二項分布の正規近似二項分布の正規近似
中心極限定理中心極限定理により,nが十分大きいとき,により,nが十分大きいとき,
BB((n,pn,p)はN)はN((npnp, , npnp((11--pp))))で近似できる.で近似できる.
∵∵ BB((n,pn,p)に従う確率変数は,)に従う確率変数は, BB((1,p1,p)に従う)に従う独立な独立なnn個の確率変数の和と見なせるから.個の確率変数の和と見なせるから.
S. TOKUNAGAS. TOKUNAGA 1717
3.3.66 その他の連続分布その他の連続分布
一様分布一様分布
a<ba<bなる定数なる定数a,a,bbに対しに対し
a<x<ba<x<bのときのとき ff((xx))= 1/= 1/((bb--aa)),,otherwise fotherwise f((xx))=0=0
なる密度関数なる密度関数ff((xx)を持つ分布.)を持つ分布.
★一様分布に従う確率変数★一様分布に従う確率変数 == 一様乱数一様乱数
カイ二乗(カイ二乗(χχ22)分布)分布
XX11,, XX22,, ……, , XXkkが独立かつが独立かつNN((0,10,1)に従うとき,)に従うとき,
XX1122+ X+ X22
22 ++……+ X+ Xkk22が従う分布.が従う分布.
→「→「6.6 6.6 適合度検定」で使う(統計適合度検定」で使う(統計ⅡⅡの範囲).の範囲).
33章ここまで(対数正規分布,指数分布は割愛)章ここまで(対数正規分布,指数分布は割愛)
第第44章章 標本データの要約標本データの要約
4.1 4.1 標本データと標本標本データと標本
4.2 4.2 計数データの要約計数データの要約
以上は各自読んでおきましょう.以上は各自読んでおきましょう.
4.3 4.3 度数分布表,ヒストグラム度数分布表,ヒストグラム
4.4 4.4 代表値と散布度代表値と散布度
以下は以下は割愛割愛
4.5 4.5 相関と相関係数相関と相関係数
4.6 4.6 回帰直線回帰直線
4.3 4.3 度数分布表,ヒストグラム度数分布表,ヒストグラム
KEYWORDSKEYWORDS度数度数frequencefrequence,度数分布表,度数分布表
ヒストグラムヒストグラム
階級階級classclass
相対度数相対度数
4.4 4.4 代表値と散布度(その1)代表値と散布度(その1)
代表値代表値:分布の中心的な位置を示す.:分布の中心的な位置を示す.
例:例:平均値平均値meanmean,,中央値中央値medianmedian,,最頻値最頻値modemode
散布度散布度:分布の広がり・ばらつきの度合いを示す.:分布の広がり・ばらつきの度合いを示す.
例:分散例:分散variancevariance,標準偏差,標準偏差standard deviationstandard deviation,,四分四分位偏差位偏差
4.4 4.4 代表値と散布度(その2)代表値と散布度(その2)
(1)標本平均と分散・標準偏差(1)標本平均と分散・標準偏差
((母集団母集団polulationpolulationから取り出した)大きさから取り出した)大きさnnのの標本標本sample sample xx11,x,x22,,……, , xxnn取に対し,取に対し,
__標本平均標本平均 x x :=(:=( xx11++xx2 2 +・・・++・・・+ xxnn ))/ n/ n
__標本分散標本分散 ss22 :=:={ { ∑∑(( xxiiーー xx ))22 } / } / ((nnーー11))
★★nnではなく(ではなく(nnーー11)で割る理由:)で割る理由:不偏性不偏性
S. TOKUNAGAS. TOKUNAGA 2222
4.4 4.4 代表値と散布度(その代表値と散布度(その33))標本分散についての補足標本分散についての補足
★★nnではなくではなく((nn--11))で割る理由:で割る理由:不偏性不偏性
(教科書では用語は出てこないが(教科書では用語は出てこないが5.15.1で説明されている)で説明されている)
★★上の式で定義した分散を,上の式で定義した分散を,不偏分散不偏分散と呼ぶこともあと呼ぶこともある.る.(教科書(教科書p.59p.59冒頭に用語のみ出てくる)冒頭に用語のみ出てくる)
★★nnが十分大きいときにはが十分大きいときにはnnで割っても(で割っても(nn--11)で割って)で割って
も大差ない.も大差ない.
(たとえば(たとえばnn==1000010000で有効数字で有効数字33桁なら無視できる)桁なら無視できる)
S. TOKUNAGAS. TOKUNAGA 2323
4.4 4.4 代表値と散布度(その代表値と散布度(その44))偏差の平方和偏差の平方和SSxxxx (教科書(教科書p.40p.40))あまり一般的な記号ではないと思うのでここでは使わないことにします.あまり一般的な記号ではないと思うのでここでは使わないことにします.
ただし,公式:ただし,公式:__
SSxxxx == ∑(∑( xxii-- xx ))22 == ∑∑xxii-(∑-(∑xxii))22/ n/ n
は有用は有用(教科書(教科書p.41p.41問問4.104.10))..
標準偏差標準偏差ss標本分散標本分散ss22の正の平方根として定義される.の正の平方根として定義される.
ss:=√(:=√( ss22))★★ ssととss22は散布度の指標としてはまったく同等だが,は散布度の指標としてはまったく同等だが,
ssは標本平均とは標本平均と 単位が一致単位が一致するので,たとえばグラフ上でするので,たとえばグラフ上で重ねて表示するのに適している重ねて表示するのに適している..(→教科書(→教科書p.41p.41冒頭,冒頭,p.44p.44図図4.64.6))
S. TOKUNAGAS. TOKUNAGA 2424
4.4 4.4 代表値と散布度(その代表値と散布度(その55))参考参考
__平均偏差平均偏差 (( ∑|∑|xxii-- xx|)|) / n/ n
というのもあるが,あまり使われない.というのもあるが,あまり使われない.
(散布度の指標としては自然だが数学的な分析に向(散布度の指標としては自然だが数学的な分析に向かない)かない)
★★教科書の教科書の例題例題4.14.1,問,問4.84.8~~4.114.11あたりは一通り見あたりは一通り見
ておきましょう.ておきましょう.
S. TOKUNAGAS. TOKUNAGA 2525
4.4 4.4 代表値と散布度(その代表値と散布度(その66))((22)標本平均の分布)標本平均の分布
個々の標本データの値個々の標本データの値 xx11,x,x22,,……,, xxnnはもちろん確率はもちろん確率
変数と見なすことができる.変数と見なすことができる.
__標本平均標本平均 xx もも11つの確率変数とみなすことができる!つの確率変数とみなすことができる!
(一定の大きさの標本を繰り返し抽出し,その度に標本平均の(一定の大きさの標本を繰り返し抽出し,その度に標本平均の値を計算すれば分布を観察することができる).値を計算すれば分布を観察することができる).
さらに・・・さらに・・・
S. TOKUNAGAS. TOKUNAGA 2626
4.4 4.4 代表値と散布度(その代表値と散布度(その77))__
nn××xx == xx11++xx2 2 ++…… ++ xxnn
であるから,中心極限定理を利用して,(であるから,中心極限定理を利用して,(nnが十分大きが十分大き
ければ)標本平均の分布を正規分布で近似できければ)標本平均の分布を正規分布で近似できる!る!
注意:注意:
–– 同一分布性:同一の母集団から抽出したから同一分布性:同一の母集団から抽出したから
–– 独立性:無作為抽出により保障される独立性:無作為抽出により保障される
–– 正規分布に従う確率変数は正規分布に従う確率変数はnnで割っても正規分布.で割っても正規分布.
よって・・・よって・・・
S. TOKUNAGAS. TOKUNAGA 2727
4.4 4.4 代表値と散布度(その代表値と散布度(その88))定理(中心極限定理の系)定理(中心極限定理の系)
母平均母平均μμ,母分散,母分散σσ22であるである任意の任意の母集団から抽出した大きさ母集団から抽出した大きさnnの無作為標本にもとづく標本平均の分布は,の無作為標本にもとづく標本平均の分布は,nnが十分大きが十分大きければ,正規分布ければ,正規分布NN((μμ,,σσ22/n/n))で近似できる.で近似できる.
【【注意注意11】】母平均母平均μμ,母分散,母分散σσ22 よりよりEE((標本平均標本平均))== μμ ××n n ××((1/n1/n)) == μμVV((標本平均標本平均))== σσ22 ××n n ××((1/n1/n))22 == σσ22/n/n
(期待値・分散の加法性↑)(期待値・分散の加法性↑) (↑積に関する(↑積に関するE,VE,Vの性質より)の性質より)
【【注意注意22】】
母集団分布が任意でよいことに注意.これにより,(十分大きい母集団分布が任意でよいことに注意.これにより,(十分大きい標本さえ得られれば)未知の分布を持つ母集団の母平均を標本さえ得られれば)未知の分布を持つ母集団の母平均を推定・検定する際,正規分布が利用できる!推定・検定する際,正規分布が利用できる!
S. TOKUNAGAS. TOKUNAGA 2828
4.4 4.4 代表値と散布度(その代表値と散布度(その99))標本比率の分布(教科書標本比率の分布(教科書p.42p.42--4343))母集団の支持率母集団の支持率ppとすると,とすると,nn人の標本における支持人の標本における支持者数者数XXについてについて
X X ~~ BB((n,pn,p))であるから,であるから,近似的には近似的には
X X ~~ NN((npnp, , npnp((11--pp))))さらにさらに標本支持率標本支持率X/nX/nについては,については,近似的に近似的に
X/n X/n ~~ NN((pp, p, p((11--pp))/n/n))
これでこれで44章は(統計章は(統計ⅠⅠの範囲としては)おしまい.の範囲としては)おしまい.
問問4.124.12は見ておきましょう.は見ておきましょう.