Upload
kuri
View
28
Download
2
Embed Size (px)
DESCRIPTION
行動計量分析 Behavioral Analysis. 第 3 回 推測統計学の考え方 inferential statistics 第 4 章 母集団と標本 Statistical Population and Sampling 第 5 章 統計的仮説検定 Statistical test of hypothesis. 統計学( Statistics) の発展. 統計学の始まり(紀元前 3000 年~ 2300 年 ) 古代エジプト:ピラミッド建設のための基礎調査 古代中国 : 人口調査 - PowerPoint PPT Presentation
Citation preview
1
行動計量分析Behavioral Analysis
•第 3 回 推測統計学の考え方 inferential statistics
–第 4 章 母集団と標本• Statistical Population and Sampling
–第 5 章 統計的仮説検定• Statistical test of hypothesis
2
統計学( Statistics) の発展• 統計学の始まり(紀元前 3000 年~ 2300 年 )
古代エジプト:ピラミッド建設のための基礎調査 古代中国 : 人口調査 17 世紀頃:国勢調査の学問 status( 国家 )→statistics
• 記述統計学( 19 世紀末~) Descriptive Statistics ゴールトン (Francis Galton) 、ピアソン (Karl Pearson) データを要約し調査対象の情報を数学的に記述する方
法 • 推測統計学 (1925 年 ) Inferential Statistics
フィッシャー (Rinald Aylmer Fisher) 「研究者のための統計的方法」 標本集団の要約値から母集団の要約値を確率的に推測
し、それによって母集団の様子を記述する • ベイズ統計学・ノンパラメトリック手法
母集団の確率分布を事前に仮定しない方法
3
記述統計学の目的Descriptive Statistics
• 沢山のデータを要約し、中に含まれている情報を把握しやすくするための手段
• 例:学生 100 人の体重のデータがある. その 100 個の数値持っている情報を簡単に表わしたい
データ,データ,データ,データ,データ,データ,データ,データ,データ,データ
要約値( 統計量 )
判断計画
平均値:「 100 人の学生の体重はだいたい 60kg ぐらいである」+標準偏差: 「 100 人の日本人の体重はだいたい 50 ~ 70kg である 」
4
記述統計学と推測統計学
母集団のデータ
多数データの数学的要約
記述・
( 仮想的 )母集団
無作為抽出 標本集団
のデータ
少数データの数学的要約
記述・
確率的推測 記述・
5
標本抽出( Sampling )の考え方• 知りたいのは,同様の性質を持つデータの全体
(母集団 population )が持つ性質 – 全数調査は困難(日本中学生の実力テストの点数)– 全数調査は無意味(強度が売り物の PC の破壊検査)
• 特定の性質を持った個体に偏らないようにして,少数の個体を抜き出す(標本 sample )– それらの観測値を手に入れる(標本値)
• 標本の代表値(例えば平均値)を求め,そこから母集団の性質(母数:母集団の平均や分散の値)を推測する– 母集団の性質についての確からしさの判断→検定– 母集団の記述統計値を推測→推定
6
目の前のさいころの出目
• 母集団:このサイコロを何回も振ったときに出る目の出方
• 標本値:確率変数X={1 , 2 , 3 , 4 , 5 , 6}
• サンプリング:例えば4回サイコロを振る• 統計量:4回のサイコロの目の平均値
• 統計量の実現値が y=1.25 であったとする• (4回のうち3回が 1 ,1回が 2 であったこ
とを意味している )
)(4
14321 XXXXY
7
4.2 推測統計の分類(p72 )• 統計的推定 statistical estimation, inference
得られた統計量の実現値をもとに,母集団の確率分布を決めるパラメータ(母数)を推定
一部の中学生の実力テストの結果を用いて,日本の中学生全体の同じ実力テストの点数を推測する日本の中学生の平均点は 60 点ぐらいだろう(点推定)日本の中学生の点数は 50 点から 70 点ぐらいだろう(区間
推定)
• 統計的検定 statistical test母集団の性質に関する何らかの仮説の是非を,得ら
れた統計量の実現値に基づいて判断一部の中学生に同じテストを 5 年後に受験させて,
次のどちらであるかを判断したい日本の中学生の実力は 5 年間で変化していない日本の中学生の実力は 5 年間で変化した
8
4.3 点推定 point estimation• 17 歳の日本人男性全体の平均身長を知りたい(母
数:母平均)• 10 人の 17 歳男性を標本として抽出し身長の計測値を
得る• 10 個の計測値から,標本の平均値を計算する( 169.
3 )• 標本平均の値を用いて, 17 歳日本人男性の平均身長
を推測する
> 身長 <- c(165.2, 175.9, 161.7, 174.2, 172.1, 163.3, 170.9, 170.6, 168.4, 171.3)> 身長 [1] 165.2 175.9 161.7 174.2 172.1 163.3 170.9 170.6 168.4 171.3> mean( 身長 )[1] 169.36
9
(p 74 図 4.2 )母集団と標本母集団 population
標本抽出sampling
標本 sample
標本統計量Sample Statistics
(標本から計算できるもの)標本平均標本分散不偏分散
標本標準偏差標本相関係数
標本比率など
記述
母数Population Parameters(本当に知りたいもの)
母平均母分散
母標準偏差母相関係数
母比率など
推定inference
10
標本抽出に伴う誤差(p75)
母集団 population サイズ 2 の標本抽出sampling
標本 sample
標本統計量Sample Statistics
(標本から計算できるもの)標本平均
記述
母数Parameter
(本当に知りたいもの)母平均
( 1 + 2 + 6 ) /3= 3
推定inference
1,2,6
A さんは数字が書かれた3つの「玉」が入った袋から,玉を出し,数字を報告
玉を 2個取出し報告
1 , 2 1 , 6 2 , 6
1.5 3.5 4.0
標本統計値(統計量の実現値 )標本誤差を含む
誤差を許容限度内に抑える方法生じうる誤差の大きさの見通し
11
4.4 推定値がどれぐらい当てになるか?(p 77 )
• 標本抽出の方法 単純無作為抽出– 母集団内の各データが等確率で選ばれる方法– 実際に取ったサンプルがたまたま「偏る」かも
• 抽出データの性質を表わす「確率変数」– 実際に結果が得られるまで値がわからない変数 , 同じ手続き
を踏んでも再現性がない• 確率変数がどのような値をとるかを示す「確率分布」
– 実際の実現値から作るのではなく ,理論的に決められるべきもの
– ただし , 非常の多くの実現値が繰り返し得られるなら , 度数分布から確率分布をほぼ知ることができる
12
推定値の確からしさ• 推定値は,そのときの標本の実現値によっていろいろ
な値を取る:確率変数であり,「標本統計量」と呼ぶ• 母集団のばらつきが少なければ,推定値は良く当たる
(母集団の確率分布)
標本の確率分布=
母集団分布標本の実現値を全て使った平均値を , 「点推定値」とする場合
母集団分布+
推定量の計算方法
↓推定量の確
率分布
13
4.5.1 点推定量(標本統計量)の望ましさ(p 89 )
• 不偏性:標本統計量の分布が ,真値を中心に広がっているか?
• 有効性:標本統計量が狭い範囲に分布しているか ?
14
モンテカルロ法による標本統計量分布の経験的な検討
• # 母集団分布を仮定する(正規分布) 4.4.5curve(dnorm(x,mean=50,sd=10))
標本平均 <-numeric(length=10000)
• #以下の作業を繰り返す for(i in 1:10000){
– #正規母集団から無作為抽出をする 4.4.7
標本 <- rnorm(n=10,mean=50,sd=10)
– # 標本統計量の実現値(標本統計値)を求める mean( 標本 )
• # 統計量の実現値の分布を作る 4.5.2標本平均 [i] <- mean( 標本 )
}
標本平均(という統計量)の分布
– # 標本平均値の平均値• mean( 標本平均 )
– #ヒストグラムを相対値で書く
• hist( 標本平均 ,freq=FALSE)
– #理論分布曲線(標準偏差が√ N 分の 1 になる)との比較
• curve(dnorm(x,mean=50,sd=10/sqrt(10)),add=TRUE)
15
Histogram of 標本平均
標本平均
Density
40 45 50 55 60
0.00
0.04
0.08
0.12
偏りのある統計量の例標本平均 B<-numeric(length=10000)
#以下の作業を繰り返すfor(i in 1:10000){
標本 <- rnorm(n=10,mean=50,sd=10)
#10 個からなる標本を小さい順にならべる. 整列標本 <- sort( 標本 )
#初めの9個を取り出し,平均を残す標本平均 B[i] <- mean(整列標本 [1:9])
}
mean( 標本平均 B)
# [1] 48.26386
hist( 標本平均 B,freq=FALSE)
16
Histogram of B標本平均
B標本平均
Density
35 40 45 50 55 60
0.00
0.04
0.08
0.12