139
統計学の基礎の基礎 2015/10/2 Ken’ichi Matsui

統計学の基礎の基礎

Embed Size (px)

Citation preview

Page 1: 統計学の基礎の基礎

統計学の基礎の基礎

2015/10/2 Ken’ichi Matsui

Page 2: 統計学の基礎の基礎

自己紹介・Facebookページ   https://www.facebook.com/matsukenbook ・Twitterアカウント   @kenmatsu4 ・Qiitaでブログを書いています(統計、機械学習、Python等)    http://qiita.com/kenmatsu4    (3500 contributionを超えました!)

・趣味    - バンドでベースを弾いたりしています。    - 主に東南アジアへバックパック旅行に行ったりします    (カンボジア、ミャンマー、バングラデシュ、新疆ウイグル自治区 etc) 旅行の写真 : http://matsu-ken.jimdo.com

Twitterアイコン

Page 3: 統計学の基礎の基礎
Page 4: 統計学の基礎の基礎

コレですw

Page 5: 統計学の基礎の基礎

・統計学で何ができる? ・統計学の2つの目的 ・グラフを描こう ・基本統計量 平均、分散、標準偏差って何? ・相関係数 ・標本調査(母集団と標本) ・推測 ・仮説検定(さわりだけ) ・おわりに

今日のアジェンダ

Page 6: 統計学の基礎の基礎

1.統計学で何ができる?

Page 7: 統計学の基礎の基礎

薬の効果の検定グループごとに条件を変えて、その結果に違いが あるかを検定する

とある薬を飲んだ グループ

とある薬を飲んでいない グループ

Page 8: 統計学の基礎の基礎

Webサイトのレイアウト変更A/Bテスト

検索広告

検索広告

広告パターンA 広告パターンB

変更してみる

Page 9: 統計学の基礎の基礎

A/Bテスト

取得したデータクリックした クリックしない

広告パターンA 25 (18%) 117 (82%)

広告パターンB 10 (24%) 32 (76%)

Webサイトのレイアウト変更

検索広告

検索広告

広告パターンA 広告パターンB

変更してみる

Page 10: 統計学の基礎の基礎

A/Bテスト

クリックした クリックしない

広告パターンA 25 (18%) 117 (82%)

広告パターンB 10 (24%) 32 (76%)

取得したデータ

Webサイトのレイアウト変更

検索広告

検索広告

広告パターンA 広告パターンB

変更してみる

どちらが効果がある?

Page 11: 統計学の基礎の基礎

A/Bテスト

クリックした クリックしない

広告パターンA 25 (18%) 117 (82%)

広告パターンB 10 (24%) 32 (76%)

取得したデータ

どちらが効果がある?

Webサイトのレイアウト変更

検索広告

検索広告

広告パターンA 広告パターンB

変更してみる

実は差がない!

Page 12: 統計学の基礎の基礎

> ab_data <- matrix(c(25,117,10,32), ncol=2, byrow=T)> chisq.test(ab_data)

Pearson's Chi-squared test with Yates' continuity correction

data: ab_dataX-squared = 0.45721, df = 1, p-value = 0.4989

A/Bテスト計算してみると、

もしこの実験を繰り返すことが できたとすると、49.9%くらいの 確率でこれくらい(これ以上)の差は

発生しうる。 → 施策に効果があるとは言えない!

Page 13: 統計学の基礎の基礎

例:とあるアイスクリーム店の前の通行人と売上の関係回帰分析

Page 14: 統計学の基礎の基礎

2.統計学の2つの目的

Page 15: 統計学の基礎の基礎

・記述統計 ・推測統計

Page 16: 統計学の基礎の基礎

記述統計

トータル最高スコア 990

最低スコア 10

平均スコア 583.7

標準偏差 170.1

例:TOEIC公開テスト第202回の試験 → 第202回の受験者全員を対象にデータを要約

http://www.toeic.or.jp/toeic/about/data/data_avelist/data_ave01_04.htmlhttp://www.toeic.or.jp/toeic/about/data/data_avelist/data_dist01_04.html

Page 17: 統計学の基礎の基礎

記述統計

トータル最高スコア 990

最低スコア 10

平均スコア 583.7

標準偏差 170.1

例:TOEIC公開テスト第202回の試験 → 第202回の受験者全員を対象にデータを要約

http://www.toeic.or.jp/toeic/about/data/data_avelist/data_ave01_04.htmlhttp://www.toeic.or.jp/toeic/about/data/data_avelist/data_dist01_04.html

手元のデータを 要約している。

Page 18: 統計学の基礎の基礎

推測統計例:工場での製品生産、一部の経済統計 → サンプル(標本)から全体(母集団)を推測

標本抽出

標本抽出ex:家計調査

ex:製品の重さ

Page 19: 統計学の基礎の基礎

推測統計例:工場での製品生産、一部の経済統計 → サンプル(標本)から全体(母集団)を推測

平均、標準偏差を計算

平均、標準偏差を計算ex:製品の重さ

ex:家計調査

Page 20: 統計学の基礎の基礎

推測統計例:工場での製品生産、一部の経済統計 → サンプル(標本)から全体(母集団)を推測

推測する

推測する

ex:製品の重さ

ex:家計調査

Page 21: 統計学の基礎の基礎

3. グラフをたくさん描こう

Page 22: 統計学の基礎の基礎

ID total_bill tip gender smoker day time size0 16.99 1.01 Female No Sun Dinner 21 10.34 1.66 Male No Sun Dinner 32 21.01 3.5 Male No Sun Dinner 33 23.68 3.31 Male No Sun Dinner 24 24.59 3.61 Female No Sun Dinner 45 25.29 4.71 Male No Sun Dinner 46 8.77 2 Male No Sun Dinner 27 26.88 3.12 Male No Sun Dinner 4

… … … … … … … …

使用するデータ例:飲食店の顧客別支払い金額データ

Page 23: 統計学の基礎の基礎

ヒストグラム例:飲食店の顧客別支払い金額データ

支払額(ドル)

人数

https://github.com/mwaskom/seaborn-data

Page 24: 統計学の基礎の基礎

ヒストグラムある幅に入っているデータの個数(度数)を、 棒の縦の長さで表したグラフ。 (※ 面積が度数と比例するように描く)

Page 25: 統計学の基礎の基礎

例:飲食店の顧客別支払い金額データ(曜日別)

支払額(ドル)

人数

ヒストグラム

Page 26: 統計学の基礎の基礎

例:曜日ごと、性別ごと売上高箱ヒゲ図

50%点

25%点

75%点

最小値

最大値

外れ値

Page 27: 統計学の基礎の基礎

箱ヒゲ図:データも一緒にプロット

50%点

25%点

75%点

最小値

最大値

外れ値

例:曜日ごと、性別ごと売上高

Page 28: 統計学の基礎の基礎

箱ヒゲ図:外れ値の計算方法Q1(25%点) - 1.5×IQRより小さいQ2(75%点) + 1.5×IQRより大きい

外れ値 外れ値

https://en.wikipedia.org/wiki/Interquartile_range

Page 29: 統計学の基礎の基礎

例:飲食店の総支払額 vs チップ額散布図

Page 30: 統計学の基礎の基礎

散布図 (+回帰分析)例:飲食店の総支払額 vs チップ額

Page 31: 統計学の基礎の基礎

時系列グラフ (2軸グラフ)例:日経平均株価、為替(ドル円)

為替(ドル円)日経平均株価

Page 32: 統計学の基礎の基礎

4. 基本統計量って何?

Page 33: 統計学の基礎の基礎

・平均 ・分散 ・標準偏差

Page 34: 統計学の基礎の基礎

基本統計量・代表値 … 分布全体を一つの数で       表したもの

平均値、中央値、最頻値など青が平均が大きく、 赤が平均が小さい

Page 35: 統計学の基礎の基礎

基本統計量・散布度 … データの散らばりの程度を 数値化したもの

分散、標準偏差、変動係数など青が散らばりが大きく、 赤が散らばりが小さい。

平均は同じ。

Page 36: 統計学の基礎の基礎

ここで、ちょっとだけ

Page 37: 統計学の基礎の基礎

数学の話をします

Page 38: 統計学の基礎の基礎

統計学ではデータを 数字で表すので 少し数学が必要に なるのです

Page 39: 統計学の基礎の基礎

変数とは

x = 5

Page 40: 統計学の基礎の基礎

変数とは

x = 5

a = 10

Page 41: 統計学の基礎の基礎

変数とは

x = 5

a = 10

a⇥ x = 10⇥ 5 = 50

Page 42: 統計学の基礎の基礎

変数とは

a = 10

x = 3

a⇥ x = 10⇥ 3 = 30

Page 43: 統計学の基礎の基礎

変数とは:Excelで言うと

A B C D

1

2 x 53 a 104

5 a × x 506

7= B2 * B3

という数式が入っている

Page 44: 統計学の基礎の基礎

変数とは:Excelで言うと

A B C D

1

2 x 33 a 104

5 a × x 306

7= B2 * B3

という数式が入っている

Page 45: 統計学の基礎の基礎

変数とは:Excelで言うと

A B C D

1

2 x 33 a 104

5 a × x 306

7

セルに数値を入れているのと同じこと!

= B2 * B3 という数式が入っている

Page 46: 統計学の基礎の基礎

変数とは:データを扱う

名前 数学田中 96高橋 63鈴木 85渡辺 66清水 91木村 89山本 77

Page 47: 統計学の基礎の基礎

変数とは:データを扱う

名前 数学田中 96高橋 63鈴木 85渡辺 66清水 91木村 89山本 77

ID  数学1 962 633 854 665 916 897 77

IDにする

Page 48: 統計学の基礎の基礎

変数とは:データを扱う

名前 数学田中 96高橋 63鈴木 85渡辺 66清水 91木村 89山本 77

ID  数学1 962 633 854 665 916 897 77

IDにする 変数にする

ID  数学1234567

x1x2x3

x4x5x6x7

Page 49: 統計学の基礎の基礎

変数とは:データを扱う

名前 数学田中 96高橋 63鈴木 85渡辺 66清水 91木村 89山本 77

ID  数学1 962 633 854 665 916 897 77

IDにする 変数にする

x5:右下の数字(添字)はデータのIDを表す

ID  数学1234567

x1x2x3

x4x5x6x7

Page 50: 統計学の基礎の基礎

合計する名前 

数学 田中 96

高橋 63鈴木 85渡辺 66清水 91木村 89山本 77合計 567

= sum(B2 : B8) という数式が入っている

Page 51: 統計学の基礎の基礎

合計する ID  数学

 1234567合計

x1

x2

x3

x4

x5

x6

名前 

数学 田中 96

高橋 63鈴木 85渡辺 66清水 91木村 89山本 77合計 567

x7

x1 + x2 + x3 + x4 + x5 + x6 + x7

Page 52: 統計学の基礎の基礎

合計する ID  数学

 1234567合計

名前 

数学 田中 96

高橋 63鈴木 85渡辺 66清水 91木村 89山本 77合計 567 書くのが大変!!!

x1

x2

x3

x4

x5

x6

x7

x1 + x2 + x3 + x4 + x5 + x6 + x7

Page 53: 統計学の基礎の基礎

合計するExcelには  「B2 + B3 + B4 + B5 + B6 + B7 + B8」 を省略する短い書き方  「= sum(B2 : B8) 」 が存在する。

Page 54: 統計学の基礎の基礎

合計する

数学には?

Excelには  「B2 + B3 + B4 + B5 + B6 + B7 + B8」 を省略する短い書き方  「= sum(B2 : B8) 」 が存在する。

Page 55: 統計学の基礎の基礎

合計するあります!

x1 + x2 + x3 + x4 + x5 + x6 + x7

=7X

i=1

xi

Page 56: 統計学の基礎の基礎

合計するあります!

i は1から始まる という意味

i は7まで続きます、 という意味

この範囲の i について 全部足し合わせる、 という意味

=7X

i=1

xi

x1 + x2 + x3 + x4 + x5 + x6 + x7

Page 57: 統計学の基礎の基礎

・平均 ・分散 ・標準偏差

戻ります。

Page 58: 統計学の基礎の基礎

平均

Page 59: 統計学の基礎の基礎

平均ご存知「平均」です。 データを全部足し合わせて、データの数で割ります。

x =1

7(x1 + x2 + x3 + x4 + x5 + x6 + x7)

=1

7

7X

i=1

xi

Page 60: 統計学の基礎の基礎

分散・標準偏差データの散らばりの程度を数値化したもの

Page 61: 統計学の基礎の基礎

分散・標準偏差

分散 =1

N

NX

i=1

(xi � x)2

標準偏差 =

vuut 1

N

NX

i=1

(xi � x)2

Page 62: 統計学の基礎の基礎

分散・標準偏差

分散 =1

N

NX

i=1

(xi � x)2

標準偏差 =

vuut 1

N

NX

i=1

(xi � x)2

わけわからないですよね?

Page 63: 統計学の基礎の基礎

分散・標準偏差「偏差」とは?ID 点数 

偏差  1 96 96-81= 152 63 63-81=

-183 85 85-81= 44 66 66-81=

-155 91 91-81= 106 89 89-81= 87 77 77-81= -4

Page 64: 統計学の基礎の基礎

分散・標準偏差「偏差」とは?ID 点数 

偏差  1 96 96-81= 152 63 63-81=

-183 85 85-81= 44 66 66-81=

-155 91 91-81= 106 89 89-81= 87 77 77-81= -4

各データの平均値からの差のこと

Page 65: 統計学の基礎の基礎

分散・標準偏差:の前に平均偏差この、偏差の平均値を取りたいが・・・

ID  偏差  1 15

2 -183 44 -155 106 87 -4

全部足すと 0 になってしまう(左右釣り合いが取れるところが 平均値なので)

Page 66: 統計学の基礎の基礎

分散・標準偏差:の前に平均偏差

ID  偏差  

プラス化

1 15 152 -18 183 4 44 -15 155 10 106 8 87 -4 4

反転

なので、マイナスを取ってやる

Page 67: 統計学の基礎の基礎

分散・標準偏差:の前に平均偏差

ID  偏差  

プラス化

1 15 152 -18 183 4 44 -15 155 10 106 8 87 -4 4平均 10.57

なので、マイナスを取り除いてやる

偏差の平均 = 10.57

平均からの距離を 平均したもの

Page 68: 統計学の基礎の基礎

分散・標準偏差:の前に平均偏差

=1

n

nX

i=1

|xi � x|

平均偏差

偏差を足し合わせてデータ数:nで割る。 つまり平均をとっている。

偏差を全てプラスに変えるために絶対値を取る。

ID  偏差  

プラス化

1 15 152 -18 183 4 44 -15 155 10 106 8 87 -4 4平均 10.57

Page 69: 統計学の基礎の基礎

分散・標準偏差先ほどは下記の図のように、平均値からの差を 線の長さで表現していましたが、

Page 70: 統計学の基礎の基礎

分散・標準偏差今度はマイナスの値を取り除くために2乗します。 2乗するということは面積であると考えられます。

Page 71: 統計学の基礎の基礎

分散・標準偏差

+ + +

=いろいろなサイズの正方形を 足して、データの個数で割ると、

面積の平均が求まる。 これが分散の直感的イメージ。

+ … + + ÷ 個数

面積の平均値

①② ③ ④

n

Page 72: 統計学の基礎の基礎

分散・標準偏差

偏差

=1

n

nX

i=1

(xi � x)2分散

二乗した偏差を足し合わせてデータ数:nで割る。 この場合も二乗偏差の平均をとっている。 つまり、オレンジの面積の平均になる。

偏差を全てプラスに変えるために二乗する。 「二乗する」ということは面積をイメージして良い。

Page 73: 統計学の基礎の基礎

分散・標準偏差

長さ: 5

長さ: 5 面積 =

5 x 5 = 25

p

長さ: 5

ルート面積が長さになる!

の計算をすると

Page 74: 統計学の基礎の基礎

分散・標準偏差

長さ: 5

長さ: 5 面積 =

5 x 5 = 25

p

長さ: 5

ルート面積が長さになる!

の計算をすると

標準偏差 =

vuut 1

N

NX

i=1

(xi � x)2

単位を長さに戻した

Page 75: 統計学の基礎の基礎

分散・標準偏差

この全データが 中心から離れている 具合の平均的な値

Page 76: 統計学の基礎の基礎

名前  数学  偏差 偏差2乗 人数で割る ルート田中 96 15 225高橋 63 -18 324鈴木 85 4 16渡辺 66 -15 225清水 91 10 100木村 89 8 64山本 77 -4 16

合計 970 138.57 11.77標準偏差は11.77

分散・標準偏差平均 81.00

Page 77: 統計学の基礎の基礎

Ex: 偏差値

名前  数学  偏差 標準偏差 何個分? ← × 10倍 ← + 50

田中 96 15 1.27 12.74 62.74高橋 63 -18 -1.53 -15.29 34.71鈴木 85 4 0.34 3.40 53.40渡辺 66 -15 -1.27 -12.74 37.26清水 91 10 0.85 8.50 58.50木村 89 8 0.68 6.80 56.80山本 77 -4 -0.34 -3.40 46.60

平均 81.00 標準偏差 11.77

これが「偏差値」

Page 78: 統計学の基礎の基礎

5.相関係数

Page 79: 統計学の基礎の基礎

相関係数とは

支払総額

チップ

Page 80: 統計学の基礎の基礎

相関係数とは

支払総額

チップ

「支払総額」が増えると 「チップ」も増える傾向にある

→ 相関している

Page 81: 統計学の基礎の基礎

相関係数とは

支払総額

チップ

「支払総額」が増えると 「チップ」も増える傾向にある

→ 相関している

相関係数:0.675734

Page 82: 統計学の基礎の基礎

相関係数とは

Page 83: 統計学の基礎の基礎

相関係数とは

Page 84: 統計学の基礎の基礎

相関係数とは相関係数: 1 は

完全に横軸と縦軸が 依存関係にあり、一方が増えると

もう一方も増えている。

Page 85: 統計学の基礎の基礎

相関係数とは

相関係数: -1 は やはり、完全に横軸と縦軸が 依存関係にあり、一方が増えると

もう一方が減っている。

Page 86: 統計学の基礎の基礎

相関係数とは相関係数: 0 は

横軸と縦軸が全くなく 一方が増えてももう一方は

それとは関係なく値が決まる。

Page 87: 統計学の基礎の基礎

相関係数とは式で表すと・・・

r =1n

Pni=1(xi � x)(yi � y)

q1n

Pni=1(xi � x)2

q1n

Pni=1(yi � y)2

Page 88: 統計学の基礎の基礎

相関係数とは式で表すと・・・

さっきの標準偏差と一緒!

r =1n

Pni=1(xi � x)(yi � y)

q1n

Pni=1(xi � x)2

q1n

Pni=1(yi � y)2

Page 89: 統計学の基礎の基礎

相関係数とは式で表すと・・・

さっきの標準偏差と一緒!

r =1n

Pni=1(xi � x)(yi � y)

q1n

Pni=1(xi � x)2

q1n

Pni=1(yi � y)2

2乗しているので必ずプラス

Page 90: 統計学の基礎の基礎

相関係数とは式で表すと・・・

r =1n

Pni=1(xi � x)(yi � y)

q1n

Pni=1(xi � x)2

q1n

Pni=1(yi � y)2

これを共分散という

Page 91: 統計学の基礎の基礎

相関係数とは共分散

1

n

nX

i=1

(xi � x)(yi � y)

横軸の平均からの距離 (偏差) 平均より小さいところは マイナスになる。

Page 92: 統計学の基礎の基礎

相関係数とは共分散

1

n

nX

i=1

(xi � x)(yi � y)

縦軸の平均からの距離 (偏差) 平均より小さいところは マイナスになる。

Page 93: 統計学の基礎の基礎

相関係数とは

平均値

相関係数 : 0.81

n

nX

i=1

(xi � x)(yi � y)

Page 94: 統計学の基礎の基礎

相関係数とは

マイナス

マイナス

プラス

プラス

相関係数 : 0.81

n

nX

i=1

(xi � x)(yi � y)

Page 95: 統計学の基礎の基礎

相関係数とは

マイナス

マイナス

プラス

プラス

相関係数 : 11

n

nX

i=1

(xi � x)(yi � y)

Page 96: 統計学の基礎の基礎

相関係数とは

マイナス

マイナス

プラス

プラス

相関係数 : -11

n

nX

i=1

(xi � x)(yi � y)

Page 97: 統計学の基礎の基礎

相関係数とは

マイナス

マイナス

プラス

プラス

相関係数 : 01

n

nX

i=1

(xi � x)(yi � y)

Page 98: 統計学の基礎の基礎

相関係数とは注意!相関というものは、因果関係とは別の概念

Page 99: 統計学の基礎の基礎

相関係数とは注意!相関というものは、因果関係とは別の概念

例: アイスクリームの売り上げが伸びると 水死者数も確実に増える。

Page 100: 統計学の基礎の基礎

例: アイスクリームの売り上げが伸びると 水死者数も確実に増える。

相関係数とは注意!相関というものは、因果関係とは別の概念

アイスクリームを買うと、誰かが溺死するわけではなく、ともに 夏に多いと言うこと

水死者 数↑

アイス 売上↑

夏の気温

Page 101: 統計学の基礎の基礎

例: アイスクリームの売り上げが伸びると 水死者数も確実に増える。

相関係数とは注意!相関というものは、因果関係とは別の概念

アイスクリームを買うと、誰かが溺死するわけではなく、ともに 夏に多いと言うこと

水死者 数↑

アイス 売上↑

夏の気温

因果関係は統計学の外の ドメイン知識で判断する。

Page 102: 統計学の基礎の基礎

相関係数とは

https://ja.wikipedia.org/wiki/相関関係と因果関係

Page 103: 統計学の基礎の基礎

6. 標本調査(母集団と標本)

Page 104: 統計学の基礎の基礎

サンプル(標本)から全体(母集団)を推測標本調査 (母集団と標本)

母集団特徴や傾向を知りたい 集団全体のこと

標本

実際に調査を行いデータを取る母集団の一部

Page 105: 統計学の基礎の基礎

サンプル(標本)から全体(母集団)を推測

標本抽出

標本調査 (母集団と標本)

母集団特徴や傾向を知りたい 集団全体のこと

標本

実際に調査を行いデータを取る母集団の一部

対象の母集団に対して偏りなく ランダムに抽出することが重要

Page 106: 統計学の基礎の基礎

標本調査 (母集団と標本)

電話調査 (日中) 標本

標本抽出

日本人全体

推測できる?

Page 107: 統計学の基礎の基礎

標本調査 (母集団と標本)

標本

標本抽出

日本人全体

できない。 日中電話に出れる 人の全体になる。

電話調査 (日中)

推測できる?

Page 108: 統計学の基礎の基礎

7. 推測

Page 109: 統計学の基礎の基礎

正規分布 統計学で最も重要な確率分布。 データの分布が平均値を頂点とした左右対称の山形で表示される。

この面積が、確率を 表している。

赤い線の下の面積を全部 足すと1になるようになっている。

推測:正規分布とは

Page 110: 統計学の基礎の基礎

コイン投げ

表は1 裏は0

[1, 0, 1, 0, 0, 0, 0, 1, 0, 0, 0, 1, 0, 0, 1, 0, 1, 0, 0, 1]

ランダムに20回投げると、 このようなデータとなる

推測:正規分布とは

Page 111: 統計学の基礎の基礎

コイン投げ

表は1 裏は0

[1, 0, 1, 0, 0, 0, 0, 1, 0, 0, 0, 1, 0, 0, 1, 0, 1, 0, 0, 1]

ランダムに20回投げると、 このようなデータとなる

表の数を数えると 7 になる。

推測:正規分布とは

Page 112: 統計学の基礎の基礎

コイン投げ

9 12 11 4 10 12 10 9 9 9 8 9 10 11 11 8 12 11 15 7 16 8 11 10 13 10 11 12 7 11 11 11 8 9 10 13 12 10 12 8 11 8 12 8 10 12 11 11 13 13 7 11 8 13 12 7 5 9 12 9 8 11 11 10 10 10 10 5 16 6 14 9 10 13 11 7 11 10 8 11 13 8 9 13 7 12 9 11 10 10 7 12 8 12 11 6 14 9 13 13

20回1セットとして、それを100セット実施 すると下記のようなデータになる。

推測:正規分布とは

Page 113: 統計学の基礎の基礎

コイン投げ10,000セット実施してグラフにしてみる。

推測:正規分布とは

Page 114: 統計学の基礎の基礎

コイン投げ10,000セット実施してグラフにしてみる。

これがほぼ 正規分布!

推測:正規分布とは

Page 115: 統計学の基礎の基礎

コイン投げ10,000セット実施してグラフにしてみる。

これがほぼ 正規分布!

なので、2択でそれぞれの確率が50%という 完全なランダムの

積み重ねでできたもの。

推測:正規分布とは

Page 116: 統計学の基礎の基礎

100万件データのヒストグラム平均: 30、 標準偏差: 5

推測:正規分布とは

Page 117: 統計学の基礎の基礎

100万件データのヒストグラム平均: 30、 標準偏差: 5

954,375 個 22,878 個22,747 個

標準偏差左右に 2つ分ずつ

数えてみた

標準偏差:5

推測:正規分布とは

Page 118: 統計学の基礎の基礎

100万件データのヒストグラム平均: 30、 標準偏差: 5

954,375 個 22,878 個22,747 個95.44% 2.29%2.27%

標準偏差2つ分

数えてみた

標準偏差左右に 2つ分ずつ

推測:正規分布とは

Page 119: 統計学の基礎の基礎

100万件データのヒストグラム平均: 30、 標準偏差: 5

954,375 個 22,878 個22,747 個95.44% 2.29%2.27%

数えてみた

標準偏差左右に 2つ分ずつ

真ん中の標準偏差2つ分の範囲に 入る確率は約95%!

推測:正規分布とは

Page 120: 統計学の基礎の基礎

推測:母集団の平均値の推定母集団

標本抽出 標本

ここから100個 標本として抽出する

Page 121: 統計学の基礎の基礎

推測:母集団の平均値の推定

標本

標本平均:30.59

標本標準偏差:5.03

標本平均と、標本標準偏差を計算する

Page 122: 統計学の基礎の基礎

推測:母集団の平均値の推定

標本

標本平均と、標本標準偏差を計算するこの標本標準偏差を √標本数 で割る。

0.503

標本平均:30.59

標本標準偏差:5.03

この例の場合、 √100 = 10 で割る

Page 123: 統計学の基礎の基礎

推測:母集団の平均値の推定

標本

標本平均と、標本標準偏差を計算する

標準偏差を2つ分 ずつの区間

標本平均:30.59

標本標準偏差:5.03 0.503

この標本標準偏差を √標本数 で割る。

Page 124: 統計学の基礎の基礎

推測:母集団の平均値の推定

標本

標本平均:30.50

拡大

0.503

29.58 31.60サンプリングを100回 行うと、そのうちの95% は、真の平均値を捕捉

できる。

Page 125: 統計学の基礎の基礎

推測:標本平均の標準偏差が小さくなる理由母集団

標本抽出

標本抽出をするたびに、 少し違う形の分布となる

→ 標本平均が毎回違う

標本

ここから100個 標本として抽出する

Page 126: 統計学の基礎の基礎

何回もやってみる。母集団のミニ版がたくさんできる推測:標本平均の標準偏差が小さくなる理由

Page 127: 統計学の基礎の基礎

何回もやってみる。母集団のミニ版がたくさんできる個々の平均が母集団の 平均の”30”に近い!

推測:標本平均の標準偏差が小さくなる理由

Page 128: 統計学の基礎の基礎

標本

平均値の分布

推測:標本平均の標準偏差が小さくなる理由

標本平均を集めたもの をまたグラフに書いてみる

Page 129: 統計学の基礎の基礎

平均値の分布

拡大してみる。

推測:標本平均の標準偏差が小さくなる理由

Page 130: 統計学の基礎の基礎

拡大してみる。

平均値の分布

推測:標本平均の標準偏差が小さくなる理由

確かに、標本サイズ100のルート、√100 = 10で 元の標準偏差:5を割ったものとなっている!

Page 131: 統計学の基礎の基礎

拡大してみる。

平均値の分布29.0 31.0

推測:標本平均の標準偏差が小さくなる理由

29.0~31.0の区間を取ると、 95%の標本平均が入っている

Page 132: 統計学の基礎の基礎

推測:標本平均の標準偏差が小さくなる理由50回試してみると、ほとんどが真の平均30 を捉えられている。

Page 133: 統計学の基礎の基礎

8.仮説検定 (さわりだけ)

Page 134: 統計学の基礎の基礎

仮説検定:新入生向け試験の点数毎年の結果から、平均:450点, 標準偏差: 80点 の正規分布で近似できるとわかっている。 これを母集団とする。

母集団

Page 135: 統計学の基礎の基礎

仮説検定:新入生向け試験の点数

英語力が変わらないとすると、「効果がない」を表現するのは、今までの平均点と同じ450点

母集団

450点

帰無仮説:「差がない」「効果がない」を表す仮説

Page 136: 統計学の基礎の基礎

仮説検定:新入生向け試験の点数今年の新入生の結果

標本

[430 534 504 463 520 504 575 569 437 402 402 613 602 494 412 467 579 486 450 531 498 392 489 424 461 415 417 386 545 511 372 555 727 391 430 309]

平均:480点、標準偏差:82点、36人のデータ

Page 137: 統計学の基礎の基礎

仮説検定:新入生向け試験の点数今年の新入生の結果

平均値の分布

平均:480点、標準偏差:82点、36人のデータ→ 平均値の標準偏差は 82÷ √36 = 13.7

453.1 507.8

Page 138: 統計学の基礎の基礎

仮説検定:新入生向け試験の点数今年の新入生の結果

平均値の分布

平均:480点、標準偏差:82点、36人のデータ→ 平均値の標準偏差は 82÷ √36 = 13.7

453.1 507.8

この幅に、帰無仮説の値 450点が入らないので 今年の新入生は「有意に 点数が高い」と言える!

Page 139: 統計学の基礎の基礎

参考・「ビジネスに活かすデータマイニング」 尾崎 隆 著

・「日本統計学会公式認定 統計検定3級対応   データの分析」日本統計学会編

・「データサイエンティスト養成読本」

・「【統計学】初めての「標準偏差」(統計学に挫折 しないために)」 http://goo.gl/yM0QHU ・ 今日使ったプログラムコード https://goo.gl/Wckrdm