35
IT系エンジニアのための 統計学 みずかみ ひろき @piroyoung 1

IT系エンジニアのための統計学入門 ver1

Embed Size (px)

DESCRIPTION

勉強会で使用 「尤度」の概念が説明したいがための資料 中心極限定理・区間推定周りは一旦はぶいた. http://datasci.jp/?p=280

Citation preview

Page 1: IT系エンジニアのための統計学入門 ver1

IT系エンジニアのための 統計学みずかみ ひろき

@piroyoung

1

Page 2: IT系エンジニアのための統計学入門 ver1

こんな人向け!

• 確率変数 => ????

• 確率分布 =>わかる

• 最尤法 =>????

• t検定 => しってる

• 多変量解析 => テキストがちんぷんかんぷん

Page 3: IT系エンジニアのための統計学入門 ver1

データサイエンス コンサルティング

データサイエンスを支える理論

3

Page 4: IT系エンジニアのための統計学入門 ver1

データサイエンス コンサルティング

多変量解析 機械学習

オペレーションズ・リサーチ

4

データサイエンスを支える理論

Page 5: IT系エンジニアのための統計学入門 ver1

データサイエンス コンサルティング

多変量解析 機械学習

オペレーションズ・リサーチ

統計学 確率過程 数理最適化

5

データサイエンスを支える理論

Page 6: IT系エンジニアのための統計学入門 ver1

データサイエンス コンサルティング

多変量解析 機械学習

オペレーションズ・リサーチ

統計学 確率過程 数理最適化

確率論 関数解析 グラフ理論

6

データサイエンスを支える理論

Page 7: IT系エンジニアのための統計学入門 ver1

データサイエンス コンサルティング

多変量解析 機械学習

オペレーションズ・リサーチ

統計学 確率過程 数理最適化

確率論 関数解析 グラフ理論

7

集合・位相・代数・解析学・線形代数

データサイエンスを支える理論

Page 8: IT系エンジニアのための統計学入門 ver1

データサイエンス コンサルティング

多変量解析 機械学習

オペレーションズ・リサーチ

統計学 確率過程 数理最適化

確率論 関数解析 グラフ理論

集合・位相・代数・解析学・線形代数

8

今回!

データサイエンスを支える理論

Page 9: IT系エンジニアのための統計学入門 ver1

• 数学をしない

• 測度論なんてもってのほか

• 多変量解析もやらない

• じゃあ何やるの?

• 統計でしょ!

• 多変量解析やモデリングの本が読めるようになる!

今回の目標

9

Page 10: IT系エンジニアのための統計学入門 ver1

• 確率変数の定義 → 哲学

• 中心極限定理の証明 → つらい

• 各種回帰分析 → 早い

• 微積分・線形代数 → できる

• プログラミング → こわい

X今回やらないことX

• 確率変数の性質

• 確率変数の独立性

• 期待値

• 確率分布

• 点推定(最尤推定法)

• 区間推定(中心極限定理)

O今回やることO

10

Page 11: IT系エンジニアのための統計学入門 ver1

• 確率変数の定義 → 哲学

• 中心極限定理の証明 → つらい

• 各種回帰分析 → 早い

• 微積分・線形代数 → できる

• プログラミング → こわい

X今回やらないことX

• 確率変数の性質

• 確率変数の独立性

• 期待値

• 確率分布

• 点推定(最尤推定法)

• 区間推定(中心極限定理)

O今回やることO

11→かつてない幸福の実現

Page 12: IT系エンジニアのための統計学入門 ver1

0.統計学の目的

• 少数のサンプルから全体の性質を調べること.

!

• 乱雑な集団の性質を定量化する

12

Statistics!

→顧客の性質は?物流の急所は?

→平均・分散・(確率分布の)母数

Page 13: IT系エンジニアのための統計学入門 ver1

1.確率変数(random variable)

• 偶然現象に対して唯一の実数値を対応付ける関数

• 単に確率変数  と書いてあればそれは何らかの偶然現象の結果としての実現値

• 普通 r.v と書かれる

13

表が出る

裏が出る

1

0

Page 14: IT系エンジニアのための統計学入門 ver1

!

• コインを投げて表が出る確率は2分の1ですよ.

• この を事象(event)と呼ぶ.(”表が出る”と同値.)

Example!

14

表が出る

裏が出る

1

0

1.確率変数(random variable)

Page 15: IT系エンジニアのための統計学入門 ver1

• 2つのr.v が独立であるとは

15

年齢身長

体重

? ?

が成立すること.ここで は任意の実現値. せきのかくりつは,かくりつのせき

2.独立(independent)

Page 16: IT系エンジニアのための統計学入門 ver1

16

2.独立(independent)

表が出る

:表の数

:裏の数

Example!

確率変数XとYは独立でない

Page 17: IT系エンジニアのための統計学入門 ver1

17

3.期待値(expectation)

表が出る 1裏が出る 0

???

確率変数Xの期待値   は以下で定義される

←つまり期待値は確率変数の積分

←連続型

←離散型

確率論統計学

Page 18: IT系エンジニアのための統計学入門 ver1

18

3.5.チェックポイント!

確率変数

期待値

分布関数

確率密度関数

確率関数

← p.d.f とも呼ばれる

← c.d.f とも呼ばれる

Page 19: IT系エンジニアのための統計学入門 ver1

ここからしばらく ホワイトボード使いながら

ご紹介

Page 20: IT系エンジニアのための統計学入門 ver1

20

4.離散分布・ベルヌーイ分布(Bernoulli distribution)

確率変数  が

を満たすときこの  はパラメータ  の ベルヌーイ分布に従うといい,

と書く.

• つまり起こるか,起こらないかというコイン投げのような分布.

Page 21: IT系エンジニアのための統計学入門 ver1

21

4.離散分布・ベルヌーイ分布(Bernoulli distribution)

• 期待値の計算

・・・まぁ当然です.

Page 22: IT系エンジニアのための統計学入門 ver1

22

4.離散分布・二項分布(binomial distribution)

• n回コインを投げた時k回表が出る確率という分布 • 期待値は

        を互いに独立で   に従う 確率変数列とする.このときrvsの和 !!が従う確率分布を二項分布といい    と書く.

人生に一回でいいので手計算してくださいね!

Page 23: IT系エンジニアのための統計学入門 ver1

23

4.離散分布・二項分布(binomial distribution)

!• 「互いに独立で同一分布に従う確率変数列」   は i.i.d rv,sと書かれる. • i.i.d r,vs = independently identically distributed random variables

        を互いに独立で   に従う 確率変数列とする.

Page 24: IT系エンジニアのための統計学入門 ver1

が を満たすとする.確率変数 が において定義される !!なる密度関数を持つとき は区間 上の 一様分布に従うといい と書く. !!• どこで切っても同じ,金太郎飴な分布 • 期待値は

24

4.連続分布・一様分布( cont. uniform distribution)

←念力でわかるレベル

Page 25: IT系エンジニアのための統計学入門 ver1

確率分布まとめ

• 起こりがちな偶然現象を抽象化したもの

• 離散と連続の2パターンがある.

• パラメータを決める事でその現象を説明できる.

Page 26: IT系エンジニアのための統計学入門 ver1

4.推定( estimation)

• 分布を仮定してサンプルから母数を予測したい

• 点推定と区間推定がある.

• 統計学はこのために設計されている.

裏裏裏表

表かな?

Page 27: IT系エンジニアのための統計学入門 ver1

4.推定・統計量( statistics)

• を確率分布 上のi.i.d rv,sとする.

• このとき関数 を分布 の統計量と呼ぶ.

• 例 :

裏裏裏表

Page 28: IT系エンジニアのための統計学入門 ver1

4.推定・推定量( estimator)

• とくに となるとき この を 母数 の推定量と呼ぶ.

推定量

Page 29: IT系エンジニアのための統計学入門 ver1

4.点推定・最尤推定法( most likelihood estimation)

裏裏裏表

• この5つのサンプルから一番尤もらしい を推定したい.

• このサンプルはどれくらいの確率で観測されるのだろうか? ↓独立性! = せきのかくりつは かくりつの [・・]

Page 30: IT系エンジニアのための統計学入門 ver1

4.点推定・最尤推定法( most likelihood estimation)

裏裏裏表

はどんな値か? • 上記の標本が観測される確率 • 例えば のもとで上記の標本が観測される確率は0.

• なので を最大にする が一番推定値として尤もらしいのでは?

最尤推定

Page 31: IT系エンジニアのための統計学入門 ver1

一般に を尤度関数という.

!!を解くことで尤度を最大にするパラメータが求められる. 例の場合は が母数 の最尤推定値になる

4.点推定・最尤推定法( most likelihood estimation)

裏裏裏表

←対数関数の単調性から

Page 32: IT系エンジニアのための統計学入門 ver1

4.点推定・最尤推定法( most likelihood estimation)

裏裏裏表

最尤推定値(定数)

母数 の最尤推定量(確率変数)

尤度関数

対数尤度(AICで使われてる奴)

MLEと呼ばれている

Page 33: IT系エンジニアのための統計学入門 ver1

まとめ

• 統計学の目的は一部のサンプルから全体の性質を予測すること,

• 確率変数は偶然現象を人間が取り扱うための橋渡し的な概念.

• 確率分布は起こりがちな偶然現象を抽象化したもの • 最尤推定法とは得られたサンプルから尤もらしい母数を計算する手法.

多変量・時系列解析の本が読めるように なる・・・?

Page 34: IT系エンジニアのための統計学入門 ver1

参考文献

統計学入門 /東京大学出版会 !文化系の人向け統計学の 入門書でド定番 !通称 赤本

Page 35: IT系エンジニアのための統計学入門 ver1

参考文献

Probability /American Mathematical Society !確率論の入門書として定番.より深く統計を勉強したい場合に. !通称 教科書(身内ネタ)