Upload
hiroki-mizukami
View
1.438
Download
0
Embed Size (px)
DESCRIPTION
勉強会で使用 「尤度」の概念が説明したいがための資料 中心極限定理・区間推定周りは一旦はぶいた. http://datasci.jp/?p=280
Citation preview
IT系エンジニアのための 統計学みずかみ ひろき
@piroyoung
1
こんな人向け!
• 確率変数 => ????
• 確率分布 =>わかる
• 最尤法 =>????
• t検定 => しってる
• 多変量解析 => テキストがちんぷんかんぷん
データサイエンス コンサルティング
データサイエンスを支える理論
3
データサイエンス コンサルティング
多変量解析 機械学習
オペレーションズ・リサーチ
4
データサイエンスを支える理論
データサイエンス コンサルティング
多変量解析 機械学習
オペレーションズ・リサーチ
統計学 確率過程 数理最適化
5
データサイエンスを支える理論
データサイエンス コンサルティング
多変量解析 機械学習
オペレーションズ・リサーチ
統計学 確率過程 数理最適化
確率論 関数解析 グラフ理論
6
データサイエンスを支える理論
データサイエンス コンサルティング
多変量解析 機械学習
オペレーションズ・リサーチ
統計学 確率過程 数理最適化
確率論 関数解析 グラフ理論
7
集合・位相・代数・解析学・線形代数
データサイエンスを支える理論
データサイエンス コンサルティング
多変量解析 機械学習
オペレーションズ・リサーチ
統計学 確率過程 数理最適化
確率論 関数解析 グラフ理論
集合・位相・代数・解析学・線形代数
8
今回!
データサイエンスを支える理論
• 数学をしない
• 測度論なんてもってのほか
• 多変量解析もやらない
• じゃあ何やるの?
• 統計でしょ!
• 多変量解析やモデリングの本が読めるようになる!
今回の目標
9
• 確率変数の定義 → 哲学
• 中心極限定理の証明 → つらい
• 各種回帰分析 → 早い
• 微積分・線形代数 → できる
• プログラミング → こわい
X今回やらないことX
• 確率変数の性質
• 確率変数の独立性
• 期待値
• 確率分布
• 点推定(最尤推定法)
• 区間推定(中心極限定理)
O今回やることO
10
• 確率変数の定義 → 哲学
• 中心極限定理の証明 → つらい
• 各種回帰分析 → 早い
• 微積分・線形代数 → できる
• プログラミング → こわい
X今回やらないことX
• 確率変数の性質
• 確率変数の独立性
• 期待値
• 確率分布
• 点推定(最尤推定法)
• 区間推定(中心極限定理)
O今回やることO
11→かつてない幸福の実現
0.統計学の目的
• 少数のサンプルから全体の性質を調べること.
!
• 乱雑な集団の性質を定量化する
12
Statistics!
→顧客の性質は?物流の急所は?
→平均・分散・(確率分布の)母数
1.確率変数(random variable)
• 偶然現象に対して唯一の実数値を対応付ける関数
• 単に確率変数 と書いてあればそれは何らかの偶然現象の結果としての実現値
• 普通 r.v と書かれる
13
表が出る
裏が出る
1
0
!
• コインを投げて表が出る確率は2分の1ですよ.
• この を事象(event)と呼ぶ.(”表が出る”と同値.)
Example!
14
表が出る
裏が出る
1
0
1.確率変数(random variable)
• 2つのr.v が独立であるとは
15
年齢身長
体重
?
? ?
が成立すること.ここで は任意の実現値. せきのかくりつは,かくりつのせき
2.独立(independent)
16
2.独立(independent)
表が出る
:表の数
:裏の数
Example!
確率変数XとYは独立でない
17
3.期待値(expectation)
表が出る 1裏が出る 0
???
確率変数Xの期待値 は以下で定義される
←つまり期待値は確率変数の積分
←連続型
←離散型
確率論統計学
18
3.5.チェックポイント!
確率変数
期待値
分布関数
確率密度関数
確率関数
← p.d.f とも呼ばれる
← c.d.f とも呼ばれる
ここからしばらく ホワイトボード使いながら
ご紹介
20
4.離散分布・ベルヌーイ分布(Bernoulli distribution)
確率変数 が
を満たすときこの はパラメータ の ベルヌーイ分布に従うといい,
と書く.
• つまり起こるか,起こらないかというコイン投げのような分布.
21
4.離散分布・ベルヌーイ分布(Bernoulli distribution)
• 期待値の計算
・・・まぁ当然です.
22
4.離散分布・二項分布(binomial distribution)
• n回コインを投げた時k回表が出る確率という分布 • 期待値は
を互いに独立で に従う 確率変数列とする.このときrvsの和 !!が従う確率分布を二項分布といい と書く.
人生に一回でいいので手計算してくださいね!
23
4.離散分布・二項分布(binomial distribution)
!• 「互いに独立で同一分布に従う確率変数列」 は i.i.d rv,sと書かれる. • i.i.d r,vs = independently identically distributed random variables
を互いに独立で に従う 確率変数列とする.
が を満たすとする.確率変数 が において定義される !!なる密度関数を持つとき は区間 上の 一様分布に従うといい と書く. !!• どこで切っても同じ,金太郎飴な分布 • 期待値は
24
4.連続分布・一様分布( cont. uniform distribution)
←念力でわかるレベル
確率分布まとめ
• 起こりがちな偶然現象を抽象化したもの
• 離散と連続の2パターンがある.
• パラメータを決める事でその現象を説明できる.
4.推定( estimation)
• 分布を仮定してサンプルから母数を予測したい
• 点推定と区間推定がある.
• 統計学はこのために設計されている.
表
表
裏
裏
裏
裏裏裏表
表かな?
4.推定・統計量( statistics)
• を確率分布 上のi.i.d rv,sとする.
• このとき関数 を分布 の統計量と呼ぶ.
• 例 :
表
表
裏
裏
裏
裏裏裏表
表
4.推定・推定量( estimator)
• とくに となるとき この を 母数 の推定量と呼ぶ.
推定量
4.点推定・最尤推定法( most likelihood estimation)
表
裏裏裏表
• この5つのサンプルから一番尤もらしい を推定したい.
• このサンプルはどれくらいの確率で観測されるのだろうか? ↓独立性! = せきのかくりつは かくりつの [・・]
4.点推定・最尤推定法( most likelihood estimation)
表
裏裏裏表
はどんな値か? • 上記の標本が観測される確率 • 例えば のもとで上記の標本が観測される確率は0.
• なので を最大にする が一番推定値として尤もらしいのでは?
最尤推定
一般に を尤度関数という.
!!を解くことで尤度を最大にするパラメータが求められる. 例の場合は が母数 の最尤推定値になる
4.点推定・最尤推定法( most likelihood estimation)
表
裏裏裏表
←対数関数の単調性から
4.点推定・最尤推定法( most likelihood estimation)
表
裏裏裏表
最尤推定値(定数)
母数 の最尤推定量(確率変数)
尤度関数
対数尤度(AICで使われてる奴)
MLEと呼ばれている
まとめ
• 統計学の目的は一部のサンプルから全体の性質を予測すること,
• 確率変数は偶然現象を人間が取り扱うための橋渡し的な概念.
• 確率分布は起こりがちな偶然現象を抽象化したもの • 最尤推定法とは得られたサンプルから尤もらしい母数を計算する手法.
多変量・時系列解析の本が読めるように なる・・・?
参考文献
統計学入門 /東京大学出版会 !文化系の人向け統計学の 入門書でド定番 !通称 赤本
参考文献
Probability /American Mathematical Society !確率論の入門書として定番.より深く統計を勉強したい場合に. !通称 教科書(身内ネタ)