Download pptx - ベイズ学習勉強会 EMアルゴリズム (作成途中)

知的学習論研究室 (ES-5)M1 三原秀司

ベイズ学習勉強会第１回統計的学習の基礎( 特に EM アルゴリズムについて )

使用テキスト2

上田修功 ." ベイズ学習 [Ⅰ]-[Ⅳ]" 電子情報通信学会誌 85,2002(CiNii から閲覧可能 )

I. 統計的学習の基礎

II. ベイズ学習の基礎

III.変分ベイズ学習

IV.変分ベイズ学習の適用例

参考テキスト3

・ PRML10 章変分推論法

・持橋大地　“自然言語処理のための変分ベイズ法”　 (Web 上に上がってる )・佐藤一誠奥村学　”トピックモデルによる統計的潜在意味解析”

Index 4

1.講座の概要紹介

2.統計的学習とは ?3.最尤学習

4.EM アルゴリズム

5.一般化 EM アルゴリズム

Index 5





ベイズ学習 ( 詳しい枠組みは第二回で紹介 )6

パラメータを確定値ではなく , ベイズ主義的な確率分布(= 事後分布 ) で予測(Ex. 平均 5 の確率が 20%,6 の確率が 50%,7 の確率が 30%)

𝜃 𝜃頻度主義による学習

( 点推定 )ベイズ学習( 区間推定 )

ベイズ学習のメリット7

• 学習対象に関する事前知識を，事前分布として学習に利用できる．

• 学習データ数が少ない場合，他の学習法に比べ，より汎化能力の高い学習機械が構成できる . ( 過学習が避けられる！ )

• 予測値の信頼性をも評価可能である．

• 学習機械の構造（モデル選択）の自動決定も可能である

期待値計算が困難 ( 高次元の積分計算 )

But! 𝑝 (𝑥|𝜃)𝑝 (𝜃)∫ 𝑝 (𝑥|𝜃 )𝑝 (𝜃)

事後確率の式

正規化項( こいつのせい )

◎ メリット

MCMC, 変分ベイズなどの工夫が必要

　事後確率の計算に近似を導入し , 計算量を減らす . 　計算式が解析的に導け , 計算コストが少ない , 　 but 精度は損なわれる .

　理論上 , 任意の精度での計算が可能 . but 計算コスト大

MCMC と変分ベイズ8

大抵の計算問題では正確さと計算量はトレードオフ

MCMC( マルコフ連鎖モンテカルロ法 )

VB 法 (Variational Bayes, 変分ベイズ法 )

大規模問題への適用が困難 !

Euler-Lagrange

方程式

Jensen の不等式

VB 法の難しさ9

• 問題に応じて , 適切な確率モデルや事前分布を設定する必要がある .

• 近似計算に煩雑な机上計算を要する .

平均場近似

shuuji mihara

シルエット追加

講座の概要 ( 再掲 )10

I. 統計的学習の基礎

II. ベイズ学習の基礎

III.変分ベイズ学習

IV.変分ベイズ学習の適用例

→ 最尤法 , 特に EM についての解説

→ 最尤法とベイズ学習の比較

→ 合わせて計算テクニックも紹介

shuuji mihara

レイアウト検討

Index 11





統計的学習とは ?(教師なし学習と教師あり学習 ) 12

教師なし学習

入力のみが学習データとして与えられる . 代表的な問題はクラスタリング

教師あり学習

入力と教師信号が学習データとして与えられる . 代表的な問題は回帰問題

いずれの場合もパラメータ推定が主な問題となる .

教師なし学習の例 (混合正規分布推定問題 ) 13

𝑝 (𝑥|𝜃 )=∑𝑖=1

𝑚

𝛼𝑖𝑁 (𝑥 :𝜇𝑖 , Σi)

混合ガウス分布

パラメータ

教師あり学習の例 ( 関数近似問題 = 回帰問題 ) 14

多項式線形回帰問題

𝑦=∑𝑘=1

𝑚

𝑤𝑘𝑥𝑘

𝒘 𝒌 :基底関数の重み

パラメータ

shuuji mihara

もう少し複雑な関数で実装

Index15





最尤学習 (Maximam Likelihood)16

前節で述べたように統計的学習の多くの問題はパラメータ推定の問題に帰着される .

最尤学習

パラメータ推定手法の 1 つ , 尤度が最も大きくなるパラメータを真のパラメータであるとして推定

�̂�=argmax𝜃ln 𝐿 (𝜃 ; 𝑥 )

対数尤度

尤度 (Likelihood)17

与えたパラメータがどれだけよく入力データを表現するかの尺度入力に対して , 以下の式で定式化される．

𝐿 (𝜃 ;𝑥 )=𝑝 ( 𝑿|𝜃 )=∏𝑖𝑝 (𝑥𝑖|𝜃 )

通常は最大化するため微分しやすいように以下の対数尤度が用いられる

尤度

ln 𝐿 (𝜃 ; 𝑥 )=∑𝑖ln𝑝 (𝑥 𝑖∨𝜃)

1 次元正規分布での最尤学習18

𝑝 (𝑥 )= 1√2𝜋 𝜎2 exp [ (𝑥−𝜇)2]

KL 情報量と最尤学習19

最小二乗法と最尤学習20

Index 21





混合正規分布での最尤推定22

Index 23