69
Variational Inference: Foundations and Modern Methods 担担 担担担担 @ 担担担担担担 nips 担担担 西 2017/3/18( 担 ) David Blei @Columbia University Shakir Mohamed @DeepMind Rajesh Ranganath @Princeton University NIPS 2016 Tutorial · December 5, 2016

第3回nips読み会・関西『variational inference foundations and modern methods』

Embed Size (px)

Citation preview

Page 1: 第3回nips読み会・関西『variational inference  foundations and modern methods』

Variational Inference: Foundations and Modern

Methods

担当:落合幸治 @ 理化学研究所第3回 nips 読み会・関西 2017/3/18( 土 )

David Blei @Columbia UniversityShakir Mohamed @DeepMind

Rajesh Ranganath @Princeton University

NIPS 2016 Tutorial · December 5, 2016

Page 2: 第3回nips読み会・関西『variational inference  foundations and modern methods』

注意• もしこのスライドを見てわからない点があったら(翻訳ミスの可能性があるため)以下元資料を確認• まとめ

https://nips.cc/Conferences/2016/Schedule?showEvent=6199• Video

https://channel9.msdn.com/Events/Neural-Information-Processing-Systems-Conference/Neural-Information-Processing-Systems-Conference-NIPS-2016/Variational-Inference-Foundations-and-Modern-Methods• Slide(PDF)

https://media.nips.cc/Conferences/2016/Slides/6199-Slides.pdf

Page 3: 第3回nips読み会・関西『variational inference  foundations and modern methods』

Variational Inference?

一般の推論(最尤推定)

確率的推論 ?

• 確率的推論を効率的かつ安定に行うための方法の一つ

確率的推論例:重回帰、ニューラルネット 例:

LDA 、 VAE

Page 4: 第3回nips読み会・関西『variational inference  foundations and modern methods』

確率的推論 ?

Variational Inference?

一般の推論(最尤推定)

• 確率的推論を効率的かつ安定に行うための方法の一つ

確率的推論例:重回帰、ニューラルネット 例:

LDA 、 VAE

Page 5: 第3回nips読み会・関西『variational inference  foundations and modern methods』

確率的推論• 推論先の点がつねに一点にさだまるとは限らない• 例:画像の上半分から  下半分を推測→

• 分布の期待値がつねにもっとも良い結果とは限らない• 自然画像の期待値(平均値)はのっぺりした灰色の画像

Page 6: 第3回nips読み会・関西『variational inference  foundations and modern methods』

質問1. 確率的勾配法 (stochastic gradient descent, SGD)とは何か知っている or 使ったことがある2. 『パターン認識と機械学習』の 9 章:混合モデルと

EM 、10章:変分推論を読んだことがある3. Variational Autoencoder という言葉を聞いたことがある

Page 7: 第3回nips読み会・関西『variational inference  foundations and modern methods』

目次1. 変分推論とは2. 平均場近似と確率的変分推論3. 変分下界に対する確率的勾配法4. 平均場近似を仮定しない変分推論

※ オリジナルのチュートリアルに準拠

Page 8: 第3回nips読み会・関西『variational inference  foundations and modern methods』

目次1. 変分推論とは2. 平均場近似と確率的変分推論3. 変分下界に対する確率的勾配法4. 平均場近似を仮定しない変分推論

※ オリジナルのチュートリアルに準拠

• SGD を知っていればここまでは簡単

Page 9: 第3回nips読み会・関西『variational inference  foundations and modern methods』

目次1. 変分推論とは2. 平均場近似と確率的変分推論3. 変分下界に対する確率的勾配法4. 平均場近似を仮定しない変分推論

※ オリジナルのチュートリアルに準拠

• 一番の難所• PRML の 9 章、 10 章の内容を発展• VAE の理論的背景がわかる

Page 10: 第3回nips読み会・関西『variational inference  foundations and modern methods』

目次1. 変分推論とは2. 平均場近似と確率的変分推論3. 変分下界に対する確率的勾配法4. 平均場近似を仮定しない変分推論

※ オリジナルのチュートリアルに準拠• 現代の( 2016 年以降の)研究• 事前知識があると少し感動する

Page 11: 第3回nips読み会・関西『variational inference  foundations and modern methods』

1. 変分推論とは確率的推論を最適化問題として解けるようにする

Page 12: 第3回nips読み会・関西『variational inference  foundations and modern methods』

確率的推論• 確率モデルとは観測変数と隠れ変数の同時分布• 確率モデルがあれば未知変数も事後分布として求められる• 例えば x を画像 z をラベルとすると分類問題がとける

• ほとんどの問題において分母の積分が解けないので近似が必要

Page 13: 第3回nips読み会・関西『variational inference  foundations and modern methods』

変分推定 知りたい真の条件付き分布

近似分布で表現可能な範囲

上に貼られた確率分布の空間

Page 14: 第3回nips読み会・関西『variational inference  foundations and modern methods』

歴史• 変分推定は統計力学のアイディアを確率推定に適用することで始まりました。おそらく 80 年代に Peterson と Anderson が平均場法をニューラルネットで使ったことが始まりです。• このアイディアは Jordan 研究室で 1990 年代に取り上げられ、

Tommi Jaakkola, Lawrence Saul, Zoubin Gharamani によって多くの確率モデルに一般化されました。• それと並行して Hinton と Van Camp がニューラルネットによる平均場法を開発 (1993) 。 Neal と Hinton はこのアイディアを EM 法につなげそれが mixture of experts や HMM などへ変分法をさらに進展させました。

Page 15: 第3回nips読み会・関西『variational inference  foundations and modern methods』

現在• 現在では変分法における多くの活発な取り組みがあります。大規模化、簡易化、高速化、正確化、複雑なモデルへの適用と応用• 現在の変分推定は多くの領域にまたがっています:確率的プログラミング、強化学習、ニューラルネット、凸最適化、ベイズ統計、そして広範囲にわたる応用分野。•このスライドの目的は基礎から始まり、いくつかの最近のアイディアを紹介し、新研究における最前線を知ってもらうことです。

Page 16: 第3回nips読み会・関西『variational inference  foundations and modern methods』

2. 平均場近似と確率的変分推論• 平均場近似:最適化をしやすくするためモデルの表現力を落とす• 確率的変分法:大規模データに対応するため確率的最適化を行う

Page 17: 第3回nips読み会・関西『variational inference  foundations and modern methods』

確率推論の手順

Page 18: 第3回nips読み会・関西『variational inference  foundations and modern methods』
Page 19: 第3回nips読み会・関西『variational inference  foundations and modern methods』

例: Topic Modeling

大量の文章集合の中から文章のトピックスなどの構造を見つけ出したい!

Page 20: 第3回nips読み会・関西『variational inference  foundations and modern methods』

確率推論の手順

Page 21: 第3回nips読み会・関西『variational inference  foundations and modern methods』

例 :Latent Dirichlet Allocation(LDA)

• トピックは単語の集合• ドキュメントは複数のトピックを特定の比率で混ぜ合わせたもの(単語の順序は考えない)• 単語は特定のトピックから持ってくる• 実際に観測できるのはドキュメントだけ• 他は事後分布推定• 注:ドキュメントも潜在変数も大量にある

𝑝 (𝑡𝑜𝑝𝑖𝑐𝑠 ,𝑝𝑟𝑜𝑝𝑜𝑟𝑡𝑖𝑜𝑛𝑠 ,𝑎𝑠𝑠𝑖𝑔𝑛𝑚𝑒𝑛𝑡𝑠∨𝑑𝑜𝑐𝑢𝑚𝑒𝑛𝑡𝑠)

Page 22: 第3回nips読み会・関西『variational inference  foundations and modern methods』

LDA のグラフィカルモデル• 仮定を同時分布の因数分解として表現• 仮定とデータを組み合わせて事後分布を求める

因数分解

Page 23: 第3回nips読み会・関西『variational inference  foundations and modern methods』

確率推論の手順

Page 24: 第3回nips読み会・関西『variational inference  foundations and modern methods』

事後分布の推定

この積分は ( 一般に ) 計算不能 近似

Page 25: 第3回nips読み会・関西『variational inference  foundations and modern methods』

変分推定 知りたい真の条件付き分布

近似分布で表現可能な範囲上に貼られた確率分布の空間

Page 26: 第3回nips読み会・関西『variational inference  foundations and modern methods』

Evidence Lower Bound(ELBO)

• の下界• ELBO 最大化は KLダイバージェンスの最小化にな(なぜそうなるかは 3 章で説明)• 最初の項は MAP 推定に相当• 第二項 (エントロピー ) はを可能な限り拡散させる

エントロピー

Page 27: 第3回nips読み会・関西『variational inference  foundations and modern methods』

問題の一般化

Page 28: 第3回nips読み会・関西『variational inference  foundations and modern methods』

平均場近似

• 平均場近似は各変数が独立であることを仮定• “平均場近似”と”各確率変数が共役分布であること”を仮定すると他の変数を固定した状態で着目している変数を更新するという手順の繰り返しで ELBO を最大化できる

Page 29: 第3回nips読み会・関西『variational inference  foundations and modern methods』

古典的変分推定

Page 30: 第3回nips読み会・関西『variational inference  foundations and modern methods』

確率的変分推定• 大規模データに対応• 確率的勾配法と同じ発想• ステップサイズ系列は Robbins-

Monro conditions に従うものとする(大まかには徐々に小さくなっていくと思っておけば良い)

Page 31: 第3回nips読み会・関西『variational inference  foundations and modern methods』

LDA に対する確率的変分推論

• ドキュメントをサンプル• 現在のトピック設定に従ってローカルのパラメータを推定する•ローカルパラメータからトピック設定を仮更新する• 現在のトピック設定と仮更新したトピック設定で新たなトピック設定を作る

Page 32: 第3回nips読み会・関西『variational inference  foundations and modern methods』

自動抽出されたトピックと単語

Page 33: 第3回nips読み会・関西『variational inference  foundations and modern methods』

3. 変分下界に対する確率的勾配法変分下界:確率的機械学習におけるロス関数

Page 34: 第3回nips読み会・関西『variational inference  foundations and modern methods』

なぜ ELBO 最大化 =KL 最小化 ?log𝑝 (𝑥 )=ℒ (𝑣 )+KL(𝑞 (𝑧 ;𝑣)∨¿𝑝 (𝑧∨𝑥))

log𝑝 (𝑥 )

ℒ (𝑣 )

))

𝑣 PRML9章、10章より補完

Page 35: 第3回nips読み会・関西『variational inference  foundations and modern methods』

変分推定 知りたい真の条件付き分布

近似分布で表現可能な範囲上に貼られた確率分布の空間

Page 36: 第3回nips読み会・関西『variational inference  foundations and modern methods』

変分推定のレシピ1. モデルを考える 2. 潜在変数の近似分布を選ぶ 3. ELBO を定式化 4. 期待値(積分)を計算

5. 導関数を求める

6. 最適化する

Page 37: 第3回nips読み会・関西『variational inference  foundations and modern methods』

現実は甘くない

• ベイズロジスティック回帰を変分推定しようとした結果( x が入力y が出力 z が回帰係数)• 期待値が解析的に求められない + 変分係数に関係する値 (z) が期待値の中に残っている = 導関数が求められない

Page 38: 第3回nips読み会・関西『variational inference  foundations and modern methods』

確率的勾配法が使えるよう式を変形

ここが解けない

先に微分 確率的勾配法

Page 39: 第3回nips読み会・関西『variational inference  foundations and modern methods』

式変形ELBODefine

Page 40: 第3回nips読み会・関西『variational inference  foundations and modern methods』

ELBO を安定に求めるための方法

Score Function Gradients

Pathwise Gradient

Amortized Inference

汎用的

安定、高速

Page 41: 第3回nips読み会・関西『variational inference  foundations and modern methods』

Score Function Estimator

単純化

再掲

勾配Likelihood ratio( 尤度 ) または REINFORCE gradients(強化学習勾配 ?)ともよばれる

Page 42: 第3回nips読み会・関西『variational inference  foundations and modern methods』

単純化について補足

nips 読み会での議論を踏まえ追加

𝔼𝑞 [∇𝑣 g (𝐳 , 𝐯 ) ]=𝔼𝑞 [∇𝐯 log𝑞 (𝐳 ;𝐯 ) ]

g (𝐳 ,𝐯 )= log𝑞 (𝐱 ,𝐳 )− log𝑞 (𝐳 ;𝐯 )

¿∫𝑞 (𝐳 ;𝐯 )𝛻𝐯 log𝑞 (𝐳 ;𝐯 ) 𝑑𝑧¿∫𝑞 (𝐳 ;𝐯 )

𝛻 𝐯𝑞 (𝐳 ;𝐯 )𝑞(𝐳 ;𝐯 )

𝑑𝑧

¿∫𝛻𝐯𝑞 (𝐳 ;𝐯 )𝑑𝑧¿𝛻𝐯∫𝑞 (𝐳 ;𝐯 )𝑑𝑧¿0 =1

微分と積分の順序交換より

Page 43: 第3回nips読み会・関西『variational inference  foundations and modern methods』

モンテカルロ近似による勾配計算

モンテカルロ近似

Page 44: 第3回nips読み会・関西『variational inference  foundations and modern methods』

Black Box Variational Inference

適用のための条件• サンプリング可能• が計算可能• とが計算可能

モデル固有の作業がない:汎用的な適用が可能

Page 45: 第3回nips読み会・関西『variational inference  foundations and modern methods』

Black Box Variational Inference

Page 46: 第3回nips読み会・関西『variational inference  foundations and modern methods』

Score Function Estimator は不安定

確率の低い場所のサンプリングはスコアと分散が大きくなる

Page 47: 第3回nips読み会・関西『variational inference  foundations and modern methods』

コントロール変数を使用することで軽減

Page 48: 第3回nips読み会・関西『variational inference  foundations and modern methods』

Pathwise Estimator

Page 49: 第3回nips読み会・関西『variational inference  foundations and modern methods』

Pathwise Estimator

単純化

Page 50: 第3回nips読み会・関西『variational inference  foundations and modern methods』

分散の比較

Page 51: 第3回nips読み会・関西『variational inference  foundations and modern methods』

ローカル変数の決定は高コスト

各データ点ごとで最適化演算が必要

Page 52: 第3回nips読み会・関西『variational inference  foundations and modern methods』

Amortizing Inference

Page 53: 第3回nips読み会・関西『variational inference  foundations and modern methods』

Amortizing Inference

Page 54: 第3回nips読み会・関西『variational inference  foundations and modern methods』

例:変分オートエンコーダ (VAE)

四角は深層ニューラルネットワーク

Page 55: 第3回nips読み会・関西『variational inference  foundations and modern methods』

例:変分オートエンコーダ (VAE)

Page 56: 第3回nips読み会・関西『variational inference  foundations and modern methods』

全般的なアドバイス• もしがについて微分可能だったら• リパラメタライゼーションが可能なを使いなさい

• もしがについて微分不可能だったら• コントロール変数ありの Score Function を使いなさい• 実験的証拠に基づいてさらに分散を減少させなさい(意訳:試行錯誤で頑張って分散を下げなさい)

• 全般的に• 座標ごとにラーニングレートを調節 (RMSProp, AdaGrad)• アニーリング + 温度• サンプリングを並列化できないか一度考えてみる

Page 57: 第3回nips読み会・関西『variational inference  foundations and modern methods』

Software

Page 58: 第3回nips読み会・関西『variational inference  foundations and modern methods』

4. 平均場近似を仮定しない変分推論平均場近似は極端すぎるので適度に複雑でソコソコ効率的に計算できるもでるモデルを考える

Page 59: 第3回nips読み会・関西『variational inference  foundations and modern methods』

構造化事後分布近似 (Structured Posterior Approximations)目標:高い近似能力と計算効率の両立

Page 60: 第3回nips読み会・関西『variational inference  foundations and modern methods』

構造化事後分布近似 (Structured Posterior Approximations)目標:高い近似能力と計算効率の両立

Page 61: 第3回nips読み会・関西『variational inference  foundations and modern methods』

Gaussian Approximate Posteriors

Page 62: 第3回nips読み会・関西『variational inference  foundations and modern methods』

Autoregressive distribution

Page 63: 第3回nips読み会・関西『variational inference  foundations and modern methods』

Change-of-variables

Page 64: 第3回nips読み会・関西『variational inference  foundations and modern methods』

Change-of-variables

Linear time computation of the determinant and its gradient.

Page 65: 第3回nips読み会・関西『variational inference  foundations and modern methods』

Change-of-variables

Page 66: 第3回nips読み会・関西『variational inference  foundations and modern methods』

Auxiliary-variable Methods

Page 67: 第3回nips読み会・関西『variational inference  foundations and modern methods』

Auxiliary-variable Methods

Page 68: 第3回nips読み会・関西『variational inference  foundations and modern methods』

まとめ

Page 69: 第3回nips読み会・関西『variational inference  foundations and modern methods』

Variational Inference: Foundations and Modern Methods

• VI は複雑なモデルの変量を近似できる• 確率的最適化をによって• 大量のデータにスケールアップできる• 複雑なモデルに対応できる• 精密かつ柔軟な近似が可能となる