PRML復々習レーン#7 前回までのあらすじ

PRML復々習レーン#7 前回までのあらすじ

2012-12-15

Yoshihiko Suhara

@sleepy_yoshi

v.1.0

前回のおさらい

• 復々習レーンの復習を15分程度でやります – 得られた結論にポイントを絞る – 「よーするに」な内容

• 好きなところをたくさん喋る • よくわからないところは誤魔化す • まちがってたら指摘してください

• 目的 – 前回の復習 – 不参加の方に流れを伝えるため – 自分自身の勉強のため

ポイントだよ

2

前回の範囲 4章 • 4.4 ラプラス近似

– 4.4.1 モデルの比較とBIC

• 4.5 ベイズロジスティック回帰 – 4.5.1 ラプラス近似 – 4.5.2 予測分布

5章 • 5.1 フィードフォワードネットワーク関数

– 5.1.1 重み空間対称性

• 5.2 ネットワーク訓練 – 5.2.1 パラメータ最適化 – 5.2.2 局所二次近似 – 5.2.3 勾配情報の利用 – 5.2.4 勾配降下最適化

• 5.3 誤差逆伝播 – 5.3.1 誤差関数微分の評価 – 5.3.2 単純な例

3

前回の範囲 4章 • 4.4 ラプラス近似

– 4.4.1 モデルの比較とBIC

• 4.5 ベイズロジスティック回帰 – 4.5.1 ラプラス近似 – 4.5.2 予測分布

5章 • 5.1 フィードフォワードネットワーク関数

– 5.1.1 重み空間対称性

• 5.2 ネットワーク訓練 – 5.2.1 パラメータ最適化 – 5.2.2 局所二次近似 – 5.2.3 勾配情報の利用 – 5.2.4 勾配降下最適化

• 5.3 誤差逆伝播 – 5.3.1 誤差関数微分の評価 – 5.3.2 単純な例

4

4.4 ラプラス近似

5

4.4 ラプラス近似

パラメータ𝒘を積分するため，ガウス分布による近似を行う (= ラプラス近似)

ポイントだよ

6

• 𝑝(𝑧)のモードを見つけ，ガウス分布の平均とする

4.4.1 モデルの比較とBIC

ラプラス近似を利用してモデルエビデンスの近似を得る

ポイントだよ

7

• ln 𝑝 𝐷 ≅ ln 𝑝 𝐷 𝜽𝑀𝐴𝑃 + ln 𝑝 𝜽𝑀𝐴𝑃 +𝑀

2ln 2𝜋 −

1

2ln 𝑨

• ln 𝑝 𝐷 ≅ ln 𝑝 𝐷 𝜽𝑀𝐴𝑃 −1

2𝑀 ln 𝑁

– 上記の近似．ベイズ情報量規準 (BIC) と呼ばれる

Occam係数

モデルの複雑さに対するペナルティ

4.5 ベイズロジスティック回帰

8

4.5.1 ラプラス近似

ロジスティック回帰のパラメータ𝑤の事後分布をガウス分布で近似することにより，積分可能にする

ポイントだよ

9

• 事後確率分布のガウス分布による近似は以下の式のようになる

𝑞 𝒘 = 𝒩 𝒘 𝒘𝑀𝐴𝑃, 𝑺𝑁

4.5.2 予測分布

プロビット関数による近似と，畳み込み積分の近似を用いて近似予測分布を求める

ポイントだよ

10

𝑝 𝐶1 𝜙, 𝒕 = 𝜎 𝜅 𝜎𝑎2 𝜇𝑎

• ただし，

𝜅 𝜎𝑎2 = 1 +

𝜋𝜎2

8

−12

𝜇𝑎 = ∫ 𝑞 𝒘 𝒘𝑇𝜙d𝒘 = 𝒘𝑀𝐴𝑃𝑇 𝜙

※重畳 (ちょうじょう) 積分

5章ニューラルネットワーク

11

5 ニューラルネットワーク

多層ニューラルネットワークはロジスティック回帰を多層にしたもの

ポイントだよ

12

• 固定された基底関数の線形和ではモデルの有用性に限界 ⇒ 基底関数をデータに適応させる必要性 – SVM (7章)

• 訓練データ点を中心とした基底関数群を用意し，訓練中に選ぶ

–多層ニューラルネットワーク (本章) • 基底関数の数を固定し，訓練中に適応させる

5.1 フィードフォワードネットワーク関数

13

5.1 フィードフォワードネットワーク関数 (1/2)

入力の線形和に対する活性化関数の，線形和の活性化関数を出力とする (＝順向き伝播)

ポイントだよ

14

• 𝑦𝑘 𝒙, 𝒘 = 𝜎 𝑤𝑘𝑗2

ℎ 𝑤𝑗𝑖1

𝑥𝑖 + 𝑤𝑗01𝐷

𝑖=1 + 𝑤𝑘02𝑀

𝑗=1

5.1 フィードフォワードネットワーク関数 (2/2)

多層ニューラルネットワークは任意の関数近似が可能

ポイントだよ

15

• ロジスティックシグモイド関数の組み合わせで様々な関数を近似可能

5.1.1 重み空間対称性

一部の重みの符号を反転させてもネットワークの入出力関数は変化しない

ポイントだよ

16

• 隠れユニット𝑀個 – すべての組み合わせ: 2𝑀

• ある特定の隠れユニットへのすべての重みとバイアスの符号を反転しても，その隠れユニットの出力に対する重みをすべて反転すればよい

– 隠れユニットの順番交換: 𝑀! • 隠れユニットの順番は出力に影響しないため

– よって𝑀! 2𝑀個の等価な重みベクトルが存在

• あまり重要ではない

– 考慮する必要がある状況は5.7節で

5.2 ネットワーク訓練

17

5.2 ネットワーク訓練

回帰問題および識別問題において誤差関数を負の対数尤度で定義

ポイントだよ

18

• 誤差関数の出力ユニットによる勾配は，回帰でも識別でも以下のとおりになる

𝜕

𝜕𝑎𝑘𝐸 𝒘 = 𝑦𝑘 − 𝑡𝑘

5.2.1 パラメータ最適化

勾配が0になるパラメータを見つける

ポイントだよ

19

• 大域的最小点と局所最小点

• 数値的な反復手順による解法

𝒘(𝜏+1) = 𝒘 𝜏 + Δ𝒘 𝜏

5.2.2 局所二次近似

誤差関数を局所的に二次近似し，ヘッセ行列を評価することで極小点を判断する

ポイントだよ

20

• 1次元の場合，𝜕2𝐸

𝜕𝑤2 𝑤∗

> 0 のとき極小点

–あらゆる方向に対して誤差が増える

5.2.3 勾配情報の利用

勾配情報の利用により，効率的な計算が可能となる

ポイントだよ

21

• 誤差関数の二次近似において，誤差曲面は𝒃と𝑯で決定される

– よって，合計𝑊 𝑊+3

2個 =

𝑊 𝑊+1

2+ 𝑊

– 二次近似の極小点の位置は𝑂 𝑊2 個のパラメータに依存 – 各評価に𝑊ステップ必要⇒𝑂 𝑊3

• 勾配を用いることで𝑂(𝑊2)で済む – 𝑊回の勾配の評価で極小点の評価が可能×勾配の評価に𝑊ステップ必要

5.2.4 勾配降下最適化

勾配情報を利用したパラメータの更新

ポイントだよ

22

• バッチ手法 𝑤 𝜏+1 = 𝑤 𝜏 − 𝜂𝛻𝐸 𝑤 𝜏

• オンライン手法 𝑤 𝜏+1 = 𝑤 𝜏 − 𝜂𝛻𝐸𝑛 𝑤 𝜏

– データの冗長度を効率的に扱うことができる

– 局所解を回避できる可能性

5.3 誤差逆伝播

23

5.3.1 誤差関数微分の評価

誤差の逆伝播により，微分を評価する

ポイントだよ

24

• 𝛿𝑘 = 𝑦𝑘 − 𝑡𝑘

• 𝛿𝑗 = ℎ′ 𝑎𝑗 𝑤𝑘𝑗𝛿𝑘𝑘

5.3.2 単純な例

出力と目標値の差を伝播させる例を眺める

ポイントだよ

25

• 誤差を逆伝播する (活性化関数はtanh(⋅)) 𝛿𝑘 = 𝑦𝑘 − 𝑡𝑘

𝛿𝑗 = 1 − 𝑧𝑗2 𝑤𝑘𝑗𝛿𝑘

𝐾

𝑘=1

• 第1層と第2層の重みに関する勾配は以下のとおり計算される:

𝜕𝐸𝑛

𝛿𝑤𝑗𝑖1

= 𝛿𝑗𝑥𝑖

𝜕𝐸𝑛

𝛿𝑤𝑘𝑗2

= 𝛿𝑘𝑧𝑗

つづくさぁ今日も一日がんばるぞ

26

Technology

PRML復々習レーン#7 前回までのあらすじ