29
情報学習理論 渡辺澄夫 東京工業大学

情報学習理論 - Watanabe Lab.watanabe- · 誤差逆伝播法で 深層学習ができるか. ここの誤差を小さくする。 f. 1. f. 2. f. N. x. 1. x. 2. x. M. ここのパラメータは、出力が

  • Upload
    others

  • View
    0

  • Download
    0

Embed Size (px)

Citation preview

Page 1: 情報学習理論 - Watanabe Lab.watanabe- · 誤差逆伝播法で 深層学習ができるか. ここの誤差を小さくする。 f. 1. f. 2. f. N. x. 1. x. 2. x. M. ここのパラメータは、出力が

情報学習理論

渡辺澄夫

東京工業大学

Page 2: 情報学習理論 - Watanabe Lab.watanabe- · 誤差逆伝播法で 深層学習ができるか. ここの誤差を小さくする。 f. 1. f. 2. f. N. x. 1. x. 2. x. M. ここのパラメータは、出力が

2015/8/17 Mathematical Learning Theory 2

これまでに学んできたこと

教師あり学習

教師なし学習

神経回路網

サポートベクタマシン

K-means法, 混合正規分布

自己組織化写像

ボルツマンマシンどちらもできる

Page 3: 情報学習理論 - Watanabe Lab.watanabe- · 誤差逆伝播法で 深層学習ができるか. ここの誤差を小さくする。 f. 1. f. 2. f. N. x. 1. x. 2. x. M. ここのパラメータは、出力が

2015/8/17 Mathematical Learning Theory 3

人工知能の歴史

命題論理(1950-1970年代)

コネクショ二ズムの台頭と停滞(1980-1990年代)

人工知能は「命題論理の組み合わせ」である。エキスパートシステムなどが作られた。

人工知能は「神経回路網の組み合わせ」である。しかしこの時代のコンピュータとデータでは実現困難だったため部分的な使用に限定せざるを得なかった。

コネクショ二ズムの再興(2010年代)

膨大なデータが使えるようになった。大規模な神経回路網を

作れるようになった。本当にやってみた。

Page 4: 情報学習理論 - Watanabe Lab.watanabe- · 誤差逆伝播法で 深層学習ができるか. ここの誤差を小さくする。 f. 1. f. 2. f. N. x. 1. x. 2. x. M. ここのパラメータは、出力が

神経回路網

複雑さの極限に「知能」がある?

昔からある質問(1) 「知能」って何ですか。何ができたら「知能」ですか。定義のないものを考えても・・・。(2) 人間は慣習の集合体であって「知能を持つ」ような気持ちになっていただけかな。(3) 人間と見分けがつかなければ「知能」であることを否定できませんよね?(4) 脳と物理的に同じなら「知能」に違いない!(5) 芸術が人間の特権だったのは昔話。映画や歌や絵が大衆に売れるか人工知能で採点します。(6) 人工知能はもうすぐ将棋の名人よりも強くなるそうだ。お寿司をにぎることもできます。(7) 育てると人工知能ロボットは犬や猫と同じくらいかわいいことがある。(8) 新しい数学を作れるのは人間だけなんだ。

Page 5: 情報学習理論 - Watanabe Lab.watanabe- · 誤差逆伝播法で 深層学習ができるか. ここの誤差を小さくする。 f. 1. f. 2. f. N. x. 1. x. 2. x. M. ここのパラメータは、出力が

2015/8/17 Mathematical Learning Theory 5

深層学習

前回までに学んできた学習モデルを要素として組み合わせて大規模な神経回路網を本当に作り・・・膨大な量の学習をさせると・・・

複雑なネットワークを膨大なデータを使って学習させる方法は、いま盛んに研究されている。

これまでの学習モデルの性能を大幅に超える推論能力を持つ・・・という実験結果が多数報告されている。(ただしやや過大宣伝を含むかも)。

ここからは君たちの時代だ

Page 6: 情報学習理論 - Watanabe Lab.watanabe- · 誤差逆伝播法で 深層学習ができるか. ここの誤差を小さくする。 f. 1. f. 2. f. N. x. 1. x. 2. x. M. ここのパラメータは、出力が

2015/8/17 Mathematical Learning Theory

数学を育てる

Page 7: 情報学習理論 - Watanabe Lab.watanabe- · 誤差逆伝播法で 深層学習ができるか. ここの誤差を小さくする。 f. 1. f. 2. f. N. x. 1. x. 2. x. M. ここのパラメータは、出力が

深層学習の要素

深層学習の要素には様々な学習モデルが用いられる。これまでに習ったモデルならすべて深層学習の要素に使うことができる。

今回は、説明とプログラムを簡単にするため、階層型神経回路網を使います。

神経回路網、ボルツマンマシン、SVM競合学習、それらの組み合わせなど

要素のモデルの性質が深層学習全体に与える影響がどの程度なのかはよく分かっていない。(要素となるモデルへの依存は少ないような感じがしますが・・・。)

(歴史2)視覚系をモデルとした階層構造のモデルが作られてきた。

ネオコグニトロン

(歴史1) 一番上の階層以外はランダムな結合にする方式が提案されていた。

Page 8: 情報学習理論 - Watanabe Lab.watanabe- · 誤差逆伝播法で 深層学習ができるか. ここの誤差を小さくする。 f. 1. f. 2. f. N. x. 1. x. 2. x. M. ここのパラメータは、出力が

階層型神経回路網

M

k=1fi =σ( ∑uij σ( ∑ wjk(・・・) k + θj) + φi)

H

j=1

x1 x2 xM

f1 f2 fN

f1 f2 fN

x1 x2 xM

深い階層のモデルを定義することは間単にできる。

を繰りかえせばよい。

Page 9: 情報学習理論 - Watanabe Lab.watanabe- · 誤差逆伝播法で 深層学習ができるか. ここの誤差を小さくする。 f. 1. f. 2. f. N. x. 1. x. 2. x. M. ここのパラメータは、出力が

誤差逆伝播法

E(w) = ― ∑(fi -yi )2N

i=1

12

∂E∂wjk

= ∑ (fi -yi ) ∂ fi∂wjk

N

i=1

∂ fi∂wjk

= ∂ fi∂oj

∂ oj

∂wjk

oj=σ(∑wjkok+θj)M

k=1fi =σ(∑uijoj+φi)

H

j=1モデルの定義:

どんなに深い階層でも誤差逆伝播法はまったく同じ式になるので最急降下法は式としては簡単に導出できる。

二乗誤差:

の繰り返し

Page 10: 情報学習理論 - Watanabe Lab.watanabe- · 誤差逆伝播法で 深層学習ができるか. ここの誤差を小さくする。 f. 1. f. 2. f. N. x. 1. x. 2. x. M. ここのパラメータは、出力が

誤差逆伝播法で深層学習ができるか

ここの誤差を小さくする。f1 f2 fN

x1 x2 xM

ここのパラメータは、出力が当たるようにパラメータを調整するが初期では中間出力はほぼランダム。

誤差逆伝播法は

教師情報

ここのパラメータは入力・出力のどちらからも遠いので、初期ではどちらもランダム。

ここのパラメータは、入力から中間出力が実現されるようにパラメータを調整するが、初期では中間出力はほぼランダム。

入力と出力が遠いので、情報論的なつながりを見つけるまでに時間がかかる。入力

Page 11: 情報学習理論 - Watanabe Lab.watanabe- · 誤差逆伝播法で 深層学習ができるか. ここの誤差を小さくする。 f. 1. f. 2. f. N. x. 1. x. 2. x. M. ここのパラメータは、出力が

2015/8/17 Mathematical Learning Theory

深層学習のパラメータ空間

二乗誤差

最小二乗点は無限遠

最小二乗点は無限遠

パラメータ空間は超高次元空間

各極小解は代数多様体

Page 12: 情報学習理論 - Watanabe Lab.watanabe- · 誤差逆伝播法で 深層学習ができるか. ここの誤差を小さくする。 f. 1. f. 2. f. N. x. 1. x. 2. x. M. ここのパラメータは、出力が

2015/8/17

深層学習のパラメータ空間

(2) 最小二乗点(最尤推定量)は無限遠(予測は最悪)

(1) パラメータ空間は超高次元

(3) 正定値計量は入らない。2次関数で局所近似できない。

(4) 極めて多数の局所解があり、各局所解は特異構造

このようなモデルの学習を数学的に考察するための理論はまだ存在していない。

(5) 熱力学極限(無限次元化)が存在する保証はない

今は、ノウハウで設計するしかない。

(注)当社広告: 講義担当者の「代数幾何と学習理論」は上記の学習モデルの汎化誤差や自由エネルギーを導出できるいまのところ唯一の理論なんですが、日本ではほとんど知られておりませんので講義ではやりません。米国に留学すると学部生の教科書で習うことができるそうです。がんばれ、日本・・・。・・・気になる人は algebraic geometry and statistical learning theory で検索してみましょう。

Page 13: 情報学習理論 - Watanabe Lab.watanabe- · 誤差逆伝播法で 深層学習ができるか. ここの誤差を小さくする。 f. 1. f. 2. f. N. x. 1. x. 2. x. M. ここのパラメータは、出力が

2015/8/17 Mathematical Learning Theory

この森を越えたら未来が見えてくる・・・

Page 14: 情報学習理論 - Watanabe Lab.watanabe- · 誤差逆伝播法で 深層学習ができるか. ここの誤差を小さくする。 f. 1. f. 2. f. N. x. 1. x. 2. x. M. ここのパラメータは、出力が

2015/8/17 Mathematical Learning Theory

深層学習の方法

(2) 自己符号化の利用

(1) 順次的な階層学習

(3) データの性質をモデルの構造に反映させる(畳み込みネットワークなど)

深層学習で役立つと思われて提案されている方法

深層学習がうまく進むためにはどうしたらよいか?

今日は(1)(2)を学びます。(3)は次回に説明します。

Page 15: 情報学習理論 - Watanabe Lab.watanabe- · 誤差逆伝播法で 深層学習ができるか. ここの誤差を小さくする。 f. 1. f. 2. f. N. x. 1. x. 2. x. M. ここのパラメータは、出力が

(1) 逐次的な階層の学習

x1 x2 xM

f1 f2 fN

x1 x2 xM

f1 f2 fN

x1 x2 xM

f1 f2 fN

浅い階層で学習を行い、そのパラメータをコピーして次の階層の学習をする・・・を続けていく。

コピー コピー

教師情報

教師情報

教師情報

Page 16: 情報学習理論 - Watanabe Lab.watanabe- · 誤差逆伝播法で 深層学習ができるか. ここの誤差を小さくする。 f. 1. f. 2. f. N. x. 1. x. 2. x. M. ここのパラメータは、出力が

2015/8/17 Mathematical Learning Theory

パラメータ空間二乗誤差

最小二乗点は無限遠

最小二乗点は無限遠

ランダムで選んだパラメータは、適切でない場所にある確率が高いが、順次学習では、比較的良好な初期点を選ぶことができる・・・ ・・・のかもしれない。

Page 17: 情報学習理論 - Watanabe Lab.watanabe- · 誤差逆伝播法で 深層学習ができるか. ここの誤差を小さくする。 f. 1. f. 2. f. N. x. 1. x. 2. x. M. ここのパラメータは、出力が

2015/8/17 Mathematical Learning Theory

(2) 自己符号化器の利用

X1 X2 XM

f1 f2 fN

入力を再現するように学習を行い後に入力から出力を学習

ここの個数を

Mよりも小さくする。

X1 X2 XM

X1 X2 XM

教師情報

Page 18: 情報学習理論 - Watanabe Lab.watanabe- · 誤差逆伝播法で 深層学習ができるか. ここの誤差を小さくする。 f. 1. f. 2. f. N. x. 1. x. 2. x. M. ここのパラメータは、出力が

2015/8/17 Mathematical Learning Theory

砂時計型ニューラルネット(Bottleneck Neural Network)

X1 X2 XM

入力よりも少ない個数の中間ユニットを設定することで、入力が作る低次元多様体の表現が中間ユニットに作られる・・・と期待される。

(Auto-Encoder には別の型もあります)

X1 X2 XM

M 次元空間内の3次元多様体

Page 19: 情報学習理論 - Watanabe Lab.watanabe- · 誤差逆伝播法で 深層学習ができるか. ここの誤差を小さくする。 f. 1. f. 2. f. N. x. 1. x. 2. x. M. ここのパラメータは、出力が

2015/8/17 Mathematical Learning Theory

注意(1)神経回路網のように多数のパラメータを持つ系では正則化はほぼ必ず必要である。

E(w) = (1/n) Σ (Yi-f(Xi,w))2 + R(w)n

i=1

Ridge 項 R(w) = λ Σ |wj|2

Lasso 項 R(w)= λ Σ |wj|

例 λ>0 (ハイパーパラメータ)として

ハイパーパラメータはベイズ統計学の観点から最適化することが可能です。ただし深層学習では演算時間がとても大きく現状ではヒューリスティックに決めていることが多いようです。

→ 研究課題

Page 20: 情報学習理論 - Watanabe Lab.watanabe- · 誤差逆伝播法で 深層学習ができるか. ここの誤差を小さくする。 f. 1. f. 2. f. N. x. 1. x. 2. x. M. ここのパラメータは、出力が

注意(2)

汎化誤差

学習回数

学習誤差

構造発見

構造発見

良好な学習結果を得るには途中で学習を停止する必要がある。しかし、どこで停止させるのが最適であるかはわかっていない。

→ 研究課題

Page 21: 情報学習理論 - Watanabe Lab.watanabe- · 誤差逆伝播法で 深層学習ができるか. ここの誤差を小さくする。 f. 1. f. 2. f. N. x. 1. x. 2. x. M. ここのパラメータは、出力が

2015/8/17 Mathematical Learning Theory

問1

(2) 自己符号化の利用が良好に働く理由は

(1) 順次的な階層学習が良好に働く理由は

大きくて複雑なネットワークの学習は、最急降下法だけで最適な学習をさせるのは難しい・・・と言われています。

Page 22: 情報学習理論 - Watanabe Lab.watanabe- · 誤差逆伝播法で 深層学習ができるか. ここの誤差を小さくする。 f. 1. f. 2. f. N. x. 1. x. 2. x. M. ここのパラメータは、出力が

2015/8/17 Mathematical Learning Theory

Page 23: 情報学習理論 - Watanabe Lab.watanabe- · 誤差逆伝播法で 深層学習ができるか. ここの誤差を小さくする。 f. 1. f. 2. f. N. x. 1. x. 2. x. M. ここのパラメータは、出力が

2015/8/17 Mathematical Learning Theory

実際に使ってみると・・・

(1) 深い階層を持つモデルは、うまく学習が進んだときには、浅い階層のモデルよりも学習誤差も汎化誤差も小さくなるときがある。

(2) 深い階層を持つモデルをうまく学習させるには、順次的な階層学習や自己符号化器が有効であることが多い。

(3) Ridge や Lasso などの正則化は常に必要。途中で学習を停止させることも必要。

(4) 同じ構造・同じアルゴリズム・同じハイパーパラメータによる学習でも初期値によって学習結果はばらつく。

(5) モデル、アルゴリズム、ハイパーパラメータの調節は極めて大切。

(6) 上記の設計には古い統計学の方法は適用できない。

Page 24: 情報学習理論 - Watanabe Lab.watanabe- · 誤差逆伝播法で 深層学習ができるか. ここの誤差を小さくする。 f. 1. f. 2. f. N. x. 1. x. 2. x. M. ここのパラメータは、出力が

2015/8/17 Mathematical Learning Theory

(2) 自己符号化の利用

(1) 順次的な階層学習

簡単な文字認識の例で、次の3つを比較してみよう。

(0) 誤差逆伝播法だけ

Page 25: 情報学習理論 - Watanabe Lab.watanabe- · 誤差逆伝播法で 深層学習ができるか. ここの誤差を小さくする。 f. 1. f. 2. f. N. x. 1. x. 2. x. M. ここのパラメータは、出力が

文字識別の問題 5×5学習データ2000個テストデータ2000個位置の移動+大小変換+雑音

6 画像

入力25

ニューラルネット

中間8

0 6

出力2

中間6

中間4

0 6

出力2

中間6

中間4

Page 26: 情報学習理論 - Watanabe Lab.watanabe- · 誤差逆伝播法で 深層学習ができるか. ここの誤差を小さくする。 f. 1. f. 2. f. N. x. 1. x. 2. x. M. ここのパラメータは、出力が

2015/8/17 Mathematical Learning Theory

(0)実験例:誤差逆伝播法だけ

平均 213.5

平均 265.5

標偏 414.7

標偏 388.0

学習誤差

テスト誤差

学習データ2000テストデータ2000間違えた個数

※初期値によっては学習ができるときがある。初期値によっては学習がまったく進まない場合がある

Page 27: 情報学習理論 - Watanabe Lab.watanabe- · 誤差逆伝播法で 深層学習ができるか. ここの誤差を小さくする。 f. 1. f. 2. f. N. x. 1. x. 2. x. M. ここのパラメータは、出力が

2015/8/17 Mathematical Learning Theory

(1)実験例:逐次的な階層学習

学習誤差 テスト誤差学習データ2000テストデータ2000間違えた個数

平均 4.1標偏 1.8

平均 61.6標偏 7.0

Page 28: 情報学習理論 - Watanabe Lab.watanabe- · 誤差逆伝播法で 深層学習ができるか. ここの誤差を小さくする。 f. 1. f. 2. f. N. x. 1. x. 2. x. M. ここのパラメータは、出力が

2015/8/17 Mathematical Learning Theory

(2) 実験例:自己符号化器の利用

標偏 3.4平均 61.3標偏 8.1

平均 5.3学習誤差 テスト誤差学習データ2000

テストデータ2000間違えた個数

Page 29: 情報学習理論 - Watanabe Lab.watanabe- · 誤差逆伝播法で 深層学習ができるか. ここの誤差を小さくする。 f. 1. f. 2. f. N. x. 1. x. 2. x. M. ここのパラメータは、出力が

2015/8/17Mathematical Learning Theory

問2

(2) 自己符号化の利用

(1) 順次的な階層学習

(0) 誤差逆伝播法だけ

学習誤差 テスト誤差傾向