Decoupled Neural Interfaces using Synthetic Gradients

Nextremer Co., LTD.Confidential Document

10/6/16

Decoupled Neural Interfaces using Synthetic Gradients Authors: Max Jaderberg et al.

Reporter: A. Saito

Nextremer Co., LTD. Confidential DocumentNextremer Co., LTD. Confidential Document

アウトライン

やりたいこと

より一般的な分散NNモデルの学習（Model Parallel）

理由：より柔軟なモデルをより効率的に訓練 End to end系のさらなる拡張など

問題

Forward, Backwardの考え方は「硬すぎる」非同期性と相性悪い

提案

DNI: Decoupled Neural Interface

Feedforward NNとRNNの学習から同期性を取り除いた

より一般的な分散モデル学習への指針を示した

　やりたいこと

より一般的な分散NNモデルとは？

有向グラフで表現

各頂点が分割されたモデルの断片or１台機械に対応

頂点でNNが実行される NNの中間層の出力を入力とする

有向辺上にNNの入出力値orBP値

頂点数でスケールさせたい

非同期性を考慮

問題

いろいろなLockingが生じる

Backward（Forward） Locking

– 各々の層は自分より上位（下位）層の全計算完了まで待つ

– 最上位＝出力＆最下位＝入力最悪、深さに比例する待ち時間

その他注意

論文中のUpdate Locking NNに限らない一般な分散モデルでも、待ちを強制される

提案のアイデア

分散環境の送信値が間違っていてもOK！

– 最初は送り手の頂点だって不正確な値を出力する

有向辺に流れる送信値を近似するNNを用意

– 頂点から送信された値との「差分」が目的関数

– 辺の個数と同じだけ目的関数がある送信値は多種多様　

– Back Propagationのデルタ値

– Forward計算の途中値

分散環境全体を見て最適化

– 頂点のモデルの学習に伴い送信値を正確にする

– 辺の個数と同じだけ目的関数がある送信値は多種多様

送信値を近似する

最初は送り手の頂点だって不正確な値を出力する

BP勾配の場合

多層に渡るImplicitなパラメータを無視

送信値を近似する

最初は送り手の頂点だって不正確な値を出力する

BP勾配の場合

多層に渡るImplicitなパラメータを無視

第i層以外を無視

DNIの図解例

頂点から送信された値との「差分」が目的関数

近似デルタ値をSynthetic gradient 送信値を近似するNN（M_B）を用意

図の送信値は誤差他の種類もある

点線は非同期可

S_Bは同期強制

cは、付加的な教師情報

分類ラベルのOne-hot-vector等

c付モデル＝cDNI

これも目的関数

One-hotなど

Decouplingの場所

どこをDecupledにするかは、任意に決められる

Back & Forwardを近似

送信値の例

Back Propagationのデルタ値

Forward計算の途中値

どっちも使う例

– 例としてUpdate Locking@FNN & RNNを説明

FNNのBP重み更新の例

隣接３層が１層３個に分割

２個の誤差近似NNを用意

一番上は出力層

最下層から順に繰り返す

近似NN値から層の重み更新

１つ上の層からの誤差and/or

1つ下の層から近似NNの重み更新

２個の目的関数を定義

i+1番目の近似NN出力から第i層の重みを更新

i+2番目の近似NN出力から第i+1層の重みを更新

第i+1層誤差＆第i層出力からi+1番目の近似NN

重み更新

教師信号から第i+2層重み更新

第i+2層誤差＆第i+1層出力からi+2番目の近似NN

重み更新

RNNでは

時間長＝深さ

とりあえずオフラインのBPTTのみ考慮

例：９ステップのとき

RNNでは

時間長＝深さ

とりあえずオフラインのBPTTのみ考慮

深さ３の時間展開されたNNが３つ

各々の深さ３の部分では、通常のBP

間に２つDNI挟む

RNN では

図のt+3以前の区間の重み更新にt+4以降の情報が使用されている

Truncated BPTTより精密な処理をしている

Truncated BPTTは計算グラフの存在を無視

デルタ＝０とみなして足しているのと同じ

RNN では

– 近似の近似（Synthetic gradientの近似）

– 隣接していない２つの断片にもDNIを挟める

RNN では

– 近似の近似（Synthetic gradientの近似）

– 隣接していない２つの断片にもDNIを挟める

– 辺の個数と同じだけ目的関数がある送信値多種多様

実験結果の例

cDNIの付加情報cは効果的

Forward & Update のUnlockでもOK

実験結果(MNIST)

cDNIの付加情報cは効果的！！！

ここにone-hot

など

実験結果(MNIST)

ちゃんと学習できてるYO!!

Forward & Update のUnlockでもOKです。

実験結果(PTB)

PTBもできてる

Character-level language modelling

まとめ

俺達の分散モデル学習はこれからだ！！！

先生の次回作にご期待下さい！

Decoupled Neural Interfaces using Synthetic Gradients

Science

Decoupled Neural Interfaces using Synthetic Gradientsproceedings.mlr.press/v70/jaderberg17a/jaderberg17a-supp.pdfDecoupled Neural Interfaces using Synthetic Gradients A.4. Scalar and

Decoupled Fetch/Execute Superscalar Processor Engines

Decoupled Newton Load Flow

Decoupled cms sunshinephp 2014

decoupled Drupal practitioner Secrets of the of the decoupled Drupal...everything you need to know about decoupled Drupal—from building the back end and designing APIs to integrating

Sidechains: Decoupled Consensus Between Chains...Sidechains: Decoupled Consensus Between Chains AlbertoGaroﬀoloandRobertViglione Horizen-ZenBlockchainFoundation October2018 Abstract

Review Series of Recent Deep Learning Papers: …Parameter Prediction Paper: Decoupled Neural Interfaces Using Synthetic Gradients Max Jaderberg, Wojciech Marian Czarnecki, Simon Osindero,

New Directions For Recurrent Neural Networks...Decoupled Neural Interfaces using Synthetic Gradients. Jaderberg et. al. (2016) General Artificial Intelligence The synthetic gradient

Topographic Gradients

Decoupled Direct Memory Access - Carnegie Mellon Universityomutlu/pub/decoupled-dma_pact... · 2015. 9. 15. · Decoupled Direct Memory Access: Isolating CPU and IO Trafﬁc by Leveraging

Decoupled Access/Execute Computer Architectures

Decoupled Library Packages for PHP 5.4

Decoupled Libraries for PHP

Decoupled Aquaponics Option

Decoupled Communication

KnowledgeNet: Disaggregated and Distributed …...Koray Kavukcuoglu. Decoupled neural interfaces using synthetic gradients. In Proceedings of the 34th Inter-national Conference on

1- Making Density Gradients Pre-formed discontinuous gradients Pre-formed continuous gradients Self-generated gradients 2- Density Gradient Harvesting

Decoupled Drupal 8 and IoT

Decoupled Dynamic Filter Networks

Decoupled web applications (with AppFabric)