第7回sig wba 眼球運動

眼球運動と PredNet第 7回 SIG-WBAオフ会

2016/8/17

PredNetに感じる疑問•動いているものがぼやける（むしろそっちが重要なのに）

•静止画を入力すると上の層が反応しなくなるのでは？

PredNetに感じる疑問•動いているものがぼやける（むしろそっちが重要なのに）

•静止画を入力すると上の層が反応しなくなるのでは？• 静止画を入力して確認したところ上位層に反応あり

• 局所的な情報だけで予測できるはずなのでこれはこれで不思議

Visual Attention•人の目の特徴• 字を読めるほどの解像度を持つのは中心視野のみ• 周辺視野は明暗に敏感だが低解像度で色が見えない• サッケードとよばれる眼球運動によって注目箇所に視点を動かしている• マイクロサッケードというさらに小さい動きもありこれを止めると静止している物体が見えなくなる• https://www.youtube.com/watch?v=8sfO2AKv8Io

•眼球運動を取り込んだモデル• Recurrent Model of Visual Attention• https://vimeo.com/148846185

https://www.youtube.com/watch?v=8sfO2AKv8Io

https://vimeo.com/148846185



Predictive Coding + Attention•注目箇所を眼球で追跡→背景のほうが消える？

•サッケード：強化学習（タスクごとにモデルを持つ）• https://www.cs.ubc.ca/~van/papers/2016-TOG-deepRL/index.html

•マイクロサッケード：パーティクルフィルタ +上位層の活性化• https://www.youtube.com/watch?v=O1FZyWz_yj4• 制御は Free Energy Principle?

https://www.cs.ubc.ca/~van/papers/2016-TOG-deepRL/index.html

https://www.cs.ubc.ca/~van/papers/2016-TOG-deepRL/index.html

https://www.youtube.com/watch?v=O1FZyWz_yj4

https://www.youtube.com/watch?v=O1FZyWz_yj4

Predictive Coding + Attention

•直近• 高解像度画像への対応• 背景と物体の分離（背景状況にロバストな物体の認識）• What回路とWhere回路の情報統合モデル（あるいは統合してない？）

•将来的には• 共同注視• ロボットと人のコミュニケーション効率化（ロボットが今何を認識しているか人が理解しやすくなる）

出来そうなこと

Science

第7回sig wba 眼球運動