23
人間との相互作用に基づく ヒューマノイドロボット上の語順 と挙動のオンライン学習 東京工業大学 佐藤彰洋 賀小淵 小倉和貴 長谷川修 電子情報通信学会論文誌, D Vol.J91-D, No.8, pp.2045-2060 (2008)

DocumentI

Embed Size (px)

DESCRIPTION

 

Citation preview

Page 1: DocumentI

人間との相互作用に基づくヒューマノイドロボット上の語順と挙動のオンライン学習

東京工業大学

佐藤彰洋 賀小淵

小倉和貴 長谷川修

電子情報通信学会論文誌, D Vol.J91-D, No.8, pp.2045-2060 (2008)

Page 2: DocumentI

1.1 研究の背景

サービスロボットへの期待が高まる

人間とのコミュニケーション(言語能力)が重要な要素

従来型ロボットの問題点(タスク依存)

プログラムされた状況しか対応できない

プログラムされていない言葉で話しかけられると・・・

プログラムされていない状況に対応するには?

知らない言葉でも、見たり、聞いたりして意味を獲得

できれば良い

オンラインで追加的に言語能力を獲得

できるロボットが求められている

1/22

Page 3: DocumentI

1.2 言語獲得における課題

1.単語グラウンディング(単語レベルの意味理解)

音声パターンと概念(感覚情報)の対応付け

2.文法の学習(文章レベルの意味理解)

語順と意味の対応付け

同じ単語を使っても、語順が違うと違う意味

「りんご(を)、みかん(に)、近づける」

「みかん(を)、りんご(に)、近づける」

「赤」 対応

2/22

Page 4: DocumentI

1.3 既存研究

単語グラウンディング

Roy, Pentlandら(2002)

手法:音と映像のクロスモーダル情報を最大化

問題点:静止画像を利用(動的概念を獲得できない)

Yu, Ballardら(2004)

手法:マルチモーダル情報の確率的な対応付け

問題点:物体と単語が1対1に対応、追加学習に問題がある

文法の学習

岩橋ら(2003)

手法:HMMによる動的概念と語順の獲得

問題点:事前にデータを用意し、バッチ学習

・確率的な処理→大量の学習データが必要

・バッチ処理→オンライン・追加学習ができない 問題点

3/22

Page 5: DocumentI

1.4 本研究の特徴

実環境で追加的・自律的に概念を獲得

言語の意味を発達的に学習

従来研究に対する優位性

事前知識なしで、概念を分類

1つのデータから学習できる

オンラインで文法(語順)を学習

柔軟な追加学習を実現

4/22

Page 6: DocumentI

1.5 研究に使用したロボット

ステレオカメラ

色、形、位置を取得

自由度:12

(首:2、片腕:5)

指定位置に手を移動

物体を握る・放す

5/22

Page 7: DocumentI

2.1 単語グラウンディング

本研究で扱う単語(4種類)

静的概念

色、形、物体(色と形の組み合わせ)の3種類

動的概念

動き

色:「赤」 形:「丸」 物体:「りんご」

「近づく」

6/22

Page 8: DocumentI

2.2 静的概念の獲得

概念とは

特徴ベクトルをクラスタリング

抽出されたクラスを概念とする

概念と音声ラベルの対応付け

音声の入力数を基に確率的に対応付け

→概念の分類が可能

「赤」は

色を表す言葉?

形を表す言葉?

物体を表す言葉?

7/22

Page 9: DocumentI

色ベクトル(3次元)

RGBの値を0~1に正規化

形ベクトル(8次元)

物体(11次元)

色ベクトル+形ベクトル

2.3 特徴ベクトル

中心付近は無視

物体の存在する領域の割合を

形ベクトルの要素とする

8/22

Page 10: DocumentI

2.4 静的概念の形成 SOINNによるクラスタリングの例

9/22

Page 11: DocumentI

2.5 音声との対応付け

10/22

Page 12: DocumentI

2.6 動的概念の獲得

特徴量:軌跡(位置ベクトルの時系列) 軌跡は物体の位置関係によって正規化

動きを表す言葉 音声は文章として与える

未知単語と軌跡を対応付ける

例:「りんご、みかん、近づける」

「近づける」が動きを表すと推定

11/22

物体 物体 未知 ※静的概念(りんご、みかん)は

学習済みとする

Page 13: DocumentI

2.7 概念学習と音声との対応付け

Supervised SOINNによる学習

時系列データの追加学習が可能

軌跡のアップデートが可能

学習データ1つから学習可能

軌跡の長さに依存せずに学習

動的概念

回す

近づける

音声

正規化された軌跡

HMMなど

では難しい

12/22

Page 14: DocumentI

2.8 動的概念の形成

13/22

Page 15: DocumentI

3.1 文法の学習

ボトムアップ学習とトップダウン学習の融合

少数の学習例から正しい文法を獲得

アップデート可能

ボトムアップ学習

単語クラスの遷移確率を学習

様々な長さの文章を生成できる

トップダウン学習

実世界の状況との対応付け

文法の解釈が一意に定まる

14/22

Page 16: DocumentI

3.2 ボトムアップ学習

単語クラス(色、形、物体、動き、未知)によるBigramモデルを構築

長さnで最も確率の高い語順を生成

15/22

Page 17: DocumentI

3.3 トップダウン学習

実世界の状況と対応付けて文章を解釈

例:「りんご、みかん、近づける」

「動作の主体→動作の参照点→動きの種類」 という語順を獲得

学習

16/22

Page 18: DocumentI

3.4 少数例からの文法獲得

語順の学習例

「りんご、みかん、近づける」を学習

トップダウン:動作の主体→動作の参照点→動きの種類

ボトムアップ:物体→物体→動き

文章生成の例

17/22

※静的概念(メロン、ルビー)は

学習済みとする

「メロン、 ルビー、 近づける」

Page 19: DocumentI

4.1 実験の概要

実験に使用した物体(9種類)

提示した動き(6種類)

近づける、遠ざける、またぐ、回す、上げる、下げる

色(3種類):赤、黄色、緑

形(3種類):丸、三角、四角

18/22

Page 20: DocumentI

4.2 学習結果:物体の指差し

19/22

Page 21: DocumentI

4.3 学習結果:物体の移動

20/22

Page 22: DocumentI

4.4 学習結果:動きの説明

21/22

Page 23: DocumentI

5 まとめと課題

実現されたシステム 事前知識のない状態から、発達的に言語能力を獲得

人間とコミュニケーションしながら、オンラインで学習

見たり、聞いたりすることで発達するロボットの 最初の一歩を実現

今後の課題 動作を増やす(現在は6種類)

概念を増やす(現在は、色、形など4種類)

複雑な文法に対応する(現在は「語順」のみ)

22/22