DocumentI

人間との相互作用に基づくヒューマノイドロボット上の語順と挙動のオンライン学習

東京工業大学

佐藤彰洋賀小淵

小倉和貴長谷川修

電子情報通信学会論文誌, D Vol.J91-D, No.8, pp.2045-2060 (2008)

1.1 研究の背景

サービスロボットへの期待が高まる

人間とのコミュニケーション（言語能力）が重要な要素

従来型ロボットの問題点（タスク依存）

プログラムされた状況しか対応できない

プログラムされていない言葉で話しかけられると・・・

プログラムされていない状況に対応するには？

知らない言葉でも、見たり、聞いたりして意味を獲得

できれば良い

オンラインで追加的に言語能力を獲得

できるロボットが求められている

1/22

1.2 言語獲得における課題

１．単語グラウンディング（単語レベルの意味理解）

音声パターンと概念（感覚情報）の対応付け

２．文法の学習（文章レベルの意味理解）

語順と意味の対応付け

同じ単語を使っても、語順が違うと違う意味

「りんご（を）、みかん（に）、近づける」

「みかん（を）、りんご（に）、近づける」

「赤」対応

2/22

1.3 既存研究

単語グラウンディング

Roy, Pentlandら（2002）

手法：音と映像のクロスモーダル情報を最大化

問題点：静止画像を利用（動的概念を獲得できない）

Yu, Ballardら(2004)

手法：マルチモーダル情報の確率的な対応付け

問題点：物体と単語が１対１に対応、追加学習に問題がある

文法の学習

岩橋ら(2003)

手法：HMMによる動的概念と語順の獲得

問題点：事前にデータを用意し、バッチ学習

・確率的な処理→大量の学習データが必要

・バッチ処理→オンライン・追加学習ができない問題点

3/22

1.4 本研究の特徴

実環境で追加的・自律的に概念を獲得

言語の意味を発達的に学習

従来研究に対する優位性

事前知識なしで、概念を分類

１つのデータから学習できる

オンラインで文法（語順）を学習

柔軟な追加学習を実現

4/22

1.5 研究に使用したロボット

ステレオカメラ

色、形、位置を取得

自由度：１２

（首：２、片腕：５）

指定位置に手を移動

物体を握る・放す

5/22

2.1 単語グラウンディング

本研究で扱う単語（４種類）

静的概念

色、形、物体（色と形の組み合わせ）の３種類

動的概念

動き

色：「赤」形：「丸」物体：「りんご」

「近づく」

6/22

2.2 静的概念の獲得

概念とは

特徴ベクトルをクラスタリング

抽出されたクラスを概念とする

概念と音声ラベルの対応付け

音声の入力数を基に確率的に対応付け

→概念の分類が可能

例

「赤」は

色を表す言葉？

形を表す言葉？

物体を表す言葉？

7/22

色ベクトル（３次元）

RGBの値を０～１に正規化

形ベクトル（８次元）

物体（１１次元）

色ベクトル＋形ベクトル

2.3 特徴ベクトル

中心付近は無視

物体の存在する領域の割合を

形ベクトルの要素とする

8/22

2.4 静的概念の形成 SOINNによるクラスタリングの例

9/22

2.5 音声との対応付け

10/22

2.6 動的概念の獲得

特徴量：軌跡（位置ベクトルの時系列）軌跡は物体の位置関係によって正規化

動きを表す言葉音声は文章として与える

未知単語と軌跡を対応付ける

例：「りんご、みかん、近づける」

「近づける」が動きを表すと推定

11/22

物体物体未知 ※静的概念（りんご、みかん）は

学習済みとする

2.7 概念学習と音声との対応付け

Supervised SOINNによる学習

時系列データの追加学習が可能

軌跡のアップデートが可能

学習データ１つから学習可能

軌跡の長さに依存せずに学習

動的概念

回す

近づける

音声

正規化された軌跡

HMMなど

では難しい

12/22

2.8 動的概念の形成

13/22

3.1 文法の学習

ボトムアップ学習とトップダウン学習の融合

少数の学習例から正しい文法を獲得

アップデート可能

ボトムアップ学習

単語クラスの遷移確率を学習

様々な長さの文章を生成できる

トップダウン学習

実世界の状況との対応付け

文法の解釈が一意に定まる

14/22

3.2 ボトムアップ学習

単語クラス（色、形、物体、動き、未知）によるBigramモデルを構築

長さnで最も確率の高い語順を生成

15/22

3.3 トップダウン学習

実世界の状況と対応付けて文章を解釈

例：「りんご、みかん、近づける」

「動作の主体→動作の参照点→動きの種類」という語順を獲得

学習

16/22

3.4 少数例からの文法獲得

語順の学習例

「りんご、みかん、近づける」を学習

トップダウン：動作の主体→動作の参照点→動きの種類

ボトムアップ：物体→物体→動き

文章生成の例

17/22

※静的概念（メロン、ルビー）は

学習済みとする

「メロン、ルビー、近づける」

4.1 実験の概要

実験に使用した物体（９種類）

提示した動き（６種類）

近づける、遠ざける、またぐ、回す、上げる、下げる

色（３種類）：赤、黄色、緑

形（３種類）：丸、三角、四角

18/22

4.2 学習結果：物体の指差し

19/22

4.3 学習結果：物体の移動

20/22

4.4 学習結果：動きの説明

21/22

5 まとめと課題

実現されたシステム事前知識のない状態から、発達的に言語能力を獲得

人間とコミュニケーションしながら、オンラインで学習

見たり、聞いたりすることで発達するロボットの最初の一歩を実現

今後の課題動作を増やす（現在は６種類）

概念を増やす（現在は、色、形など４種類）

複雑な文法に対応する（現在は「語順」のみ）

22/22

Technology

DocumentI