Upload
ohasegawa-lab-tokyo-tech
View
3.084
Download
0
Embed Size (px)
DESCRIPTION
Citation preview
人間との相互作用に基づくヒューマノイドロボット上の語順と挙動のオンライン学習
東京工業大学
佐藤彰洋 賀小淵
小倉和貴 長谷川修
電子情報通信学会論文誌, D Vol.J91-D, No.8, pp.2045-2060 (2008)
1.1 研究の背景
サービスロボットへの期待が高まる
人間とのコミュニケーション(言語能力)が重要な要素
従来型ロボットの問題点(タスク依存)
プログラムされた状況しか対応できない
プログラムされていない言葉で話しかけられると・・・
プログラムされていない状況に対応するには?
知らない言葉でも、見たり、聞いたりして意味を獲得
できれば良い
オンラインで追加的に言語能力を獲得
できるロボットが求められている
1/22
1.2 言語獲得における課題
1.単語グラウンディング(単語レベルの意味理解)
音声パターンと概念(感覚情報)の対応付け
2.文法の学習(文章レベルの意味理解)
語順と意味の対応付け
同じ単語を使っても、語順が違うと違う意味
「りんご(を)、みかん(に)、近づける」
「みかん(を)、りんご(に)、近づける」
「赤」 対応
2/22
1.3 既存研究
単語グラウンディング
Roy, Pentlandら(2002)
手法:音と映像のクロスモーダル情報を最大化
問題点:静止画像を利用(動的概念を獲得できない)
Yu, Ballardら(2004)
手法:マルチモーダル情報の確率的な対応付け
問題点:物体と単語が1対1に対応、追加学習に問題がある
文法の学習
岩橋ら(2003)
手法:HMMによる動的概念と語順の獲得
問題点:事前にデータを用意し、バッチ学習
・確率的な処理→大量の学習データが必要
・バッチ処理→オンライン・追加学習ができない 問題点
3/22
1.4 本研究の特徴
実環境で追加的・自律的に概念を獲得
言語の意味を発達的に学習
従来研究に対する優位性
事前知識なしで、概念を分類
1つのデータから学習できる
オンラインで文法(語順)を学習
柔軟な追加学習を実現
4/22
1.5 研究に使用したロボット
ステレオカメラ
色、形、位置を取得
自由度:12
(首:2、片腕:5)
指定位置に手を移動
物体を握る・放す
5/22
2.1 単語グラウンディング
本研究で扱う単語(4種類)
静的概念
色、形、物体(色と形の組み合わせ)の3種類
動的概念
動き
色:「赤」 形:「丸」 物体:「りんご」
「近づく」
6/22
2.2 静的概念の獲得
概念とは
特徴ベクトルをクラスタリング
抽出されたクラスを概念とする
概念と音声ラベルの対応付け
音声の入力数を基に確率的に対応付け
→概念の分類が可能
例
「赤」は
色を表す言葉?
形を表す言葉?
物体を表す言葉?
7/22
色ベクトル(3次元)
RGBの値を0~1に正規化
形ベクトル(8次元)
物体(11次元)
色ベクトル+形ベクトル
2.3 特徴ベクトル
中心付近は無視
物体の存在する領域の割合を
形ベクトルの要素とする
8/22
2.4 静的概念の形成 SOINNによるクラスタリングの例
9/22
2.5 音声との対応付け
10/22
2.6 動的概念の獲得
特徴量:軌跡(位置ベクトルの時系列) 軌跡は物体の位置関係によって正規化
動きを表す言葉 音声は文章として与える
未知単語と軌跡を対応付ける
例:「りんご、みかん、近づける」
「近づける」が動きを表すと推定
11/22
物体 物体 未知 ※静的概念(りんご、みかん)は
学習済みとする
2.7 概念学習と音声との対応付け
Supervised SOINNによる学習
時系列データの追加学習が可能
軌跡のアップデートが可能
学習データ1つから学習可能
軌跡の長さに依存せずに学習
動的概念
回す
近づける
音声
正規化された軌跡
HMMなど
では難しい
12/22
2.8 動的概念の形成
13/22
3.1 文法の学習
ボトムアップ学習とトップダウン学習の融合
少数の学習例から正しい文法を獲得
アップデート可能
ボトムアップ学習
単語クラスの遷移確率を学習
様々な長さの文章を生成できる
トップダウン学習
実世界の状況との対応付け
文法の解釈が一意に定まる
14/22
3.2 ボトムアップ学習
単語クラス(色、形、物体、動き、未知)によるBigramモデルを構築
長さnで最も確率の高い語順を生成
15/22
3.3 トップダウン学習
実世界の状況と対応付けて文章を解釈
例:「りんご、みかん、近づける」
「動作の主体→動作の参照点→動きの種類」 という語順を獲得
学習
16/22
3.4 少数例からの文法獲得
語順の学習例
「りんご、みかん、近づける」を学習
トップダウン:動作の主体→動作の参照点→動きの種類
ボトムアップ:物体→物体→動き
文章生成の例
17/22
※静的概念(メロン、ルビー)は
学習済みとする
「メロン、 ルビー、 近づける」
4.1 実験の概要
実験に使用した物体(9種類)
提示した動き(6種類)
近づける、遠ざける、またぐ、回す、上げる、下げる
色(3種類):赤、黄色、緑
形(3種類):丸、三角、四角
18/22
4.2 学習結果:物体の指差し
19/22
4.3 学習結果:物体の移動
20/22
4.4 学習結果:動きの説明
21/22
5 まとめと課題
実現されたシステム 事前知識のない状態から、発達的に言語能力を獲得
人間とコミュニケーションしながら、オンラインで学習
見たり、聞いたりすることで発達するロボットの 最初の一歩を実現
今後の課題 動作を増やす(現在は6種類)
概念を増やす(現在は、色、形など4種類)
複雑な文法に対応する(現在は「語順」のみ)
22/22