118
Title 見まねによる運動学習に関する研究 Author(s) 宮本, 弘之 Citation Issue Date Text Version ETD URL https://doi.org/10.11501/3155598 DOI 10.11501/3155598 rights Note Osaka University Knowledge Archive : OUKA Osaka University Knowledge Archive : OUKA https://ir.library.osaka-u.ac.jp/repo/ouka/all/ Osaka University

Osaka University Knowledge Archive : OUKA«–文.pdf · 近年,ロ ボット工学は機構学,動 力学,制 御理論などの導入と発展とともに格段の進歩をと げてきている.最

  • Upload
    others

  • View
    6

  • Download
    0

Embed Size (px)

Citation preview

Title 見まねによる運動学習に関する研究

Author(s) 宮本, 弘之

Citation

Issue Date

Text Version ETD

URL https://doi.org/10.11501/3155598

DOI 10.11501/3155598

rights

Note

Osaka University Knowledge Archive : OUKAOsaka University Knowledge Archive : OUKA

https://ir.library.osaka-u.ac.jp/repo/ouka/all/

Osaka University

~ ク∠67

学位論文

見まねによる運動学習に関する研究

1998年11月

宮本 弘之

論文要旨

近 年,ロ ボ ッ ト工学 は機構 学,動 力 学,制 御 理論 な どの導入 と発展 とともに格段 の進 歩 をと

げて きてい る.最 近で は,多 自由度 を もつマ ニ ピュ レー タや,高 い運 動性 を もつ もの な どが 出

現 して きた.そ れ らの ロボ ッ トに高精度 で高速 な運動 を行 わせ るこ とは可能 に なって きてい る

ものの,変 動 す る外 部環境 との相 互作用 を ともな う熟練 作業 を行 わせ る こ とは,い まだ に解 決

の困難 な課題 として残 され てい る.本 論 文 は,こ の ような課題 の解 決 と,脳 の仕 組み の解 明の

ための道具 とな る こ とを目指 した,見 まね に よる運動 学習 ロボ ッ トに関す る研 究 を まとめ た も

のであ る.

本研 究 で は,脳 の運動 制御 の計算理 論 の ひ とつ で ある最適化原理 に基づ く運動 パ ター ンの認

識 の枠 組 を用 い て,見 まね に よる運動学 習 を試 み てい る.そ のひ とつ の応用 例 と して,運 動 パ

ター ンの抽 象 的 な表現 で あ る経 由点 を用 い た タス ク レベル学 習 を行 なってい る.経 由点 は一種

の情 報圧縮 とみ なす こ ともで きる.本 論文 で述べ られ てい る見 まね による学習 は一般 的 には次

の ように要約 で きる.(1)ヒ トのデモ ンス トレー シ ョンが教 師情報,(2)制 御 対象 の ダイナ ミク

ス と最適 化原理 に基 づいて運動パ ター ンを認知す る,(3)神 経 回路 モデルを用 いて運動パ ター ン

を再構成 で きる経 由点 を抽 出す る,(4)固 定 した軌道計画 と制御 のスキームを用 いて経 由点 を制

御 変数 と して扱 う,(5)タ ス クが実現 され るように経 由点の位 置 と時 間を修 正す る.

本論 文 の前半 で は,け ん玉 の運動 学習 ロボ ッ トに関 して述べ てい る.け ん玉 は ダイナ ミック

な運動 で,し か も比較 的簡単 なタス ク表現 が可能 となる運動 で ある.見 まね による学習 の戦略

に基づ き,経 由点 の抽 出 と学習 を完全 に自動 的 に行 ない,実 機(SARCOSDextrousslavearm)

を用 い て,け ん玉 の フィー ドフォー ワー ド制御 に成功 してい る.さ らに抽 出 され な経 由点 が タ

ス ク表現 と して適切 であ るか どうか も計算機 シ ミュ レー シ ョンによ り確 かめてい る.

本論文 の後半 で は,本 研 究 で扱 う見 まね に よる学 習の枠組 が汎用性 をもち得 るか どうか を確

か め るため に,連 続 す る複数 の動作 が含 まれ る階層 的 な運動 系列 の学 習課題 や,非 線 形性 の強

い制御対 象 を扱 う学 習課題 の場合 な ど,種 々の運動 にお け る学習可 能性 を調べ てい る .そ の結

果,連 続 運動へ の拡張(テ ニスサ ーブ)と,動 作 や環境 の変動へ の適応(振 り子 の振 り上 げ)に 関

して,見 まね に よる学 習の枠組 が有用 で ある こ とを示 した.こ の研 究 によ り運動 の制御 に他者

の運動 パ ター ンを観測 す る ことが非常 に重要 で ある こ とを示 している と同時 に,他 者 の運 動パ

ター ンの認知 に運動 制御 の神経回路が積極 的に用 い られてい ることを示 した.

目次

1序 章

1.1

1.2

1.3

1.4

1.5

は じ め に................. ............._.◎ .◎..

最 近 の ロ ボ ッ ト 教 示 の 試 み_............ ......。.......

1.2.1AI的 な 手 法 に 基 づ く ア プ ロ ー チ ............... ......

1.2.2動 力 学 に 基 づ く ア プ ロ ー チ ................ ........

1.2.3生 物 に 学 ん だ ア プ ロ ー チ....... ....。........... ...

運 動 制 御 の 計 算 理 論............ .................. ..

軌 道 計 画 の 計 算 モ デ ル_....。........,...., 。.........

1.4.1躍 度 最 小 モ デ ル_......。 .................. ...

1.4.2ト ル ク 変 化 最 小 モ デ ル_... ................... ....

1.4.3一 方 向 性 理 論 と 双 方 向 性 理 論 ................ ........

1.4.4FIRM(Forward-InverseRelaxationNeuralNetworkModel)と 順 序 運 動

見 ま ね に よ る 運 動 学 習................ ...-............ .

1.5.1経 由 点 と 最 適 軌 道 に 基 づ く 運 動 制 御 .................. ..

2み まね による けん玉学習 ロボ ッ ト

2.1

2.2

2.3

は じ め に....書............・ .・ ・.

ケ ン 玉 ロ ボ ッ ト の 特 徴 と 概 要....... ...

SARCOSア ー ム に よ る け ん 玉 運 動 学 習 実 験

2.3.1運 動 軌 道 計 測.......... 。.....

2.3.2経 由 点 の 抽 出 と 最 適 軌 道 の 再 構 成 ...

2.3.3手 先 座 標 か ら 関 節 角 座 標 へ の 変 換 .....。

2.3.4SARCOSア ー ム に よ る タ ス ク の 遂 行 .

2.3.5タ ス ク の 定 義....... ..........

2.3.6経 由 点 修 正....... .......

2.3.7/SARCOSア ー ム に よ る け ん 玉 学 習 .

1

1

2

2

3

3

4

6

6

6

8

10

10

12

15

15

15

16

16

22

22

25

27

30

33

ii

3

2。4SARCOSア ー ム の 数 値 モ デ ル に よ る け ん 玉 運 動 学 習 計 算 機 シ ミ ュ レ ー シ ョ ン

2.4.1SARCOSア ー ム と け ん 玉 の 数 値 モ デ ル.................

2.4.2タ ス ク の 表 現 と 経 由 点 修 正_...........,......,..

2.4.3複 数 の 被 験 者 の デ モ ン ス ト レ ー シ ョ ン........ .........

2.4.4経 由 点 の 数 を 変 え た 場 合..................... ...

2.4.5等 時 間 間 隔 の 経 由 点 の 場 合_................ .....

2.4.6経 由 点 に よ る タ ス ク の 可 操 作 性..........。.。.........

連 続 運 動 へ の 拡 張

3.1

3.2

3.3

は じ め に..............・..・..

テ ニ ス サ ー ブ ロ ボ ッ ト 実 験.........

3.2.1運 動 軌 道 計 測 と 経 由 点 抽 出......

3.2.2手 先 座 標 か ら 関 節 角 座 標 へ の 変 換...

3.2.3サ ブ タ ス ク1の 学 習........

3.2.4サ ブ タ ス ク2の 学 習.........

経 由 点 の 選 択................

3.3.1サ ブ タ ス ク1に お け る 経 由 点 の 選 択

3.3.2サ ブ タ ス ク2に お け る 経 由 点 の 選 択

4動 作や環境の変動への適応

4.1

42

4.3

4.4

は じ め に.............・.....

ヤ コ ビ 行 列 の 自 動 校 正....._.....

振 り 子 の 振 り 上 げ_............

4.3.1運 動 軌 道 計 測 と 経 由 点 抽 出

4.3.2逆 キ ネ マ テ ィ ク ス..........

4.3.3経 由 点 修 正 。............。

テ ニ ス サ ー ブ に お け る ヤ コ ビ 行 列 の 自 動 校 正

5今 後 の 課 題

5.1は じ め に.。................

5.2本 研 究 の 枠 組 と 問 題 点...........

5.3階 層 的 強 化 学 習 の 新 し い 枠 組 と 今 後 の 予 定

5・3・1!ス ク ラ ッ チ か ら の 翻 系 列 獲 得 一

5.3。2/サ ブ ゴ ー ル 設 定 の 自 動 化

o

o

o

● ●

36

36

36

39

39

46

46

49

....49

.49

.....51

.52

.53

.55

...61

,66

66

69

..69

70

..71

72

73

74

......80

84

.84

85

.85

86

88

iii

6

5・3・310caltrajectoryplanner-controller ................. ....89

5.4ス ク ラ ッ チ か ら の 運 動 系 列 獲 得;経 由 点 表 現 を 用 い た 強 化 学 習 に よ る 振 り 子 の 振

り 上 げ 運 動 の 獲 得.............. ................ ....90

5・4・1経 由 点 と 最 適 軌 道 の 時 間 局 所 的 な 生 成 .............. .....91

5.4.2経 由 点 を 用 い たTD(':remporalDif距rence)学 習 .....。.......g2

5・4・3振 り 子 の 振 り 上 げ 運 動 学 習 数 値 実 験 .............. ......94

ま と め

6.1け ん 玉.....。.....

6.2テ ニ ス サ ー ブ.......

6.3振 り 子 の 振 り 上 げ....

6.4今 後 の 課 題.......

99

99

.99

.99

100

iv

第1章

序章

1.1は じ め に

近年,ロ ボ ッ ト工 学 は機構 学,動 力 学,制 御 理論 な どの導入 と発展 と ともに格段 の進歩 を遂

げて きてい る.最 近 で は,多 自由度 を もつ マニ ピュ レー タや,高 い運動 性 を もつ もの な どが 出

現 して きた.そ れ らの ロボ ッ トに高精 度で高速 な運動 を行 わせ るこ とは可 能 になって きてい る

ものの,変 動す る外部 環境 との相互作 用 を と もな う熟練作 業 を行 わせ るこ とは,い まだに解決

の困難 な課 題 として残 され てい る.

我 々が 日常 生活 の 中で何 気 な く行 ってい る動 作 は,脳 の複雑 な情報処 理機構 や運動 制御 機構

の高度 な連係 の もとで遂行 されてい る.例 えば,テ ーブルの上 の紙 コップに手 をの ば して掴 み,

中の水 を こぼ さない よ うに運 んで,ト レーの穴 に差 し込 む,と い った こ とは人 間に とって はな

んで もない簡単 な作 業で あ る.と ころが 同 じこ とを現在 の ロボ ッ トにや らせ よう とすれ ば大変

な準備 が必 要 で ある.上 に挙 げ た例 で は,安 定 把握 の ため に操作 対象物 の形状認 識 や,指 先 と

対象物 との接触 面 の決定,指 先 のプ リシェイ ピング,等 が まず行 われな ければ な らない.さ ら

に,紙 コ ップを握 りつぶ して しまわない ように,触 覚あ るい はカ セ ンサ を用 い て力 の フィー ド

バ ックの はい った制御 が必要 で ある し,な め らか な移動 のための軌道計 画 や,ロ ボ ッ ト自体 だ

けで な く対 象物 との相 関 まで も含 めた ダイナ ミクス の考慮 も必要 である.

工 場 な どで使 わ れてい る産 業用 ロボ ッ トに 目的 の作 業 を遂行 させ る とき,直 接教 示 やテ ィー

チ ングプ レイバ ック等 の教示 方式が広 く用 い られてい る.工 場内 な どの種 々の条件 の整 っ た作

業環境 の も とで,限 定 され た繰 り返 し作 業 をロボ ッ トに行 わせ る ときには,そ れ らの教示 方式

は有効 で あ ろ う.し か し,外 部 環境 の変動 や不 確定性 に対処 す るこ とに関 して は,そ れ らの教

示方式 だ けで は まだ不 十分 と考 えられ る.Teachingbyshowing(1earningbywatching)は,そ

れ らの困難の解決 に有効で ある と期 待 され る[33,45,46,44,47,43].

本章 で は,ま ず現在 試み られてい るロボ ッ ト教示 のためのい くつかの研究 を概説 し,つ ぎに,

双方向性理論, .尭まねによる運動学習の枠組を簡単に解説する.

1

1.2最 近 の ロボ ッ ト教示 の試み

産業用 ロボ ッ トに広 く使 われ てい るテ ィーチ ングプ レイバ ックでは ,PTP(PointToPoint)

やCP(ContinuousPath)な どの軌道 の指定の方法 を用 いて ,マ ニ ピュ レー タの先端 の三次元位

置の軌道 ・ あ るい は各 関節 の角 度 の軌道 を決 めてい る .そ の ように して得 られ た 目標 関節 角度

の軌 道 を ロボ ッ トの各 関節 に与 え,位 置 や速度 の フィー ドバ ック制御 を行 うこ とで高精 度 で高

速 な動 作 を可 能 と して い る・教 示 の方式 と して は,直 接 教示,テ ィー チ ングボ ックス,マ ス タ

ス レー ブ,ジ ョイステ ィ ック,ポ イ ン タ等 があ り,単 純 な繰 り返 し作業 には極 めて有効 で あ る

が,こ れ らの方式 で は教 示 の手 間が比較 的大 きい[69] .最 近 の組 み立 て ロボ ッ トに は多 品種小

量 生産 に対応す るため にフ レキ シビリティが要求 され て きてい るが[70] ,そ の実現 のため には,

よ り簡単 で手 間のかか らない教示方法 が望 まれ る.

1.2.1AI的 な手 法 に基 づ くア プ ロー チ

タス ク レベ ルの ロボ ッ ト言語 を用 いた教 示 で は,タ ス ク レベ ルの コマ ン ドか ら実 際 の ロボ ッ

トに与 え るべ き動作 コマ ン ドへ の変換 が非常 に難 しい .最 近,人 間の作 業動作 を例 示 して ,そ

れ を もとに作業 遂行 の ための ロボ ッ トプ ログラム を自動生成 す る試 みが数 多 く行 われ てい る.

ロボ ッ トに与 え るコマ ン ド列 を 自動 的 に生 成す るため にマス ターアームで記 録 した教示 者 の動

作 デー タをシ ンボ リック に記 述 し,人 間の動作 をパ ラメー タのセ ッ ト(state ,movement,rota.

tion等)に 変換 す る試 み[80】 や,教 示 者の例示 を撮影 した カメ ラ画像 を用 い てマ ウス な どの ポ

インタに よ り直観 的 なプログ ラミングを目指 した もの[76]な どが報告 されてい る .

最近,人 間が 実演 して見 せ た組 み立 て作 業 を視 覚認識す るこ とによ り動作 列 を抽 出 し,そ れ

をも とにロボ ッ トに与 える プログ ラム を 自動 生成 す るい くつか の興味 深 い研 究 が行 われ てい る

[27,45】・ これ らの研 究 では,人 間の組 み立 て作業 をカメ ラに よ り連 続的 に観 察 し,画 像 の時 間

差分 か ら対 象物 の状 態変化 を検 出 してセ グメ ンテー シ ョンを行 い,作 業 に必 要 な要素 的 な動作

をシ ンボ リックな記述 に変換 す る.記 録 された位 置 や姿 勢 な どの軌 道 をその まま再 生す るシス

テムで は,対 象物 の初期 状態 の違 いや,人 間 とマ ニ ピュ レー タの機構 の違 い な ど に自動 的 に対

処 す るこ とは非常 に難 しい.観 察 された動作 をpick,place,transferな どのシ ンボ リックな記述

に変換す るこ との利 点 は,そ れ らの差異 を吸収 して ,目 的の作 業 を正 し く遂行 で きるこ とであ

る[43].こ れ らの研 究 で は操作 対 象物 と して積 木 ブロ ックや棒 な どの比 較 的取 り扱 いやす い形

状 の ものが使 われ てい るが,よ り複雑 な形状 の対 象物体 を操 作す るため に は,把 握点 や手先 の

形状認識 が必要 となる[33].

2

1.2.2動 力学 に基 づ くア プ ロ ー チ

ロボ ッ ト教 示 のため の 自動 プロ グラ ミングへ の アプ ローチ はAI的 な手 法 に基づ くものが多

いが,対 象物 を操作 す る とき,質 量 や接触 に よる反力 な どが大 き く影響 す る よ うな作業 を取 り

扱 う場合 には,ロ ボ ッ トの動力 学 に基 づ くア プローチ も重 要 となる.ペ ンで字 を書 くこ とや,

組み立 て な どの多 くの手 作業 で は,手 先が対 象物 の表面 に拘 束 されて運動 す る.テ ィーチ ング

プ レイバ ック方式 で は,位 置制御 の み を考慮 した位 置デー タの教 示で あ るため,そ れ らの よ う

な外 部環境 との相互作 用 を ともな う作 業で は,力 や コ ンプライ ア ンス の調整 が極 めて 困難 で あ

る.人 間は特定 の作 業 を習得す る とき,そ の作 業 を繰 り返 し行 い,位 置 や速度,さ らには力 か

げんの軌 道 まで を微 妙 に調 整 す るこ とに よって,よ り巧 み な動作 を行 うこ とが で きる ようにな

る.こ の 習得 の過程 で,人 間 は複雑 な作 業の スキル を無 意識 の うちに獲 得す るの で,教 示 者が

ロボ ッ トの コマ ン ド列 や制御 パ ラメー タと して陽 に記述 す るの は現 在 の ところ非 常 に困難 で あ

る.直 接教 示 や オ フライ ンプロ グラ ミングな どの従来 の方法で は,熟 練 した人 間 の手作 業 をロ

ボ ッ トで再 現す るの は不可 能で は ない か もしれないが,大 変 な手 間 とコス トが 要求 され る と考

え られる。

位置 と力 のハ イブ リ ッ ド制御 な どの制御 原理が タスク理解 の ため に重 要 な一面 を もってい る

[2i.位 置制御 と力制御 を組 み合 わせ た制御系 を構成 し,作 業者 の動 作 の変位 と力 の両 方 を計 測

して 目標値 として与 え,柔 軟 なプ レイバ ック制御 を達成 した り,イ ン ピー ダ ンス同定法 に よる

動 的力 制御 の教 示方式 に よ り位 置の デー タ と力 のデ ー タの間 に関数 関係 をあ てはめ た イ ンピー

ダンス制御 則 を用 いて,熟 練 作業 者の示 した グ ライン ダーが け等 の高度 な技 能 をロボ ッ トに行

わせ る こと も可能 とな った[3].

最近,仮 想 現実 空 間 を遠 隔操作 に応 用 しょう とす る興味深 い研 究 も行 われ てい る.マ ス ター

ス レー ブ制御 方式 の遠 隔操作 で は,よ り高精度 な操作 を可 能 とす るため には撃力 な どめ きめ細

かい情 報 が操作 者 にフ ィー ドバ ックされ るこ とが望 ましい.マ ス ター アーム に アクチュエ ー タ

を組 み込 め ば,操 作対 象物 とマ ニ ピュ レー タの手 先の 間の静的 な反 力 を操 作者 に フィー ドバ ッ

クす るこ とは比 較 的容 易 であ るが,撃 力 を再 現す るこ とは困難 であ る.イ ン ピー ダ ンス制御 さ

れるマニ ピュ レー タの先 端 に接触面 を表現 す るため の小 さい効果 器 を と りつ け,マ ス タ「アー

ムで実時 間 に測 定 され る人 間の腕 の動 きに効 果器 の位置 と向 きを追 従 させ る ことに よって仮想

接触空 間 を作 る研究ず 報告 され ている[79].

・1.2.3生 物 に 学 ん だ ア プ ロ ー チ

脳 の運動 学 習 の計 算 論 的研 究 はこ こ20年 間で大 き く前進 した([20,29,30,401).こ れ ら,

脳 の メカニ ズム を探 る一連 の研 究か ら,最 近興味 深 い知見 が得 られて い る.人 間の腕 の動作 を

3

軌道計画

θ

レ ノ

作業座標 (3次 元位置)

座標変換

身体座標↓(関節角)

運動指令生成

筋肉の力

図1.1:腕 の到達運動 におけ る三つの基本的計算 問題.

サ ル に見せ た ときや,サ ル 自身の手 を動 か した とき,特 定 の動作 に反応す る神 経細 胞が上側 頭溝

多種感 覚領野 に発見 されてい る[72].ま た,サ ルが実際 に動作 を しな くて も実験 者の動作 を見 る

だけでサ ルの前 運動 野 のニ ュー ロ ンの発 火が活発 になる こ とが報告 され てい る[10] .さ らに,ヒ

トが物体 の把持 運動 を観 察 した り,そ れ を行 うこ とを想像 しただけで ,実 際 に手 を動 か さな くて

も脳の運動 に関連す る部位 が活動 す る ことが観察 されてい る[9] .こ れ らの神 経生理 学の デー タ

は,運 動 を学 習す る際,運 動 の観察や イメー ジ トレーニ ングが重 要であ ることを示 している .

これ まで概 観 して きた よ うに,ロ ボ ッ ト工 学 の研 究 で は,単 純 な軌道 追従 の問題 か ら,よ り

高次 な タス ク レベ ルで 問題 を扱 う研 究 が精力 的 に進 め られ ,着 実 な成果 を挙 げ てい る.そ れで

も,ダ イナ ミクス を含 め た外 部環境 との相対 的 な変化 に 自動 的 に対 処す るシステ ム を構築す る

には まだ十分 とはい え ない.軌 道追従 な どの問題 には,す で に外部 環境 との相互 作用 も考慮 に

入れ た学習 制御 が提 案 され てい るが[68],目 的の作業 を成 功 させ るこ とに重 点 を置 いた タス ク

レベルでの適応 制御,あ るい は学習制御 への取 り組み は まだ始 まったばか りで ある[63].

1.3運 動 制御 の計算理論

ヒ トの腕の 目標到達運動の制御問題は,図1.1に 示す ように軌道計画,外 部座標か ら身体座

標へ の座標 変ヨ琴1'運 動 指令 生成 の三 つの基本 的計算 問題 に分 け るこ とが で きる[50] .こ れ らの

基本 的計 算 問題 は 図1・2に 示す よ うに一 意 に解が 決 ま らない とい う不 良設定性 を持 つ .ま ず軌

4

軌道生成 座標変換

終点 手先

/

//

∠/

働 肘

、○ 肩

運動指令生成

無数の軌道が存在

始点

無数の関節角の

組み合わせが存在

4

無数の筋張力の

組み合わせが存在

図1.2:三 つ の基本 的計算 問題 の不 良設定性.

道計 画 で は,外 部座標(視 覚 の三次元座標)で 手先 の 目標軌道 が計 算 され なければな らない.こ

の とき,始 点 か ら終点 に至 る まで の軌道 は無数 に存在 す るが,そ れ らの うちひ とつ を決定 しな

けれ ばな らない.つ ぎに座 標 変換で は,三 次 元座標 で あ る外 部座 標で計 画 され た 目標軌 道 か ら

各 関節 の 関節 角 や筋 肉の長 さ といった内部 座標 に変換 され る必 要が あ る.こ の と き,な ん らか

の拘 束 条件 を与 え なけれ ば,腕 全体 の姿 勢 は一 意 に決 ま らない.な ぜ な ら,人 間の腕 は7自 由

度 を持 ち冗長 性が あ るので,手 先 の位 置 と姿 勢(6自 由度)を 決 めて も,肘 の位 置 を どの よ うに

で もで きるか らであ る.最 後 に,関 節 角 な どの 内部 座標 の 目標軌道 か ら筋 肉の力 な どの運 動指

令へ の変 換が 行 なわ れ る.人 間の四肢 は主働 筋 と拮抗筋 の両方 の働 きで動 く.従 って,目 標 の

関節 角 を実現 す るた め にこれ らの筋 肉が 出すべ き力 は,ど の ような組合せ にで もで きる.こ れ

らの基本 的計 算 問題 の最 終 目標 は,運 動 の到 達 目標 の空 間的特徴 を適切 な筋 肉の活動パ ター ン

に変 換す る こ とであ る.こ の とき,脳 は上 にあ げた よ うな一意 に解 が決 まらない とい う不 良設

定性 を実時 間で解 決 しなければな らない.

過去10年 以上 にわた って,運 動制御 の計算論 的研 究 は これ らの三つ の基本 的計 算 問題 に関 し

て大 き く前 進 した[40].例 えば運動指令生成 に関 しては以下 の ことが分 か って きた.生 物 の フィー

ドバ ックル ープは時間遅 れが大 き くゲイ ンが小 さい.し たが って,高 速で協 調的 な腕 の運動 は,

前 向 き制御 に よって実行 され なけれ ばな らない.前 向 き制御 の たゆ の内部 モデ ルの理論 的 な研

究 が行 な われ て きたが[37,56,34],近 年,心 理 物理 実験 や生理 学実験 に よ り実 証 されつ つ あ

る.最 近,運 動牢 の ダイナ ミックなス テ ィフネス はそれ ほ ど大 き くない こ とが分か って きた[7 ,

6,22].し たが って,逆 ダイナ ミクス モ デル な どの内部 モ デルが必 要 とな る.単 一 の プルキ ン

5

工細 胞 の活 動 の分析 か ら,小 脳 に逆 ダイナ ミクスモ デ ルが存 在す る こ とが示唆 され てい る[41 ,

771.

1.4軌 道 計画 の計算 モデル

この節 では軌道計 画 に関 して概 説す る.図1.3に 小 池 ら[42]に よって講1さ れた6の2点

問運動 の デー タを示す ・ このデー タは肩 の高 さの水平 面 内に制限 され た肩 と肘 の2自 由度 の場

合 の腕 の運動 軌道 の例 である・被験 者 には例 えばT2か らT6ま で 自然 に手先 を動 かす ように指

示 しτあ る.図1.3で 示 される よ うに,あ る点 か らほかの点 までの腕 の多関節運 動 の軌 道 は ほ

ぼ まっす ぐな手 先 の軌跡 とベ ル型 の速度 プ ロフ ァイルで特 徴づ け られ る[64] .こ れ らの不 変 な

特徴 を説 明す る為 にこれ まで にキネマ ティ ックな最適化 原理(躍 度 最小 軌道仮 説)と ダイナ ミ ッ

クな最適化原 理(ト ル ク変化最小 軌道仮説)が 提 案 され て きた[17,18,15,16,81,82]。

1.4.1躍 度 最 小 モ デ ル

ヒ トの腕 の運動軌 道の不 変的 な特徴 を予測 し再現 す るこ とので きるモ デル としてFlash&Hogan(1985)

は躍度最小モデルを提案 した.肩 の高 さの水平面内に限定された手先の位置を直交座標系で 伽,の

と表す.こ の とき,位 置の躍度(3回 微分)の2乗 和の運動時間全体にわたる積分 を評価関数

q-1濃{(d3コ じ砒3)2+㈹2}(1・ ・)

と定 め る.躍 度 最小 モ デル はこの評 価 関数 を最小 にす るよ うな軌 道が計 画 されてい る とす るモ

デルであ り,2点 間や経 由点 を通 る運動 軌道 を良 く予測 ,再 現す るこ とがで きる.式(1.1)は 解

析 的 に解 くこ とがで きて,(∬,ッ)は 時間 亡に関す る5次 方程式 に よって表 され るこ とが示 され

ている[17,18,15,16].

1.4.2ト ル ク変化最小 モデル

躍度最小 モデルでは視覚座標のキネマティクスのみで評価関数が与 えられるので,運 動時間

と始点,終 点,経 由点が与えられれば運動軌道 は時間の5次 多項式 として一意に決定 される.

しか し,実 際 に我々が手の運動 を行なうときには,手 に道具 を持っていた り,手 に外力が加わっ

ていた りする場合の方が多い.こ のような外界 との相互作用が加わる場合には躍度最小モデル

では正確 な予測や再現は不可能である.

宇野 らは筋骨格系のダイナ ミクスをも考慮 した評価関数 を持つ トルク変化最小モデルを提案

した.ト ルク変化最小モデルでは各関節の トルクの時間変化の2乗 和の運動時間全体 にわたる

積分 ヂ

¢一1礁)2(・2)

6

α8

◎.6

ハ£o.4》

◎.2

α0

了2

τ5・

P1多r4

4rs

一 〇.4-0.2 ◎.◎0.20。4

x同

2.o

T1.5ゆ

一 駕◎うψδ

R婁◎.5

τ$ 

$零

£8

8

o.◎

◎ ・◎O・5葉 ・01.52,◎2ヒ .53,0

耀mΦ[sψc3

壌◎

5

o

一5

讐 壌◎

O・O◎ ・5旬 ・◎t52 .◎2.5こ5.O

t…me「3⑤c1

図1.3:ヒ トの2点 間運動 にお ける手先 の軌 道(a),接 線 方 向の速度(b),接 線 方 向 の加速 度

(c).小 池 ら(1994)よ り引用.

7

Unidi:rectiona:Lしheory

Smooヒhness

T:raコecヒOry

Planning

Bi-di:rectionaltheory

Traゴecしory

Planning

De51redTraゴeσ 亡ory

ユ1ユEx亡rユn5ユ σ 取)aσe

De51redTraゴeσ 亡ory

ユηEx亡rユ ηsユ σ5paσe

Coordina仁e

Transfo:rmaしion

工KM FKM

De51redTraゴeσ むoζy

ユη ヱη 亡rユ1ユ5ユ σ βPaσe

De5ゴredTr∂ ゴeσ 亡σry

ユ1ユ エ1ユ亡rユ1ユ5ユσ 取)aσe

COntroller工DM FDM

赫0亡orσ0㎜aηds

め むくニし   ヨヨ

○ 赫0亡orσ0㎜aηds

図1.4:視 覚誘 導 性到達 運動 の一方 向性理 論 と双方 向性 理論 の比較.左 は一方 向理 論 ,右 は双

方 向理論 の ブ ロ ック ダイヤ グ ラム を示 す.FKMとIKMは 順 と逆 の キネマ テ ィ クスモ デ ル ,FDMとIDMは 順 と逆の ダイナ ミクスモデ ルをそれぞれ示す .

が最小 になるように運動軌道が計画 されるとするモデルである.

手先 を真横か ら正面 に動かす場合の運動では,躍 度最小モデルよりトルク変化最小モデルの

ほうが,よ く実験結果 を説明で き,外 界 と運動器官の順モデル と逆モデルの両方 を必要 とす る

ダイナミックな最適化原理が,よ り正確なモデルであると考えられる[82].

1.4.3一 方向性理論 と双方向性理論

運動制御 に関する多 くのモデルは大 きく分けて二つの理論 に分類 される.単 方向理論 と双方

向理論である(図1.4).ど ちらの理論 も脳内の情報表現 とそれに対応する三つの問題が階層的に

配置 されていることが仮定されている.

一方向理論 に毒いては情報の流れは下向 きのみである.そ れに対 して,双 方向理論では下向

きと上向 きの両方の流れが許 される.下 向 きの情報の流れは逆キネマティクスモデル と,制 御

8

表1.1:視 覚運動制御の一方 向性理論 と双方 向性理論.

理論 一方向 双方向

三 つ の 問題 を どの よ うに 順序的 同時

解 くか

軌道が計画される空間 外 的空 間(視 覚 に基 づ く 内的空間(身 体座標)と 外

作業座標) 的空間

最適化原理 幾何 学的(躍 度 最小 モデ ダ イ ナ ミック(ト ル ク変

ル) 化最小モデル)

制御 仮想軌道制御仮説 逆 ダイナ ミクスモデル

運動器官 と環境の内部モ 必要なし 順モデルと逆モデル

デル

運動学習 一 内部モデルの学習

対象 と環境の逆 ダイナミクスモデルによって伝え られる.上 向 きの情報の流れは順 キネマティ

クスモデルと順 ダイナ ミクスモデルによって伝えられる.

一方向性理論では,情 報の流れは高次の レベルから低次のレベルへの下向きの流れのみであ

る.結 果 として,高 次の レベルでの計算問題は低次の レベルの計算問題 を参照することな しに

解かれる.例 えば軌道計画は座標変換や運動指令生成 に関す る知識な しに解かれなければなら

ない.し たがって,表1.1に 示 したように三つの問題は順序的に1段1段,段 階を踏んで解か

れる.つ まり最初に軌道生成の問題が解かれて,外 部空間(多 くの場合,視 覚座標系)で の目

標軌道が得 られる.次 に座標変換が行われて,関 節角や筋肉の長 さなどの身体座標での 目標軌

道が得 られる.最 後に目標軌道 を実現するために必要な運動指令が生成される.

それに対 して,双 方向性理論では下向 きの情報の流れだけでな く,上 向きの情報の流れも許

され,実 際 にそれが三つの計算問題 を十分短い時間で解 くために必須のもの となる.高 次の レ

ベルでの計算問題 は低次の レベルで生 じる事象を考慮 に入れて解 くことがで きる.例 えば軌道

計画は運動指令の滑 らかさを考慮 に入れて行 うことがで きる.し たがって,三 つの基本的計算

問題は直列的,順 序的というよりも,同 時に解かれる必要がある.

一方向性理論 と双方向性理論の最 も大 きな違いは,軌 道が計画される空間に関するものであ

る./

軌道が外的なキネマティックな空間で計画 されるのか,あ るいは内的なダイナ ミックな空間

9

で計画 され るのかに関 して,現 在で も激 しい論争がある.一一方向性理論では,軌 道 は外部空間

だけで計画 される.し たがって,低 次の レベルで起 こるキネマティック,あ るいはダイナ ミッ

クな要因は無視 される.そ れに対 して,双 方向性理論では,内 的空間 と外 的空間の両者 を考慮

に入れて軌道が計画 される.手 先が到達すべ き目標位置な どの運動の 目標 は,外 的空間で与え

られるが,唯 一の軌道 を決定するための滑 らかさの拘束条件は内部空間で与えられる.つ まり,

軌道計画のために内的空間と外的空間の両者が同時に使 われる.

軌道計画が行 われる空間の問題 と密接に関連 して,軌 道計画 に用い られる最適化原理 も大 き

く異なる.一 方向性理論において,軌 道計画の過程では低次の レベル を考慮 に入れないので,

ダイナ ミックな要因は無視 される.し たがって,キ ネマティックな最適化原理のみに基づいて

軌道計画が行 われる.こ の代表的なモデルは躍度最小モデルである.そ れ に対 して双方向性理

論ではダイナ ミックな最適化原理が用いられる.こ の代表的なモデルは トルク変化最小モデル

である.

運動指令の生成においては,一 方向性理論では幾つかの可能性が考えられる.最 も純粋な一

方向性理論の立場 に立 ち,長 い時間スケールの学習においても階層構造の低次のレベルか ら高

次の レベルへ は情報は伝えられないとすれば,『仮想軌道制御仮説が,可 能な制御原理である.

1.4.4FIRM(Forward-lnverseRelaxationNeuralNetworkModel)と 順 序 運 動

三 つ の基 本 的 計 算 問題 に は解 決 の難 しい 不 良 設 定 性 が 含 まれ るが ,図1.5に 示 す ダ イ ナ ミ ック

な最適化原理 に基づ く双方向神 経 回路モ デル を用い て解決 で きる[36] .和 田 らのモ デル(FIRM:Forward一

InverseRela:xationModel)[83,85,84,86]を 用 い る と,ヒ トの腕 の運動軌 道 デ ー タか ら順 逆

緩和 計算 に よ り運動 の特 徴 を少 数 の経 由点 とい う表現 で抽 出で き,抽 出 された経 由点か ら もと

の ヒ トの運動 を精度 よ く再現 す る軌道 が再構成 で きる .音 声知 覚の運動 理論 で は,調 音器官 の

運動 制御 の ための神 経 回路 が音声認 識 に重 要 な役割 を担 って いる とい う仮 説が 立 て られ てい る

[48,49,35]・ 我 々の アル ゴ リズム はこの心 理学的 なモデ ルのひ とつ の計 算論 的実現 であ る とい

える.

1.5見 まね による運 動学習

タスクレベル学習を行お うとするときには,内 部の制御変数 と外界の状態変数 とのインタラ

クションが重要 となる.タ スクの表現(制 御変数 と状態変数)が 適切 に記述 されれば,強 化学習

や遺伝 アル ゴ リ塔 ム な どの様 々な学習 スキーム を用 い るこ とが で きる.こ こで最 も基本 的 で解

決 の困難 な問題1キ タス ク に関す る適切 な表 現 を選択 す る こ とであ る と考 え られ る(例 えば[1,

4,75])./∫

10

視覚情報第1次 視覚野

第2次 視覚野

目標点,経 由点,障 害物の表現,/γ 頭頂連合野

ノ 気近似的な

最適軌道の生成機構運動条件の

誤差検出'N〃

/へ 運動軌道 ノ/鵡 野ノク 汰 運動野上層

小脳

小脳制御対象の

逆ダイナミクスモデル

制御対象の

順ダイナミクスモデル

"〃

∠2∠ 込 運動指令なめ讐Z妙

ノ/勲 深層

脊髄

筋骨格系

図1.5:双 方向神経 回路モデル.

表1.2:見 ま ね に よる学 習 の戦 略.

タスク学習の戦略 運 動 プ リミテ ィブの 学習者の 教師 と学習者の違い

表現 知能

「運動意図の理解」 運動意図 完全 全 く異 な って も良い

「創発計算の獲得」 タス ク ダイナ ミクス 良 かな り違 って も良い

「抽 象 的 表 現 を 用 経由点 貧弱 定量的な違い

い た タス ク レベ ル学

習」

「サルま剃 位置 と力の制御 殆 どない 全 く同 じ

11

艶acher

晶 、m

teacher

/

7が 一)

監器aしbnr㍉

/1ガ 、\51eamer

瓦.ノ

a」ごner

図1.6:見 まねに よる運動 学習の流れ.

見 まね に よる学 習 は,教 師の タス クの遂行 に基づ いて学習 者が タス ク を解 くこ とを学ぶ こ と

であ り,タ ス クの表 現 の選択 とい う原理 的問題 が直接 的 に現 れ る問題 の ひ とつ であ る.見 まね

に よるタス ク学 習の戦略 の例 を表1。2に 示す.学 習者 の知 能が完全であれ ば,教 師の運動 パ ター

ンの観 察 を通 じて運動 意 図 を理解 し,学 習 者 自身の身体 や外 界 の物 理 的 な理解 と推論 に基づ い

て タス ク を遂行で きる.AI的 な手法 に よるロボ ッ ト教 示の 自動化 な どは,こ の戦略 をめ ざした

アプローチ とい え るだろ う.ま た,教 師の運動 の位 置 と力 の軌 道 をその まま再 現 す る とい う戦

略 もあ る.し か しこの 方法 で は,教 師 と学習者 の身体構 造 と外 部環境 が全 く同 じで,か つ極 め

て高い精度 の測 定 と制御が要 求 され る等,現 実的で ない .

図1.6に 見 まね に よる運動 学習の流 れ を示 す.大 まか に言 えば ,学 習者(Learner)は 教 師(Teacher)

の運動 軌道 を認識 して運動計 画 の内部表現 を推定 す る.こ れ を用 い て学 習者 自身 の運動 学習 制

御 の ため の内部表現 とす る.こ の内部表現 を操作す るこ とに よって学習者 自身 に合 わせ る.

1.5.1経 由点 と最 適軌道 に基 づ く運動制御

教師の運動軌道Xd。t。か ら経由点抽出アルゴリズムEに よって抽出された直交座標での経由

点の集合

./&。 。mer一{X尋ia,…,X召a}

12

が得 られ た とす る.X3i、 は6次 元ベ ク トルである.&,am。,は 教 師の運動計画 の内部表現3t。a,h,,

を推測 した ものであ る.

31・amer=E(Xd。 ・。)(1.3)

つ ぎに,教 師か ら得 られ た経 由点の集合か ら経 由点決 定の アル ゴ リズ ムHに よ り学習者の経 由

点 の集合

畠,amer={鴎 、。,…,擁}

を得 る とす る.

5㌦earner=11(5㌦eacher)(1.4)

この 経 由点 か ら最 適 化 軌 道 計 算 」 に よっ て最 適 軌 道X。ptを 得 る.

X。P・=」(31,am,,)(1.5)

手 先 座 標 か ら身 体 座 標 へ の座 標 変換 と,運 動 指 令 生 成 の ア ル ゴ リズ ム を ま とめ て σ と表 す.0

に よ り実 現 され た軌 道 を

X,eal=σ(X。p・)(1.6)

とす る.以 上 の式 を続 け る と,

X,ea互=σ(」(β1,a,n,。))

=0(」(E(Xd。t。)))

≡X(Xdata)(1.7)

とな る.こ の よ う に して 合 成 され た汎 関 数xは 以 下 の 条 件 が 満 た され て い れ ば恒 等 写 像 か らそ

れ ほ どか け 離 れ た もの と は な らない.

1.最 適 化 原 理 が ヒ トの それ とひ ど く異 な らな い.

2.経 由 点 の表 現 が適 切 で あ る.

3.σ は恒 等 写 像 か らそ れ ほ どか け離 れ て い な い.

最 終 的 に実 現 され た軌 道X,ealは 滑 らか で,教 師 の 運 動 軌 道Xdataに 近 い.し か し,教 師 と学

習 者 の動 力 学 特 性 や 環境 の 違 い 等 に よ り,タ ス クが 実 現 で きる と は限 ら ない.

Xrealは 少 な い制 御 変 数 θ1。a,n,,でパ ラメ トラ イズ され てい る.タ ス クの 成 功 失 敗 を 直接 評価

す る表 現 をTと す る と,TはXrealか ら一 意 に決 定 で きる か ら,

T=F(51earner)

13

と書 ける.図1.6の 点線で示 した学習 スキーム 五 によ り51,a,を 修正 して,自 分 自身の行動の結

丁=F(31,amer)

が タス ク 目標 に近付 くようにす る ことがで きる.五 と して は,フ ィー ドバ ック誤差 学習,順 逆

モ デ リ ング・ 直接逆 モ デ リング,遣 伝 アル ゴ リズ ム ,強 化学 習,最 急 降下法 な ど,様 々 な学 習

ス キーム を適用 す る ことがで きる.

14

第2章

み まね に よ る けん玉 学 習 ロボ ッ ト

2.1は じ め に

本研 究 で は第1章 で述べ た脳 の運動 制御 の計算理論 のひ とつである"最 適化原理 に基 づ く運動

パ ター ン認識"の 枠 組 を用 いて,見 まね に よる運動学 習 を試 みてい る.こ こで はそのひ とつの応

用例 と して,抽 象 的表現 として経 由点 を用 いた タス ク レベ ル学習 を行 な う.そ の第一段 階 と し

て,ま ず 本 章で は タス ク としてけ ん玉 を と りあ げた.け ん玉 は習得が比 較的容易 な ダイナ ミ ッ

クな運動 で,し か も簡単 なタス ク表現 が可能 であ る.け ん玉 を行 うにはか な り高 速 な動 作 が要

求 され,各 リンク間 に複雑 な干 渉の あ る腕 型 マニ ピュ レー タで は高 い精度 で軌道 追従 を行 うこ

とは困難iであ る.け ん玉 をロボ ッ トに行 わせ る試 み は,視 覚 フ ィー ドバ ックを用 い た研 究[52]

や,外 乱 オ ブザ ーバ を用 い た研 究[24】 が ある.こ れ らの研 究 は人間の動作 を参考 に して高 い成

功率 でけ ん玉 を成功 させ ているが,研 究者 が陽 に軌 道計画 を行 ってい る.

本研 究 で は,和 田 らのFIRM(Forward-lnverseRelaxationModel)を 用 いて ヒ トの運動 軌道

か ら経 由点 を抽 出 し,こ れ らの経 由点 を制御 変数 とみ な し修正す るこ とに よ り作業 目標 の達成

を目指す.学 習ス キー ム と して広義 ニ ュー トン法 を用 い る.本 章で は,ま ず2.3節 で実機 を用

いた実験 を行 い本 方式 の有効 性 を検 証 し,つ ぎに2.4節 で ,抽 出 され た経 由点が タス ク表現 と

して適切 な ものであ るか を数値実験 に よ り検討す る.

2.2ケ ン玉 ロボ ッ トの 特 徴 と概 要

経由点は一種の情報圧縮の表現のひとつ と考えることもで き,軌 道生成の最適化原理 に基づ

いて,与 え られたデータか ら抽 出できる.抽 出された経由点か ら軌道 を再構成する場合 も最適

化問題 として解 くことがで き,運 動指令の変化が最小 となる最適軌道が求 まる.こ こで用いる

最適化原理が人間のそれに近い もので経由点の表現が適切であれば,も との人間の運動軌道 を

再現することができる.し か しロボ ットなどの制御対象に経 由点から再構成 された軌道 をその

まま与えて も㌶似た運動はで きても目的の作業が うま く行 えるとは限らない.腕 の長 さや重 さ

15

といった物理 的 な変数 が 人間 とロボ ッ トで は異 な るか らであ る .そ こで,経 由点 の うち作業 の

成功 に重 要 な経 由点 を制御 変数 とみな し,適 切 に修 正す る こ とに よって再構 成 された軌道 を制

御 す る・ ここで経 由点 を どの ように修正 す れば よいかが問題 となるが ,目 的 の作 業 が成功す る

ように,ケ ン玉 の場 合 で はボールの飛 び方 を観 察 し,例 え ば もっ と右 に飛 ぶ ようにす る には ど

の経 由点 を どの ように修正 す れば よい か をあ らか じめ調 べ てお く.ボ ールの飛ぶ 高 さや方向 に

関 してい ろい ろ調べ た結果 を使 ってボールが うま く飛 ぶ ように経 由点 を少 しずつ修 正す る.最

初 は うま くで きな くて も,こ れ を何度 か繰 り返 してい くうち にだんだん上達 してい くので ある .

これ は タス ク レベ ル学 習 とい う考 え方 で ,制 御系 の精度 はそれ ほ ど高 くな くて もうま く目標 が

達成 で きる.

ここで制御対 象 を図2.1に 示すSARCOSDextrousSlaveArm(米 国SARCOS社 製)と す る.

このSARCOSア ームは もと もとマス ター ・ス レー ブ方式 の遠隔操作の研 究の ためにユ タ大 学で

開発 され た腕 型 ロボ ッ トで,人 間がマス ター ・アーム を操作 す る こ とに よってス レー ブ ・アー

ム を制御 す る.マ ス ター ・アー ムに は各 関節 に角 度検 出器 だけで な くア クチュエー タも取 り付

け られ てい て,ロ ボ ッ トと操 作対 象物 との間 の力 の相互 作用 も操 作者 にフ ィー ドバ ック され る

仕組 み に なっ てい る.軌 道制御 はVx-Worksと よぶ マル チ タス クOSの もとで ,VMEバ ス上

のマ ルチMPUで 行 われ,専 用 のバ ス を介 して 図2 .2に 示 す各 軸毎 のサ ーボ コ ン トロー ラか ら

制御 指令がSARCOSア ーム に送 られ る.本 研究 ではス レー ブアームのみ を実験 に用 いたので,

本論 文で は以 降ス レーブ ・アーム を単 にSARCOSア ーム と呼ぶ こ ととす る.

一般 的 に用 い られ て〉・る産業用 の腕 型電動 マニ ピュ レー タは6自 由度 しか持 たないが,SAR-

COSア ーム は図2.4に 示 す よ うに人 間の腕 と同 じ7自 由度 を持 ち,人 間の腕 に非常 に似 た動作

を行 わせ る こ とがで きる.SARCOSア ーム は図2.3に 示 す 油圧 ポ ンプか らの油 圧 に よ り油 圧

アクチ ュエ ー タで各 関節 が 駆動 され る.油 圧 アクチュエ ー タは産業用 マ ニ ピュ レー タに一般 的

に用 い られて い る電動 モ ー タに比べ て,小 型軽量 で大 トルク を発生 させ る ことがで きるが,油

洩れが発 生 し保 守性が悪 い ことが欠点であ る.し か しSARCOSア ームは電動 の産業用 マニ ピュ

レー タで は不可 能 な高速 の運動 が可能であ る.上 にあげた理 由か ら,SARCOSア ーム を用 いる

こ とに よ り,本 論文 で扱 うよ うな けん玉 や テニスサ ーブ とい った比較 的高 速で ダイナ ミ ックな

運動 をSARCOSア ーム に行 なわせ る実験が可能 となった.

2.3SARCOSア ームに よるけん玉運動学習 実験

2.3.1運 動軌道 計測

実験 に用 いた シス テムの概略 を図2.5に 示 す.ケ ン玉 ロボ ッ ト開発 の ご く初期 段 階で はマス

ター ・アームで 人 間のケ ン玉運動 を測定 しよ うと していたの であ るが ,重 力保 障等 の工 夫 だ け

16

馨欝 が

二;騒熱

1霧 婆 鵡 、

デ 、 隆翰 ・ 、 建

濁.1

鵡 壷 噛

撫 。緬 飾

勲 々 ・

ゾ磁1、

魏 毒_、 ∵ 踊 。 ・・

籔謡嚇 き1_雛1騨 驚1 、

…難 灘響懇鱒

・ ・ 一 瑠 モ脚

瞬懲

篤盤灘驚

\ゴ

`

"ヴ毛∴

橿

e一轡 脚軋・帖猷

 

蓼 ・嘆 擁 灘

.駆

獄饗

難轟

講ど㍉酋レ

図2.1:SARCOSDextrousSlaveArm(米 国SARCOS社 製).け ん玉 の け ん は 固 定 した指 先 に

小 さな万 力 で 堅 く取 り付 け られ てい る.ボ ー ル は受 け皿(中)の うえ に置 か れ て い る.

17

図2.2:SARCOSア ー ムの コ ン トロー ラ部(米 国SARCOS社 製) .

'

図2.3:SARCOSア ー ム の油 圧 ポ ンプ部(米 国SARCOS社 製) .

18

J2shoulderabduction-adduction

JIshoulder

J3humeral

rotatlon

屠0.34

J4elbow

傘0.32

J5w,i、t凝 ミ

rotatlon

flexion一

逗extensi・n0.32

x0

Z

J7wrist

abduction-

adduction

y

J6wristflexion-extension

図2.4:SARCOSア ーム のキネマ ティ ック ・ス トラクチ ャー.各 リンクの横 の数 字 は リンク長

(単位 はメー トル)を 示す.矢 印 は回転軸 と回転 の方 向 を表す.

で はマ ス ター ・アームが重す ぎて とて もケ ン玉 どころで はなかった.そ こで 図2.6に 示すOP-

TOTRAK(米 国WesternDigital社 製)と 呼 ばれ る赤外 線LEDと3台 の カメ ラ を用 い た三次元

位置 計 測装置 で けん玉遂行 中の ヒ ト運動軌 道 デー タを収集 した.図2.7に けん玉 を行 な う とき

の被 験者 に赤外 線LEDを 取 り付 けた ようす を示す.赤 外 線LEDマ ー カは図2.7の ように,被

験者 の肩,肘,手 首,人 さ し指 の付 け ね,小 指 の付 けねの合 計5個 所 に取 り付 け られ た.そ れ

ぞれの赤外線LEDマ ー カはタイムシェア リングで点滅 してお り,図2.6に 示 す3台 の カメラに

よって各 赤外 線LEDマ ーカの三次 元位置 が計測 され る.本 実験 で は250Hzの サ ンプ リ ング周

波数 で計測 した.本 実験 の設定で は計測精度 は1~ 数mm程 度 であ る.

収 集 した肩,肘,手 首,手 先(第2,5指 の付 け根)の 三次元 位置 デー タか ら,手 先 の位 置 と

向 き

Xd。,。={16のdata,。●',∬data},1(2.1)

お よび7つ の関節 角の軌道

θd。、。={θ 占。、。,…,θ二。、a}(2.2)

を計 算 に よって求 めた.手 先 の位置 は第5指 の付 け根 の三次 元位 置 デー タをその まま用 い た.

手 の高 さ(之 軸芳 向)が 最 も高 くなる時 間がデー タ全体(2秒 間)の 中心 になる よ うにデー タをそ

19

OPTOTRAK

圃愈

hurr㎜handt同ecbry

..、plr重angiehandpos酊on

遷搬,F旧M

.rviaギ 〕oir櫨Sjd耐angles

lnverseKinematics/θ1血

周i

θ。ia L

handpos雌on

.、ノ 錨Xvia

t向㏄bry

fom鉗on

FlRM

,θ 。pt

v白 一poht#

剛伽 ㈱

伽red

やir曲司edαy

Xと 。p

cuppos.t向.

QUICKMAG

や圃pos.周.

/

十劇ized

薗 拍i耐圃edαy

lnverseK

Dynambs

oommandk)rque

SARCOSam舳Kendama

図2.5:け ん玉学 習 システムの模式 図.

20

ロゥ噸ぜ

㌦風

1轡

戯}緊 ㌃ …撫 謄

il

まニぐ

嘉 蟻畷,丁縄 醐響

糟 軽 メ蹴_ ミ.,斌、騎

磯{難

殴雛1:三㌔讃続_》ぐ 璽 還 鞭 鍵騨 ノ 漕r噸 調 二 餐 ・

.い.~ ∫

県勤瓢

図2.6:0PTOTRAKの カ メ ラ部(米 国WesternDigital社 製).

図2.7:被 験 者 どLEDマ ーカー.赤 外 線LEDマ ー カは被験 者の肩,肘,手 首,人 さし指 の付 け

ね,小 指 の付 けねの合計5個 所 に取 り付 け られている.

21

う え た.

2.3.2経 由点の抽 出 と最適軌道 の再構成

次 にFIRMを 用 い て経 由点X。i、 を抽 出 した.経 由点抽 出モ ジュールは

ア  ゐΣ{♂(t)一x乙 。・。(t)}2dt→min(2.3)i==1

を満たす ように経 由点が抽 出 され る.げ は後述す る最適軌道生成 モ ジュール によ り得 られ る最

適軌 道 であ る.θdataか らXviaと 同時刻 の デー タ点 を取 り出す こ とに よ り,関 節角 の経 由点

θvi。を得 た.

最適軌 道生 成 モ ジュール は簡単 の ため元 々の非線形 ダイナ ミクス で はな く,近 似 として質点

系 の線形 ダイナ ミクス を拘 束 条件 と した トル ク変 化最小基準 を用 い た .こ の場 合,躍 度最小 モ

デル と等価 にな り,

∬ 書 醐 ㌔オ→mi・(2.4)

を満たす解析解が与えられる.

次にFIRMを 用いてそれぞれの経由点X。ia,θ。i、を抽出した.最 適軌道は簡単のため躍度最

小軌道を用いた.躍 度最小軌道は

雌)2dt(2.5)

が最小 とな る軌 道 である.こ れ は解析 的に解 けて時間 に関す る5次 方程 式 となる .

図2.8に 経 由点抽 出の模 式 図 を示 す.丸 は経 由点 を示す.実 線 は被 験者 の運動軌道,点 線 は経

由点か ら再構成 され た最適軌道 をそれ ぞれ示す.φ,θ,ψ 成分 はYZYオ イラー角[8]で あ る.ま

ず図2・8左 に示す ように1番 の始 点 と2番 の終点 を結 ぶ最適軌道 を生成 す る.つ ぎに図2.8中 の

3番 の丸 で示 され る最初 の経 由点 を抽 出 し,そ こを通 る最適軌道 を生成す る.経 由点 として,手

本 の運動 軌道 と最適軌道 のx,y,z成 分 の 自乗和 の誤差 が最大 の点 を選ぶ .同 様 に図2.8右 に示

す ように さらに経 由点 を追加 す る.も との手 本 の軌 道 に最適 軌道が十 分近 くなる まで,こ の経

由点抽 出 と最適軌 道 の生成 を繰 り返す1.本 実験 で は簡単の ため ,経 由点の個数 を始 点 と終点 を

含 めて9個 に固定 した.

2.3.3手 先座標 か ら関節 角座標 への変換

SARCOSア ームへ の指令値 は図2.2に 示 す コ ン トロー ラを通 じて関節角軌 道 の 目標値 と して

与 え られ る.SARCOSア ームの関節角 の 目標値 を人間の関節 角度 に合 わせ たので は ,腕 の長 さ

等 の キ ネマ テ ィクスが異 なるため 目的の作業 は達成 で きない.目 的 の作 業 は直交座 標 で観測 さ

1この手順はスプライン補間における節点の抽出に類似 している[26,74】

22

一1

㌶0 .102<me惣>

3

".。。61侮a論

逢3。 鵬 伽t謝

一〇.121(rne腰 》

Zo .141〈 劉a¢ter)

3

(散 ・歪

一〇.568く 菌e一一34 ,65(deq)

期 謝一38 ,91{doq}

醤」_噂 幽' 匹

iIl.s6鯛 《de亭)

0(sec.)1-1

lx

㊦隔 噸ど

3

』 噸鯛 瀬

z

①隔r4〕

P

o.102(rne象er>

備o .06亀 笛e

O483くrr醤 圭eF)狽

3

'営

一〇.12零me重 厳

141(meter)

2-0566鵬

』 ㊥構 蓼

鱒34β5漉

顎 ヘヂ)一38 .9肇{おPl顛 幽

0(sec.)1-1

一s6 .54'de

O(sec。)箋

図2.8:経 由点抽 出過程.丸 は経 由点,実 線 は被験者 の運動軌 道,点 線 は経 由点か ら再構成 され

た最適軌道 をそ れぞれ示す.上 か ら三次元位置 と向 きの ∬,〃,之,φ,θ,ψ成分 をそれぞ れ示す.

23

れるので,抽 出された人間の運動軌道の手先の位置 と姿勢の経由点からSARCOSア ームの関節

角軌道の経 由点を求める・この とき,手 先の位置 と向 きが決まって も腕全体の姿勢はどの よう

にもで きるように,冗 長性のため直交座標から関節角座標への変換は一意ではないので,SAR.

COSア ームの手先が直交座標の経由点で人間のそれと厳密に一致し,か つ関節角の経由点で人

間の関節角 と最 も近 くなるように決める.

ヒト運動軌道から抽出されたN点 の経由点 を関節角度で

θ毛・。(乞==1,2,...,1>P),(2 .6)

直 交 座 標(手 先 位 置 と 姿 勢)で

X専 ・。(乞==1,2,...,/>F)(2 .7)

と 表 す.θ 毛i、は7次 元,X毛i、 は6次 元 ベ ク トル で あ る .SARCOSア ー ム の 順 キ ネ マ テ ィ ク ス

方程 式 を

X=L(θ)(2 .8)

で表す.文,∂ はそれぞれSARCOSア ームの腕の直交座標潤 節鰹 標での状態 を表す.こ の

とき,冗 長性のため直交座標か ら関節角座標への変換は一意ではないので以下のようにする.

∂1、aは

文毛、。一L(∂1、 。)一X毛 、a(2 .9)

を満たす θの うち

llθ毛ゼ ∂1、。ll(2.・ ・)

を最小 にす る もの に決定 す る.言 い換 えれ ば,SARCOSア ー ムの関節 角度 の経 由点 ∂li、を ヒ

トの経 由点 と直交座標 では厳密 に一致 し,関 節角度 では最 も近 くなるように決め る.

上で述べ た方法 を具体 的 にイ ンプリメ ン トす る と以下の ようになる.SARCOSア ームの順 キ

ネマ ティクス方程 式

X=:L(θ)(2 .11)

と広義 ニ ュー トン法 を用 い て[28,39エSARCOSア ームの関節 角の経 由点 ∂li、を得 る.

π+1∂1ぬ一η∂1血+」 †(π∂1娼){X毒 ゼL(・ 剃(2.・2)

ただ し,左 上 の添字 η は広義 ニュー トン法 の繰 り返 し回数 を示す .」 †は特異点低感度 運動分解

行列[67]

」†(θ)一(∂L(θ)/∂θ)†(2 .13)

を用いた・こ9行列は

Il(1一 〃 †ll2+んll」 †ll2(2.14)

24

を最小 にす る.こ こで,1は 単位行 列で ある.こ の式 の第1項 は正確 な逆変換 を求 め る もので ,

第2項 は関節角 があ ま り変 化 しない こ とを求 め る ものであ る.ん はこれ らの二 つ の要 求の重 み

係 数で ある.」 †の正確 な記述 は以下 の とう りで ある.

ここで,JTは 」の転 置行列 を表 す.

ん一{

」†=(JTJ十 κ1)一1」T.

たは以下 の式 に したが って変 化す る.

κo(1一 ω/ωo)2ifω<ω0

00therwise,

ω=det(JTJ).

(2.15)

(2.16)

(2.17)

こ こで ω は特 異姿 勢 か らの距 離 を表 す.特 異姿 勢 とは例 えば肘 が まっす ぐになっ た状 態 で ,

SARCOSア ームの キネマテ ィクス方程式 の逆変 換が存在 しない ような姿勢 で あ る.ωoは 特異

姿勢 の近傍 を表す.SARCOSア ームが特異姿勢 にあ るときは κは κo>0と なる.特 異姿勢 の

近傍 内で ω が大 き くな るにつれ ん は0に 近付 く.ω が 十分大 きい とき,す なわ ち特異姿 勢か

ら充分離 れ てい る ときは 鳶=0と な り,」 †はMoore-Penrose一 般逆行列[71,73】 と完全 に一

致す る.

∂li、の 初期 値 は

o∂1、。一 θ宅、a(2.・8)

とす る.」 †は ノ ル ム最 小 の性 質 を もつ[71,73]か ら,∂li、 は ヒ トの経 由 点 と直 交 座 標 で厳 密 に

一致 し,関 節 角度 で は最 も近 くなる ように決 まる.

2.3.4SARCOSア ーム によるタスクの遂行

抽 出 された ヒ ト運動軌道 の経 由点Xvi。,θvi。 か ら得 られ たSARCOSア ームの関節 角 の経 由点

θ毛i、か らFIRMを 用 いて最適軌道 θ。ptを 再構 成 し,SARCOSア ーム に与 え る関節角 目標軌道

とす る.腕 の ダイナ ミクスが

・ゴ=1ゴ ∂ゴ(2.19)

の ように線形近似 で きる ときは最適 軌道 を生成 す る方法 は二通 りある.こ こで 拶,1ゴ,∂ゴは ブ番

目の ア クチ ュエ ー タによって発 生す る トル ク,リ ンクの慣性 モ ーメ ン ト,関 節 角加 速度 をそれ

ぞれ表 す.ひ とつ の方法 はス プライ ン関数 に基づ く方法 であ る.本 章で採用 した もうひ とつの

方法 で は経 由点 を通 る軌 道 は順 番 に生成 される.式(2.19)で 示 され る ような線形 近似 された ダ

イナ ミクスに対 して最小化原理 を用い る とFIRMで 最適軌道 θ。ptを計算で きる.

図2.9に 手先位 置の軌道 と経 由点 を示す.X,Y,Zは それぞれ右方 向,前 方向,上 方 向が正 と

な る ような座 標 の と り方 を してあ る.丸 で示 され ているのが経 由点で,腕 を上 げ る直前 や上 が

25

謬1 血 讐a雪 凋L㎝ 一銘t臨3i〔 聰 go.o

一 ・……… 旙磁 も磁

=

'一%.oo

i

一18血.oo

τ3㎞e躍aユ 塗〇七atiqn 30.鰭o

一.34'6脳

脚,o.oo

一 ヨlJ5砿i3七 加 七a蔽礁'圃

一41…』 奪

9秘,09

一 、露凝欝 置陥鐡 鰯 欝 …一一 …一 考護器

i一 .

1

ガ磁篤 詣鱗 欝 識 磁 一…一 一 一署1器

■■噌●

〉('

'

■ ●

一45.60

一1o(sec.〉 1

図2.9:ヒ トの腕 とSARCOSア ームの 左:関 節 角の軌道,右 図:SARCOSア ームの手先 の三次

元位 置 と向 きの軌道.X,Y,Zは それぞれ右 方向,前 方 向,上 方 向が正.丸 は経 由点,実 線 は最

適 化原理 に よって再構成 された 目標軌道,点 線 はSARCOSア ームに よって実現 され た軌道 をそ

れぞ れ示す.ノ

26

り切 った ところな どの運動 の特徴 を良 く表す ところに経 由点 が選 ばれ てい る.実 線 は最 適化原

理 によって再構 成 され た 目標軌 道で,点 線 はSARCOSア ームに よって実現 された軌道 をそ れぞ

れ示す.SARCOSア ームは フィー ドバ ック制御 だけでな く逆 ダイナ ミクス を用 いた前 向 き制御

も行 われ てい るが,ケ ン玉運動 がか な り速 い運動 で あ るため と,精 度 の高 い前 向 き制御 が 困難

であ るため,実 現 され る軌道 は 目標軌 道 とか な りずれ てい るこ とが分か る.

図2.9左 の丸 は始 点 と経 由点 と終点,薄 い実線 はけん玉遂行 中の ヒ ト関節角軌道 を,濃 い実線

は経 由点 か ら再構 成 され たSARCOSア ーム に与 える最適軌 道 θ。ptを,点 線 はSARCOSア ーム

によって実現 され た関節角軌 道 θrea1をそれ ぞれ示す.図2.9右 の実線 はSARCOSア ーム に与

え る関節 角軌 道 か ら順 キネマ テ ィクス方程 式 を用 い て求 め た手先 の位置 と向 きの軌 道 を示す 。

順 キ ネマ テ ィクス方程 式,順 ダイナ ミクス方程式,お よび逆 ダイナ ミクス方程 式 は回転行 列 を

用 い る方 法で解 い た[13,88,31].ヒ トの手 先 の位 置 と向 きの軌道 はSARCOSア ー ムの軌 道 と

ほぼ重 な ってい るので,図 で は区別 出来 ない.点 線 はSARCOSア ームの関節角実現軌 道か ら順

キネマテ ィクス方程式 を用い て求 めた手先 の位 置 と向 きの軌道 を示す.SARCOSア ーム は前向

きとフィー ドバ ックの制御 が行 われ るが,図2.9か ら分か る ように,実 現 される軌道 は 目標軌道

とは完全 には一致 しない.

2.3.5タ ス ク の定 義

前節 で得 られた関節角 の 目標軌 道 をそ の まま用 い る,(つ ま り人 間のけん玉運動 を単 に まね し

た)だ けで は,図2.14(学 習前 の けん玉 の試行)に 示す ようにSARCOSア ーム はけん玉 に成功 し

ない.SARCOSア ーム にけん玉 を成功 させ る ようにす るため,タ ス クレベ ル学習 の概念 を導入

した.Aboafら は下位 の レベ ルのモ ジュールが完全 で な くともタス ク レベルで学 習 を進 め るこ

とがで きる こ とを示 した[1】.こ こで は まず最初 に,よ り直観的で直接 的 な タス ク変数 の定 義 を

示 し,つ ぎに よ り実際 的 なタス ク変数 に定義 しなおす.

けん玉の成功 のため に重 要であ る と考 え られ るタス ク表現 丁 を以下 に示 す.実 現 タス クと目

標 タスク を

Tint=

丁謡i,ed=

〔1〕,

Gi〕

(2.20)

(2.21)

の よ うに表現 ず る.こ こで(魂,岨,z詮)Tと(嬬,露,之 藍)Tは ボールが受 け皿 の高 さ まで落 ち て来

た ときの ボールの位 置 と受 け皿の位 置 をそれぞれ示 す.こ の とき 之畠Tニz髭)Tで あ る.図2.3.5

27

b

z↑

x↑ぜ

cuppos.tral.

一_一 ■一

ballpos.tral.

,ノ へ亥㍉

、 C

呼^b

κP

/へ 噂、

C

ノ 艦一

、/κf

\κb巧7

P

、b

〆 縮、

∫f㌔ ∫h

ナtlme

図2.10:タ ス ク表現 の模 式図.実 線 はボールの位 置の時間変化,破 線 は受 け皿 の位 置の時 間変化

をそれ ぞれ表 す.コ び,zは 三次元位置 の左 右方 向(右 方 向正) ,上 下方向(上 方 向正)を それぞれ示

す.yは 省 略 して ある.オf,ち,オhは ボールが 自由落下 を始 めた と き,ボ ールが最 も高 く上 が っ

た と き,ボ ー ルが受 け皿の高 さまで落 ちて来 た と きの時 間 をそれぞれ表す .増,砦 はボールの

初期位 置, .坤,堵 はボールが 自由落 下 を始 めた と きの位 置,嘘,窄 はボールが最 も高 く上 が っ

た と きのボ ールの位 置,魂,零 はボールが 受 け皿 の高 さ まで落 ちて来 た と きの ボール の位 置,

ω且,婿 はボールが受 け皿の高 さまで落 ちて来た ときの受 け皿 の位 置 をそれぞれ表 す .舘 はボー

ルが受け皿の上にちょうど落ちるようになるための目標位置 を表す.

28

に ここで用 い るタス ク表現 の模 式 図 を示す.し か し,こ の タス ク表現 をその ま ま用 い る と以下

の ような不 都合が生 じる.

● ボールの飛 ぶ高 さを表 現 していない.

● ボールがSARCOSア ームや けん玉の けんの影 に隠れて ,三 次元位 置計測装 置で ボールの

位置 の計測が不可 能 とな る場合が ある.

そ こで,基 本 的 には上 の タス ク表現 と同等 であ るが,よ り実際的 な タスク表現 を以下で考 える.

タス ク変数TP「 ㏄ をボールの初期位 置 と最 も高 く上が った ときの距離 とす る.

T一』一〔斐2萎〕・(2・22)

ここで@ぎ,〃 畠zめTは ボールの初期位置,(娼 露,之言)Tは ボー ル最 も高 く上 が った と きの ボー

ルの位 置 をそれぞ れ表 す.し たが って上記 の タス ク変 数TP「acは ボールが最 も高 く上 が った と

きの初 期位 置か らの左 右,前 後,高 さのずれ をそれぞれ表す.Tを けん玉成功 に近付 けるため

には,ボ ー ルが 適切 な高 さに上が り,受 け皿 の中 に ち ょうど入 る ような角度 で投 げ上 げ られれ

ば よい.し たが って タス ク目標Tdesiredを 以下 の ように した.

噛 一〔蝦1謄 〕,圏

鋸=堵+@卜 ・セ)・、,(2.24)

ρ言 二 〃ぎ+(cb〃h一 ツf)・、,(2.25)

ち 一 オf(2.26)Tt:= オ

h一 オf'

ここで 魂,鑛 は ボールが受 け皿 と同 じ高 さまで落 ちて きた ときの受 け皿 の位 置 を表 す.峠,廃

はボールが引 き上 げ られ て,自 由落下 を始め た ときのボールの水 平位 置 を表す.オf,ち,オkは ボー

ルが 自由落下 を始 め た とき,ボ ールが最 も高 く上 が った とき,ボ ー ルが受 け皿 と同 じ高 さまで

落 ちた ときをそれぞ れ表 す.ボ ールが 自由落下 の状 態 にあ る ときは ∬,ッ平面 内で直線 の軌跡 を

描 くので,線 形補 間 を用い るこ とがで きる.Tε 譜edの 之成分,す なわち高 さに関 しては,ボ ー

ルが適 当 な高 さに上 が るよ うに定数 を設定 した.本 実験 では0.5~0.8mに 設定 した.

29

2.3.6経 由点 修 正

本 実験で は,学 習 スキーム と して広 義ニ ュー トン法 を用 いた.!V個 の経 由点 の集合 を

S={X毒ia,X奪ia,…,X認a}

とす る.π 回 目の学習 での経 由点の修正 は

Sη+1=Sπ 十 ,(∂Tπ/∂Sπ)孝Tgain(T霞 ξ器ed-T£ 「ac)

とな る.こ こで#は 単 純 正則 化 一 般 逆 行 列[71,73]

(∂T/∂S)幸=、4孝 ・=(.4T、4十 ん1)一1、4T

を用 い た.こ れ は

ll∫一 ん4#ll2十 ん1レ4#li2

(2.27)

(2.28)

(229)

(2.30)

を最小 にす る逆変 換行列 で あ り,第1項 は逆 変換 が正確 に行 われる こ とを要求 し,第2項 は一

度 の修正が大 き くな らない こ とを要 求す る.本 実験 では安全 のためk==1 .0と した.Tg。i、 は,

けん玉運 動 で は前後左 右 の運動 に比べ て上 下方 向 の運動 が大 きいの で誤差 の収 束量 をそ ろえ る

ため に付 加 した もので,

T・… 一(0.20001.00

001.0)(2・3・)

の よ うに設定 した.手 先位置 の経 由点の初期値 は ヒ トのけん玉運動軌道 か ら抽 出 した経 由点

So={Xξia,X3ia,…,X調a}

と した.

∂Tn/∂Snを 解 析 的 に求 め る ことは困難 なの で,Soの まわ りで各 経 由点 を+△X毛,、お よび

一△X毛i、ずつ動 か した時のT.alの 変化 △Trealを 観測す るこ とに よって求 めた

△T,ealT主 。1-丁 晃。1

△xt、。=2△XC、a(2・32)

で代用 した.こ れは タス クを経 由点 で数値微分 した もの とな り,各 学 習毎 に得 られ た軌 道 文。i、

の まわ りで毎 回測定 す る こ とが望 ま しい.し か し,各 学 習毎 に毎 回測定 す るに は非 常 に多 数 の

試行 が必 要 とな り,現 実 的で ない.し たが って,こ こで は最初 の動 きが最 適 な動 きに充分 近い

もの と仮 定 して,す べ ての学 習 に上 で求 め た もの を用 いた .各 経 由点 の うち,数 値微 分 を求め

たの は三次元位 置 のみで,手 先 の向 きに関 して は修正 を行 わない もの と した .第6,7番 目の経

由点 は落 ちて く/るボ ール を受 け止 め る付近 で あ り,こ れ らの経 由点 を修正 す る と学 習の収 束がノ

非常 に遅 くなっ たので第6,7番 目の経 由点 に関 して も修 正 を行わ ないこ ととした .

30

図2・11:QUICKMAGの カメ ラ部(応 用計測株式会社製).

図2・12:QUICKMAGの コン トローラ部(応 用計測株式会社 製).

31

じ曜、

妻轟

.~

癖灘

.∵

・ハ・懲

サ謎

齢∴いギ

$、"

FF㌔

'巷

いこ

隔懸噺懸

撃一

 

晶獄

冊欝噂黙

,.欝

,、

(

ザ薮

リゾ

ぜド

磁繍

㌔ポ

痴ド

耀鞘

L

T、舞

卓ガ

ミ 

ぞモせか

、樋、

'論

アナ

い冠

い毒

"

鱗 ㌦麟曹

亀,轡網

欄響

㌶ 轡鍔愚

.騨、縮懸

簿

「夢織唖 購

"

㍉噛

甑鍔

,、

η,、》

、凝

.岡…撃

, 驚

蟹諜灘窯

・邑卯

・圃

.

"

∬占

p

、盈

ヤま

げき

.毒

、慧

"

ノミ

喧騨 ド .・べ ・・麹 ・熱 ズ ン》 護搾F!  汽

弊 謡雪 賑 冠 恥 ゼ.裕 畷 卿 畷・

∴諺轟な  や げ ホい   へこちぢモ モ を え ロぶゆ

:警野 ㌧議 一ぞ 辮≧擁 門 、漏,・歪騨 、.レ 認{

響讐為!誕ご魂贈 く婁鎚 嘘 舅,魔諜 淑 痢 二」 阿 ㍉∵.二tt

ぴけ へり お ン セ  ウお

筆 轡

鷲ン鷺 ∴ ∵:嘉1。配

=1

毫⇒ 墜

轡㎡撫 瀞 ・魔

:、騨魑1縷

凱 ・・ボ ・ 曇 岬

勇蜘 輯 冗盛導 ・、・ 轟,贈

馨 蓮

覇鰯`le:無 ・1蜘

ぼピ

'鉱 爵野'

離 曳

難 睡 働 メ ー繍 響'舗 轍

。澱 〆 羅

飾 ∴ 轡

∵ ∵タ 曳晒

、・二∴ 曇:・

纏 響 影奮 ボ'

き ご に

ウ∴二 ∵ ・

 ツ

 

りじ

 

ゆ ドや

、萄

.

・ド

、ご

ぢヤ

灘灘賦

識 」{、

、薪∴㌻嘩陣 ・!

ご擁

罪程蝋瀞 い 螂 モ瓢 ン ψ 享

図2.13:SARCOSア ーム の手先 に固定 した け ん玉.け ん は動作 終 了 時 の姿 勢 で受 け皿 が ほ

ぼ水 平 に な る よ うに小 さい万 力 でSARCOSア ー ムの手 先 に固定 した.受 け皿 の三 次 元位 置

をQUICKMAGで 測定 す るため に緑色 の マー カーが けん に付 け られ てい る.ボ ー ルの 直径 は

58mm,受 け皿の直径 は33mmで ある.

32

2.3.7SARCOSア ームに よるけん玉学習

実験 に用 いた けん玉 は木 製でボールの直径 は58mm,受 け皿 の直径 は33mm,糸 の長 さは395mm

で ある.け んは動 作終了時 の姿勢で受 け皿が ほぼ水平 になる ように小 さい万力でSARCOSア ー

ム の手 先 に固定 した.図2.13にSARCOSア ームの手 先 に固定 した けん玉 を示 す .SARCOS

アームで遂行 中のけ ん玉 の受 け皿 の位 置 とボールの位 置の軌道 はQUICKMAG(応 用計測株式会

社 製)と 呼 ばれ る三次元位 置計 測装置 に よって計測 した.こ れ は図2.11に 示す二 つの カメ ラか

ら得 られた画像 か ら,特 定の色の面積重心 の三次元位置 を求 める装置 で,サ ンプ リングは60Hz,・

精度 は数 ミリ程 度 であ る.本 実験 で は赤色 の ボール を用 い,受 け皿 の近 くに緑 色 のマ ー カー を

張 り付 けた.計 測 されたボール と受 け皿の三次元位置 はパ ラレルポー トか らSARdOSア ームの

コン トロー ラに送 られ,500Hzで サ ンプ リングされた後 ,遮 断周波 数5Hzの バ ターワース低域

通 過 フ ィル タ を通 して軌 道 デー タと して得 られ る.得 られた受 け皿 とボ ールの位 置 の軌 道か ら

手先位置 の経 由点)蔦 、を式(2.40)に 従 って修正 す る.

図2.14に 学習前 の けん玉の試行 を示す.図2.14上 におい て,実 線 はボールの三次元位置 を ,

点線 は受 け皿 の三次元位 置 をそれぞれ表す.図2.14下 にお いて,左 は前 面 か ら,右 は左側 面 か

らみ たSARCOSア ームの動 きとボールの動 きを示す.ボ ール と受 け皿の位置 の軌 道 はQUICK.

MAGに よって計 測 され た もので,SARCOSア ームの動 きは関節角実現 軌道 か ら順 キネマテ ィ

クス方程式 を用 いて腕 の姿 勢 に変換 した もので ある.SARCOSア ームの手先 の軌道 は ヒ トのそ

れ と近 い もの とな ってい るが,前 向 き制御 に用 いた逆 ダイナ ミクス とフィー ドバ ック制御 の不

完全性 や けんの握 り方の違 い等 に よってボールが うま くあが らず,け ん玉 は成功 しない.

図2.15に7回 学習後 のけ ん玉 の試行 を示す.ボ ールが適切 に上が って,け ん玉が成功 す る よ

うにな ってい る.こ こで 学習 を止 め,同 じ目標 軌道 を用 いてけん玉 を試 みる と10回 に数 回程度

の成功率 が得 られ た.

33

x

働5働

o.409

一〇.400

Y 1』00

■需

騨 軸

o.2懸 口2

■露脚

■ 燭

膠日 曜・・巳■口

o.3麟G

一1 .000

塵 置 匪一1 0(sec.) 等

図2.14:SARCOSア ーム による学習前 のけん玉の試行 .上:実 線 はボールの三 次元位置 の時 間

変化,破 線 は受 け皿 の三次元位 置の時 間変化 をそ れぞれ示 す .ω は右方 向正,〃 は前方 向正,

zは 上 方 向正 を表す ・ボー ル と受 け皿 の三次元位 置 はQUICKMAGに よって計測 された.縦 軸

の単位 はメー トル.下:SARCOSア ームの姿勢 の三次 元表示.細 い線 図は初期姿 勢,太 い線 図

は最終姿勢 をそれ ぞれ表 す.大 きい丸 はボール を表す .小 さい丸 はSARCOSア ーム の各 関節 を

表す.SARCOSア ームの姿 勢 は順 キネマ ティクス方程式 を用 いてSARCOSア ームの実現 され

た関節 角軌道 か ち計 算 した・ボールの三次元位 置 はQUICKMAGに よって計 測 され た.

34

x

口o層

8邑一

曹鴛闘昌

●一 一.......

".400

一 一 一 ■ 巳 冒 圃 馬 嘱 層.τ 『刀 賜 置 層 ■甥 ■ 胃

r

冨 礪 ■

;韓 ・400Y

一1.00G

一 ■ ・-■ ■ 朋 ■■響●匿騒L. 一 一一 一

o。200

2

9零 閾耀劇

o.300

麗 鯛 醐 廊露露開 ・璽珊 ・開 騨、欄 鱈厘

瞳8瞬 饗賜薗綱ロ

68醐 耀照 陶暫師 鯛

一1.000.

1 1..

弓 0(sec。) 1

㎜ ㎜

樋…

1.雪←」

s巫3£VI鼎

・し 』

著こ

JT←」

図2.15:SARCOSア ー ムによる7回 学 習後 の けん玉の試行.図 の説明 ほ図2.14を 参 照.

rダ.

35

2.4SARCOSア ームの数値 モデル による けん玉運動学 習計算機 シ ミュ レーシ ョ

本節 で は,抽 出 され た経 由点が タス ク表現 と して適 切 な もので あ るか を検 討 す る.実 機 を用

いたので は、 どの ような動 作 とな るか予測 で きず危 険 であ るため、計 算機 シ ミュ レー シ ョンを

用い る.SARCOSア ームの数値 モ デル によるけん玉運動学習計算機 シミュ レー シ ョンの概 略 を

図2.16に 示す.

2.4.1SARCOSア ーム とけん玉 の数値 モデル

こ こで 制御 対象 を ヒ ト腕 と同 じ7自 由度 を持 つマ ニ ピュ レー タとす る.数 値 実験 で はSAR-

COSDextrousSlaveArmの 数値 モデル を用 いた.

け ん玉 の ボー ル と受 け皿 を数値計 算 に よ り詳細 に求 めた研 究が あ るが[19],こ こで は けん玉

のボールの軌道 は以下 に示す ような簡単 な質点系 の力学 モデル を用 いて求めた.

"FII一 ㈲ 一{1ぐ(Z-Zo)ifZ≧ ♂00。th,,wi,e,(2・33)

Z=(・ ・ 一 ¢)2+(〃 ・一 〃)2+(・ ・一 ・)2,(2.34)

幡=一 ん=一 剛(・ ・一 ¢)/Z,(2 .35)

mρ=一 ル=一IIFII(〃 ・一 〃)/Z,(2 .36)

mを=一 かmg=一1剛(・ ・一 ・)/卜mg,(2.37)

こ こで κ は 糸 の弾 性 係 数 を表 す.Fは 糸 にか か る力 の ベ ク トル を表 す .♂ とZoは 糸 の 長 さ

と,自 然 長 をそ れ ぞ れ表 す.賜,〃h ,Zhは け ん に取 り付 け られ た 糸 の根 本 の 三 次 元 位 置 を表 す.

㎜ はボ ー ル の 質量,gは 重 力 加 速 度 を表 す.ω ,シ声 はボ ー ルの 三 次 元位 置 を表 す.m記,m雪,mを

は ボ ー ル の 加 速 度 を表 す.こ れ らの 方 程 式 は オ イ ラ ー法 で 数値 積 分 され る .時 間 刻 み は2msと

した.

2.4.2タ ス クの表現 と経 由点修 正

実現 され た タス ク をTで 表す.け ん玉 の成功 の ため に重要 と考 え られ る タス ク表現Tを 以

下 に示す.

/T一 ㈱ ・ 似38)

36

OPTOTRAK

圃愈

hurnanhand頃edory

..、

Jolntanglehandpcs繭on

lnverseKinematics

"i

θ 。i。

迭畏搬nFIRM

,ぎMa-POInお

pir忙angles

θ。i。

鯵L

handpos薗on

ゾ 輪X。ia

圃edory

foma麺on

FIRM

θ 。pt

VIεレPOInt

mod醐on

㈱#

desired

臨 ッ

θ,ea1

為 ・ 、x㎞11

cupPos・t周 ・ba闘pos、t同 .

L

Xhand

re創ized

鵬 。ツ

simpl鵬dKendamad噸m℃smodeI

lnverseK

Dynambs

oommandtorque

麗餓甥艦

・ 図2.16:け ん玉 学 習 シ ミュ レー シ ョンシ ス テ ム の模 式 図 .

37

ここで βp。ak,∬peak,ッp。akはそれぞれ ,ボ ールが最 も上 が った ときの初期位 置 か らの高 さ,左 右

のず れ,前 後 のず れ を表す.Tを けん玉 成功 に近付 け るため には,ボ ールが適切 な高 さに上が

り,受 け皿の 中心 にち ょうど入 る ような角度 で投 げ上げ られれ ばよい .Tを タス ク目標Tdesired

に近付 け るため に,本 数値 実験で は学習 スキー ム として広義 ニ ュー トン法 を用 い た .!V個 の経

由点:の集合 を

S={鴎i。,文 彰、。,…,瑠a}、(2.39)

とす る.

π 回 目の学 習 で の 経 由 点 の修 正 は

S・+・ 一S・+(∂T・/∂S・)孝 丁、…(Tdes・red-T。)(2 .40)

とな る.こ こ で#は 単 純 正 則 化 一 般逆 行 列[71]

(∂T/∂S)#=孟#=(胸+ん1)一1∬(2.41)

を用 い た.こ れ は

III一 舶#ll2+ん1幽12(2.42)

を最小 にする逆変換行列であ り,第1項 は逆変換が正確 に行われることを要求 し,第2項 は一

度の修正が大 きくならないことを要求する.本 数値実験では ん=1.0と した.Tg。i、 は,け ん玉

運動では前後左右の運動 に比べて上下方向の運動が大 きいので誤差の収束量 をそろえるために

付加 した もので,以 下の ように設定 した.

隔 一(穿 ÷11>(243)

手先位置の経 由点の初期値 はヒ トのけん玉運動軌道か ら抽出した経由点

S・ 一{X毒ia,X診ia,…,X認a}(2 .44)

と し た.

∂Tπ/∂Sπ を解析 的 に求 める ことは困難iなので ,Soの 振幅 を α 倍 した軌道 の まわ りで各経 由

点 を+△X毛i、 お よび 一△Xξi、ずつ動か した時 のT,副 の変化 △Trealを 観測す る こ とに よって求

めた

△TrealT毒 。rT晃 。1

△X宅 、。=2△X毛 、a(2・45)

で代肌 た・r抑 タスクを勧 点で数値微分 した ものとな り,各 学習毎に得 られた軌道 文。、、

の まわ りで毎 回測定することが望 ましいが,Soの 振幅を α倍 した軌道が最適な動 き1ご充分近

38

い もの と仮 定 して,す べ ての学習 に上で求 め た もの を用 い た.ボ ールが上 が る とき,最 も高 く

上が りきる前 にSARCOSア ームの腕部 分や受 け皿 な どに当 たって しまう と正確 な △Trealが 得

られ ないので,α はボールが受 け皿 よ りも十分低 い高 さに上が る ように決め た.各 経 由点 の う

ち,数 値微 分 を求 め たのは三次元位 置 のみで,手 先 の 向 きに関 して は修 正 を行 わ ない もの と し

た.

2.4.3複 数 の 被 験 者 の デ モ ンス トレー シ ョン

図2.17に 学 習前 のけ ん玉 の試 行 を示す.図2.17左 はボ ール と受 け皿 の三次元位 置 の時 間変

化 を表 す.図2.17右 の左 は前 面 か ら,右 は左 側面 か らみたSARCOSア ー ムの動 きとボー ルの

動 きを示 す.SARCOSア ームの手先の軌道 は ヒ トのそれ と近い もの となってい るが,前 向 き制

御 に用 い た逆 ダ イナ ミクス とフィー ドバ ック制御 の不完 全性 や けんの握 り方の違 い等 によって

ボールが うま くあが らず,け ん玉 は成功 しない.図2.18に5回 学習後の けん玉の試行 を示す .

ボールが適切 に上が って,け ん玉 が成功 す るようになってい る.

図2.19,図2.20に 別 の被 験者が行 ったけん玉運動 デー タを用 いた5回 学 習後 の けん玉 の試行

を示 す.図2.19で は けん玉成 功 に至 ってい るが,図2.20で はけん玉 は成功 してい ない .ボ ー

ルが受 け皿 の真 上 に落 ちて くる とい うタス ク 目標 として はほぼ収束 してい る ものの ,ボ ール を

受 け止 め る時刻 での ボール と受 け皿 の相対 速度が 大 きす ぎるため,ボ ールが受 け皿 の外 へ こぼ

れて しまっ てい る.ヒ トのけん玉運動 軌道 デー タを収集す る際,成 功 か失敗 か の情 報 は記録 し

てい ない が,も との ヒ トの試 行 でけ ん玉が成 功 してい ない もの と思 われ る.同 じ被 験 者で,け

ん玉が成功 した と思 われ る別の デー タを用 いる とSARCOSア ームで も成功 した .も との ヒ トの

試行で けん玉が失敗 した場合の デー タで も学習 によ りSARCOSア ームにけん玉 を成 功 させ るに

は,ボ ー ル を受 け止 め る時の ボール と受 け皿 の相 対速度 を小 さ くす る とい うタス ク目標 を新 た

に設定す る必 要が ある.

2.4.4経 由点 の数 を変 えた場合

経 由点の個数は少 なす ぎると観測 されたヒ ト腕の運動 と再構成 された最適軌道の誤差が大 き

くな り,も との ヒ ト腕の運動軌道を精度良 く近似で きない.逆 に制御すべ き経 由点の個数が多

す ぎると問題が不必要に複雑 になる.こ れ までは,経 由点の個数 を7に 固定 していたが,7個

が最適であるとは限 らない.本 節では経由点の個数を変えた場合を調べる.

経 由点の個数が4個 の場合を図222左 に示す.ボ ールが上がる途中で手先に当たって しまい,

けん玉は成功 に至 らない.上 がって くるボールを避けるために手先 を右@の 正方向)に 振 る動

作が うま く再現 されていないからと考 えられる.

経由点の個数が5個 から9個 の場合は5回 以内の学習で,い ずれ もけん玉成功に至っていた.

39

X o.6{聡

Y一1。

o.細8

⑰.0002 0.30駐

.ゆ

4.190

一1 0(sec.) 等

図2.17:学 習前 の けん玉 の試行,被 験者H.M..上:実 線 はボー ルの三次元位 置の時 間変化,破

線 は受 け皿 の三次元位置 の時 間変化 をそれぞれ示す.∬ は右方 向正,〃 は前 方向正 ,β は上方

向正 を表 す.縦 軸 の単位 はメー トル.下:SARCOSア ームの数値 モデルの姿 勢の三次元表 示 .

細 い線 図 は初期 姿勢,太 い線 図 は最 終姿勢 をそれぞれ表 す.大 きい丸 は ボール を表 す .小 さい

丸 はSARCOSア ー ムの各 関節 を表す.

40

x 0.608

一一〇.200

YO.800-0、00

2 o.300

一1 .100

一1 0(sec.) 1

脳 避1胃 煎

、 葬

i↑5

←  」

s1BεVI甜

診づ

1公←」

図2.18:5回 学 習 後 の け ん 玉 の試 行,被 験 者H.M..図 の 説 明 は図2.17を 参 照.

41

XO 、609~一B ,朋9

Yo .39駐一o.⑰3群

2

6.300

4.18B

一1 0(sec,) 1

FR㎝ 『㎜

…診 ↑

← 。一」

s切EV工 願

ξ

i

㊧←」

図2.19:5回 学 習 後 の け ん 玉 の 試行,被 験 者H.W..図 の 説 明 は図2 .17を 参 照.

42

._㎞

,鱒'・ ・。.

'㌔ ・・... .一

o.600

'

:謡 。

0.800

.一麹冬難嘔飴6 ⑪

o,登 麟o2

'

註 .NL論

0.300

⑳ 碧 蚤  \ フ

一1 .100

舞 曇 藍

一1 0(sec.) τ

㎜ ▼1瓦暫

}

湖 ↑ヱ

← 。」

鋤 £VI珊

⑤←.」

図2.20:5回 学 習 後 の け ん玉 の 試 行,被 験 者R.0..図 の説 明 は 図2.17を 参 照.

43

X㌔O.600

嫡 論

YO .809一ゆ   ロ

z・ ∵

一1.19

-10(sec 。)1

図221:経 由点の数 を4個 とした場合 の学習後 のけん玉 の試行.図 の説明 は図2 .17を 参照 。

XO.EOO

鷲殉

一〇.206

Y o.09

iジ

o.oo6

20,300

-4.100

-10(sec .)1

図2.22:経 由点 の数 を11個 と した場 合 の 学 習 後 の け ん 玉 の 試 行.図 の説 明 は図2 .17を 参 照.

44

x o.600

一一〇.2BO

Y懸.$80一o.ooo

2 o.300

鴇}

一1謹oo

一1 O(sec.) 1

図2.23:経 由点 を等 時間間隔 に した場合 の学 習後 のけん玉の試行.図 の説明 は図2.17を 参照 .

,1 0(sec.) 1

図2.24:経 由点 を等 時間 間隔 に した場合 の学習後 の けん玉 の試行.経 由点 の数 を増 や した場合

の学習後 のけ ん玉の試行.図 の説 明 は図2.17を 参照.

45

経由点の個数が10個 の場合はけん玉成功 に至 っていたが,学 習回数は10回 必要 とした.

経由点の個数が11個 の場合 を図2.22右 に示す.目 標軌道が ぎざぎざになって しまい,実 現

軌道の誤差 もかな り大 きくなっていてけん玉は成功 しない.原 因は未検討であるが,∂Tπ/∂S.

を求める際Soの 振幅 を α倍 した軌道のまわ りで求めたので,正 確 な ∂Tπ/∂S.で ないことが考

えられる.ま た個々の経由点が互いに独立でな く互いに干渉 してお り,経 由点の個数が多すぎ

ると時間的に隣あ う経 由点 どうしの時間間隔が狭 くな り,経 由点同士の相互作用が無視で きな

くなった可能性 もある.

.経由点の最適 な個数 を決定する合理的な方法 は検討 していないが,タ スク成功のために要求

される制御 と測定の精度 と,も との ヒ トの運動軌道 と再構成 された最適軌道 との誤差等 を考慮

に入れて経 由点の最適な個数 を決定渉る必要があると考えられる.

2.4.5等 時 間間隔の経 由点 の場 合

FIRMで は,も との ヒ トの運動軌道 と再構成 された最適軌道 との二乗誤差の大 きい時刻付近

で経由点が抽出される.本 節ではFIRMの 経由点抽出方法が有効であるかどうかを検討する.

図2.23に 等時間間隔で経 由点を抽出 し,経 由点の個数 を7個 とした場合 を示す.上 がろうと

するボールを手先が よけ切れずけん玉は成功 していない.

図2.24に 等時間間隔で経由点を抽出し,経 由点の個数 を9個 とした場合を示す.こ の場合に

はけん玉は成功 に至っている.

等時間間隔で経 由点を抽出 した場合,FIRMで 抽出 した場合に比べて経 由点の個数が多い場

合 はけん玉 は成功 している.し か しFIRMで 抽出 した場合 と同程度の経由点の個数の場合はけ

ん玉は成功 しない.

今回の実験では測定 したヒ ト腕の運動軌道データを手先が最 も高 くなる(之 正方向のピーク)

時刻が運動時間全体の中心 になるように揃 えている.し たがって,経 由点 を等時間間隔で抽出

した場合,経 由点の個数が偶数ではもとの ヒ トの運動軌道からの誤差が大 き くなる.上 の理由

か ら,経 由点の個数が偶数の場合は学習不可能であった.経 由点の個数 を9個 とした場合 はけ

ん玉は成功 している.こ の場合は,た またま運動の特徴 をよく表す時刻の近傍 に経 由点が選 ば

れたと考 えられる.

2.4.6経 由点 による タス クの可操作性

本研究では経由点 を制御変数 とみな しタスク目標の達成 を試みているが,操 作能力のひとつ

の目安 として

〆detA/1T(2.46)

46

表2.1:各 条件 での可操作度.

経由点の個

》detん4T

FIRM 等時間間隔

3 0.09 6.61

4 102.99 0.00

5 62.63 51.35

6 93.87 0.00

7 43.33 46。36

8 41.60 0.46

9 73.30 39.21

10 40.34 723

11 99.49 78.67

倉壼薯2と

8

lRM

eqU卜timeintervalS

Numberofvia-points

図2.25:各 条件 で の 可操 作 度.

47

を経 由点 による タス クの可操作 度 と考 える こととす る.た だ し孟=∂7b/∂ θoで あ る.det.ん4T

の値 が大 きいほ うが タス クの操作 性が高 い と考 え られ る.表2.1に 各 条件 で のdet.4、4Tの 値

を示 す.

FIRMを 用 い て経 由点 を抽 出 した場合,経 由点 の個数 が3個 の場 合 は可操 作度 が非 常 に小 さ

い値 となっ てい る・経 由点 の個 数 が少 なす ぎて もとの ヒ トの運動軌 道 を よ く再現 で きず,経 由

点 を修 正 して もボー ルの動 きを制御 す る こ とは非常 に困難 であ る.ま たdet.ん4T1の 値 が非常

に小 さい ので・式(2・40)の 単純 正則化 一般逆行 列 におい て,逆 変換 が正確 に行 われ ない .上 記

の理 由か ら,経 由点 の個 数が3個 の場合 はけん玉 を成功 させ る学習 が不 可能 で あ る.経 由点 の

個 数が4個 の場合 は可操作 度 が大 きい値 とな って いて,ボ ール をうま く上 げる とい うタス ク 目

標 そ の もの は うま く学習可 能 であ る.し か し,も との ヒ ト運動軌道 の うち手先 を左(∬ の負 方

向)に 振 る動作 が うま く再現 されず,け ん玉 は成 功 しなか った.経 由点の個数 が5個 か ら10個

の場合 はけん玉 成功 に至 ってい た.経 由点の個数が11個 の場 合 は可操作度 は高い数値 を示 して

い る もの の,学 習の結果 得 られ た 目標軌 道が 振動 して よい制御 が で きず,け ん玉成 功 に至 らな

か った.こ れ は経 由点の個 数が必要 以上 に多す ぎ,高 精度 に ∂7聡/∂51.を求め られ なか ったこ と

等 の理 由が考 え られ る。

今 回の実験 で は前節 で述 べ た よ うに,経 由点 を等時 間間隔 で抽 出 した場 合,経 由点の個数 が

偶 数 では もとの ヒ トの運動 軌道 か らの誤差 が大 き くなる.こ の こ とは,表2.1に 示す よ うに経

由点の個 数が偶数 の場 合 は可操作度が極端 に小 さ くな ってい るこ とに表れてい る.

以上 の結果 か ら,FIRMに よって抽 出 され た少数 の経 由点 は運動 の特徴 を よ く表現 してい る

もの と考 え られ る.

本章 で は,最 適化 原理 に基づ く運動パ ター ン認 識 の理 論が ロボ テ ィクス にお ける見 まね に よ

る運動 学習 に適用 で きる こ とを示 した.本 実験 で は本方 法 の可能性 を調べ るため に けん玉 運動

を採用 したが,次 章で は よ り複雑 な タス クと してテニスサ ーブを採 り上 げる .

これ まで は視 覚 フィ ドバ ックを積極 的 には用 い ていない ,す なわ ち,一 回 の試行 を行 な った

後,オ フライ ンで タス ク誤 差 を計 測す るた め にのみ視 覚 フィ ドバ ックを用 い て きた.人 間が け

ん玉 を行 な うと きに は,玉 が飛 んでい る間 に視 覚 による情 報 を用 いて玉 を受 け止 め るため の軌

道 を修正 してい る.生 物 はこの ような修正 を どの ように して行 なっでい るので あろ うか?サ ル と

人間の腕 の到達 運動 に関 して さまざ まな研 究が行 なわれ てい る(例 え ば[21D.ま た到達 運動途

中で 目標 が突然 変更 され た時の応答 を説 明す るための理論 的 なモ デル もい くつ か提 案 され てい

る(例 え ば[51,16,14,25,32D.こ れ らの理論 的な研 究の成果 を,視 覚 フ ィー ドバ ックを我 々の

モ デルに組 み込 む ことが今後必 要 と考 える.

48

第3章

連続運動への拡張

3.1は じめ に

本研 究 では,抽 象的表現 と して経 由点 を用 いた タス ク レベル学習 を試み てい る.第2章 で は,

第1章 の枠 組 を用 い てロボ ッ トに ダイ ナ ミック な運動 であ るけん玉 を行 わせ るこ とに成 功 した

[38,58,59,60,53,54,57,61].け ん玉実験で は簡単 な タス ク表現が可能 な最 も簡単 な運動 を選

び,タ ス ク目標 を達成 させ る ことがで きた.し か し第1章 の枠 組が汎用 性 を もち得 るか どうか

を確 か め るため に は,連 続 す る複数 の動作 が含 まれ る階層 的 な運動 や,非 線 形性 の強 い制御 対

象 を扱 う場合 な ど,種 々 の運動 にお ける学習可能性 を調べ る必要 があ る.

本章 以 降で は最適化 原理 に基づ く軌 道計画 と経 由点の枠組 を用 いた見 まね に よるロボ ッ トの

運動 学習 につ い て汎用 性 と学習可 能性 に関 して調べ る.そ のため よ り複雑 で困難 な運 動 と して

テニスサー ブ と振 り子 の振 り上 げの運動学習 を試み る.

第3.2節 の実 ロボ ッ トに よるテニスサーブ学 習実験 で は,時 間的 に連 続す る二つ のサ ブ タス ク

(ボー ルの投 げ上 げ と打撃)が 相互 に強 く影響 しあ うため,け ん玉 に比べ て学習が 困難 であ る.

第3.2節 の実 ロボ ッ トに よるテニスサ ーブ学 習実験 では,経 由点 を試行 錯誤 で決定 した.そ の

選択 は直観 的で根拠 のない ものであ った.第3.3節 の ロボ ッ トの数値 モデル によるテニスサー ブ

学習 シ ミュ レー シ ョン実験 では,よ り合理 的 な経 由点の選択 方法 につい て検討す る.

3.2テ ニ ス サ ー ブ ロボ ッ ト実 験

図3.1に テニスサ ー ブ実験 の概略 を示す.こ こで行 な うテニスサ ーブ は,ラ ケ ッ トの柄 に取

り付 けた カ ップ にのせ た ボール を放 り上 げ,落 ち て きたボー ル を軽 く打 って約2メ ー トル離 れ

たゴール に入 れ る,と い う作業 である.

本実験 で行 な うテニスサー ブで は時 間的 に連続 す るボールの投 げ上 げ と打 撃 の二 つ の動 作 が

相互 に強 く影響 しあ うため,け ん玉 に比べ て学 習が困難で ある.そ のため,テ ニ スサ ー ブ成功 の

ため に以下 の方策 を行 った.

49

(」鯵愈

OPTOTRAKhurnanhand1塗 司eCbry

、jdr眈anglehandposl面on

窒搬 ㎝FIRM

~Vla略)Olnお

loir貢angles

i

lnve「seKinematics譜

リ ユ

θ 。ia 夢

handpos逝on

ゾ 輪X。i。

祠edory

lbma哲on

FIRM

θ 。pt

Ma孝)Omt

mod而ca哲 ㎝

(鶉

#

αPμダXb訓i

bdlpos.凋.

図3.1:テ ニスサー ブ学習実験 シス テムの概略.

50

寅懸

譲驚鍵

鷲弥=平

'

図3.2:テ ニ ス ラ ケ ッ トを持 っ た被 験 者.

1.タ ス ク 目標 をサ ブ タ ス ク1と サ ブ タス ク2に 分 け る .

2.学 習 を2段 階 に分 ける.

3.サ ブ タス ク問の相互影響 を避 け るため ,学 習 させ る経 由点 を制限す る.

第1段 階で ボール を放 りあ げるサ ブ タス ク1を 学 習 し,第2段 階 でボー ル をゴールの方 向 に

打 つ とい うサ ブ タス ク2を 学習す る.

3.2.1運 動軌道 計測 と経 由点抽 出

図3・2・ 図3・3で 示す ように,テ ニスサ ーブ を行 な うと きの被 験者 の肩,肘,手 首,ラ ケ ッ ト

面 の両端の合計5箇 所 に赤外線LEDマ ーカーを取 り付 け,三 次元位置計測装 置(OPTOTRAK)

で計 測 した.本 実験 の計測 条件 では計 測精度 は1mm程 度で ,サ ンプ リ ング周 波数 は250Hzで

ある.次 にマー カーの位 置軌 道か ら,ラ ケ ッ ト面 中心の位置 と向 きの軌道 を計算 した.さ らに,

ラケ ッ ト面 中心の位 置 の軌道 を数値微分 し速度 と加速度 の軌道 を得 る.図3.5に ラケ ッ ト面 中毛、

の位 置,速 度,加 速 度 の軌 道 を示す.ラ ケ ッ トで ボール を打 った瞬 間 ラケ ッ トに衝 撃 が加 わる

ので,加 速 度牟 瞬 間的 に大 き くな る時 間 をボール を打 つべ き時刻 と した .上 で得 られた ラケ ッ

ト面 中心 の位 置 と向 きの軌 道か ら経 由点 を抽 出 した・本論文 では和 田 ら[83,85,84,86]のFIRM(Forwε

51

図3.3:テ ニ ス ラケ ッ トの拡 大 図.

InverseRelaxationModel)を 用 いて経 由点 を抽 出 した.最 適軌 道 は簡単 のため躍度最小軌 道 を

用 い た.躍 度最小 軌道 は 五(d鐸dオ)2砒 が最小 となる軌 道で あ る.こ れは解析 的 に解 けて時間 に

関す る5次 方 程式 となる.

図3.5に 抽 出 され た経 由点 と経 由点 か ら再構 成 された ラケ ッ ト面 中心 の三次 元位置 と向 きの

最適軌 道 を示 す.ω,ッ,zは それ ぞれ右方 向正,前 方 向正,上 方 向正,φ,θ,ψ 成 分 はYZYオ イ

ラー角[8]を 表す.

3.2.2手 先座標 か ら関節角座標 への変換

第2章 の2.3.3節 の方 法 と同様 にラケ ッ ト面 中心 の三次元位 置 と向 きの最適軌道 か ら関節角 の

最適軌 道 に変換 し,SARCOSア ーム(SARCOSDextrousSlaveArm)に 関節 角 目標軌 道 と し

て与 え る.SARCOSア ームは人間の腕 に似 た7関 節 の油圧 駆動 の腕型 ロボ ッ トであ る.SAR-

COSア ームの試行 の結果 は2台 のカ ラー カメ ラで特 定の色 の面積 重心 の三次元位 置 を計測す る

三次元位 置 計測 装置(QUICKMAG)で 計 測 した.サ ンプ リ ング周 波数 は60H:zで ,精 度 は本実

験 の設 定 で は5~10mm程 度 で ある.図3.6にSARCOSア ー ムの手 先 に取 り付 けたテニス ラ

ケ ッ トを示 す.計 測 点は ラケ ッ ト面 中心 とボールの位置,ゴ ールの位 置 である.

図3.7と 図3.14左 に1回 目の試行 を示 す.ボ ールが うま く上 が らず,空 振 りとなってボール

52

9

軍弓3

§

§

斗 e'e

Tl轟1【。】2・o

図3.4:ラ ケ ッ ト面 中心 の位 置,速 度,加 速度 の 軌 道.

を打 つ こ とが で きな い.

3.2.3サ ブ タ ス ク1の 学 習

図3.8に テ ニ ス サ ー ブ学 習 の タス ク表 現 の模 式 図 を示 す.ラ ケ ッ ト面 中 心 で ボ ー ル を打 つ よ う

にす る た め ボ ー ル を放 り上 げ る付 近 の経 由 点SEを 修 正 す る.目 標 タス クTHdは ボ ール を打 つ

べ き時 刻 の ラ ケ ッ ト面 中 心 の位 置,実 現 タ ス クTHは ボ ー ル を打 つ べ き時 刻 の ボ ー ル の位 置 を

そ れ ぞ れ 以 下 の よ う に表 す.

SH=(272,2/2,2=2,2雰3,!ノ3,2∫3)T

THd=(ωHd,〃Hd,ZHd)T

TR=(のH,〃H,之H)T

η+1回 目の 試 行 の 経 由点 を広 義 ニ ュ ー トン法 に よ り以 下 の よ う に求 め る.

S監+1=S葺+辞 β。(T監d-T監)(3 .1)

BHは 学習を安定させるためのゲイン行列で

/  (0.50000.50000.5)(a2)

53

1'腿匠噛「A3.14

e一 一e-er亀 も_一e一 一 ・e-e一 適

o

一緯

PSV 6.26

e一 一 一e一 一e一も一e一 毛1一 一9-o博

o 響

図3.5:経 由点 と最適 軌道.亀 〃,βはそれぞれ右方 向正,前 方向正,上 方 向正,φ ,θ,ψ成 分 は

YZYオ イ ラー角 を表す.小 さい 。は経 由点,実 線 は最適軌道(躍 度 最小 軌道) ,点 線 はボールの

軌道 をそれぞ れ示 す.大 きい ○ はボール を打 つべ き時 間の ラケ ッ ト面 中心 の位 置,× はその

ときのボ ールの位 置 をそれぞ れ示す.

54

図3.6:SARCOSア ー ム の手 先 に取 り付 け た テ ニ ス ラケ ッ ト.ラ ケ ッ ト面 中心 の位 置 を

QUICKMAGで 測 定す るため に,ラ ケ ッ トに色付 きマー カー を付 けて ある.ラ ケ ッ トの根 本の

カ ップにテニスの ボールが のせ てある.

と した.ヤ コビ行列JHを 解析的 に求 めるこ とは困難 なので,図3.9で 示す ように最初 の試行 の

軌道 の まわ りで経 由点 に微小 な摂 動 ±δ勉,…,± δz3を 順 に与 えた ときの タス クの変化 δ乃 を

観測 して以下 の ように求め た.

麺虹..。 迦δ3r2δZ3

西 一露 書一 鵬 … 幾(3.3)

璽...塑

δτ2δZ3

図3.10と 図3.14中 に25回 目(JHを 求め るための12回 の試行 も含 む)の 試行 を示す .ボ ールが

うま く上が って ラケ ッ トの中心 に当た るようにな ってい る.

3.2.4サ ブ タ ス ク2の 学 習

ボー ルが ラケ ッ ト面 中心 に当 た るよ うになった ところで打 ったボールが ゴール の方 向に飛 ぶ

ようにラケ.ッ ト面の 向 きSGを 修正 す る.目 標 タス クTGdは ゴールの位 置 ,実 現 された タス ク

TGは ゴールの高 さまで ボールが落 ちた ときのボールの位 置 をそれぞれ示す .

SG=(φ5,θ5,ψ5,φ6,θ6,ψ6)T

TGd=@Gd,畑)T

55

lx

iY

ユロ ロ  けの ヤエの

藷'.や0.271499

.=ゴ 瓶 ↑..桑

、塵

藤0■313633-0 .047135

-0.300m

鳶z

ユコ ロじ 

一〇・0962571

.♂1'=♂ 一〇.149504

噛o.053247噺

o.ooami

●…:i

=

ザ 隔・

ロ  ロ  ド

_0.531923・ 】㎜VI]団 匝

←「 

。 ↓

馨一〇8566393

+0.034470

-101㎞1

涌:3 .142。(180.00d耀

o磁 ⑭ 一 頓 ・・鹸 ・・=1・・甑榔、、,,、22錨嘱磁 … 一 ← ・r

一3 .142r-180鰯00d

蒙嚢

imETハ3・142={180・00d)

麹 一 一 ・・⑩ ・"岬魯 ㎞執 《鱗、、、、・::蜘副 ・・噸 …命 一 ⑧ ・ ・

一3.142r-180.00d

iPsY 6.233={360.00d)

愈 軽 噸 愈 認、、・o趣 ・・・・…繍 …趨 ・㌦ 優.

o.ooo=o.00d

…_i㌔

慈鱗'

震 ↑

← 。]s皿 亙 ▼工EW

・ 鯉

)毒

↑2

念」綴 就

、堕 ミ轍 懸 丁・ 亙灘

図3.7:学 習前 のテニ スサ ーブの試行.左:テ ニス ラケ ッ ト面 中心 の三次元位 置 と向 きの軌 道 と

経 由点,右:ボ ール を打 つべ き時 刻 のSARCOSア ームの姿勢 とボールの軌 跡(上 か ら上面,前

面,側 面 図 をそれぞ れ示 す)を 示す.右 図 におい て,ゴ ールの位置 を,上 面 図で は ○ ,前 面 と

側面 図では 〕 で示す.

56

C

κ↑ぜ

z↑

1■ 噛 、 、 ∠!砺、

、〆κf 乏 イ

C

center

oftheracket 詫

剛 ■■ ■ ■コ ■■嘔 一

1 、

一4バ繭 、

ballposition 幣〉イ

7≒ レ ∫ftlme

'h

TopView

xandypositionoftheball

whentheballfallsthesame

heightasthegoal.

課r一'寸rq:跳x,yandzpositionofthecenteroftheracket

whentheballwashitbythedemonstrator.

図3.8:テ ニスサー ブ学習 の タス ク表 現の模式 図.上:ラ ケ ッ ト面 中心(破 線)と ボール(実 線)の

三次元位 置の時 間変化.下:ラ ケ ッ トとボール,ゴ ール とボールの落下位置 の関係.

57

x 1.201㎞

'尋0.28568

ハnユ1naτe

.Y

じ」.ear

一〇.03986藤0.3254

一〇.30皿 勘

一〇.382141

2

}_852。r・ ・46・34-o・oo〔 ㎞ 雍

o.50{㎞

一〇.427155・1

.

一〇.51398

尋o.086823

←「ソ

。 ↓

P肛3 ,142=(180.00d)

0'㊧ ⑭ 適噸8ゆ 薩1響!1雪蟹愈唖lil麟藍1薩聖ρ 糊 愈 ・・…脚魯'●

一3 .142r-180.00d藝

㎜TVIE駆

皿 丁ハ・3 .142=(180.00己 ⊃

o一 ・一 ㊨ ・副 伽 』llひ 、、置蓄1置ρ ・開1・醐 懸 ㎞⑧ 一 愈 ・.

一3 .142習 一180.00d

P5Y 6.283=(360.00d)

◎ ⑭ ⑪ ・欄⑭1・@m薩1己1・⑭ 簡i騨1腿⑱ 腫㎞$㌦ 、.Φ.

0.000rO。00d藝

.灘

毒講鑛1幾,耀

510Σ ▼1鼎

← 。)」

`

桑"

欝 ↑ヨ

←」

図3.9:第1段 階のヤ コビ行列推定 のためのテニスサー ブの試行.左:テ ニス ラケ ッ ト面 中心 の三

次元位置 と向 きの軌道 と経 由点,右:ボ ール を打 つべ き時刻 のSARCOSア ームの姿勢 とボール

の軌跡(上 か ら上面,前 面,側 面 図 をそれ ぞれ示 す)を 示す.右 図 にお いて ,ゴ ー ルの位 置 を,

上面 図で は ○,前 面 と側 面 図ではL」 で示 す.

58

x 1.200鵬

。{・0.035591

軽'

一〇.024274

噸・o.059855

-0訓1㎞

Y

・贋 韓●

A'.

1。201㎞

一〇.029356

一〇.028063-0 .001293

0.ooo願

2

o.50〔 ㎞ ・

+0.011165

・レo.059336

-0 .048171

一1㎞4P田:

o愈

3.142r(180』0の

  「 輔1

一3 .142r-180.00d

IHETハ ・3.142rζ180 .00d)

轡~ 「[ 

1㎝ ▼IE四

蹴 然 ∴∫こ・望ぺi麹

/響 騨

縫 ←x

奪 ~ 購

㎜VIE可

魂純、認

lSIB罵v【 耶婁

一3.142r-180』Od 、

P5Y 6. 83rく360.00d)母

籔 劔 鰍 劔 譲 …㎜.噸.… 劔 一噸 一`

o』oo=o.00d )

㍉璽

i禰

鹸 じ身獣

職舗 。隔 脳 謂翻 毎燃隅鼎,し5撒蹴 励 ぎ槻 ゴ脇浦繍湘 脇 脇陽繍 麟難

↑2

←.」

図3.10:第1段 階学 習後 のテ ニスサ ーブの試 行.左:テ ニス ラケ ッ ト面 中心 の三次 元位 置 と向

きの軌 道 と経 由点,右:ボ ー ル を打 つべ き時刻 のSARCOSア ームの姿勢 とボー ルの軌 跡(上 か

ら上面,前 面,側 面 図 をそ れぞれ示 す)を 示す.右 図 におい て,ゴ ールの位 置 を,上 面 図で は

○,前 面 と側面 図で は 〕 で示す.

59

'xユロ りり

.ρ 罵=;;;・1.』 』328`7

、='● 盤塵;・・

ノ ゆ ル ワ  マヤ

.。 鍔 躍 継'ロ蝋 脇'一〇。000004

噛0.032372

3BttVtb・Y

o一 叫 .鑓 鈴 ・;=Σ'金,.頑㌦

螺譲 τ「

1.200m'

十〇.015770

、饗燭 噛蝉嘩騨 一   ゆ',鱗野

◎0.01057夢

噸o.oo5196

0』00藤

,2

纈 鯛前 励噸 聰要蓼

'㌔層.一`甑'隔・'

ロロヨロゆ 

読、・ 阪 嚇 糊."o懸 黙 尋.

昏0。006622一〇.028210

10P▼IE可

轡 「Y

。 ↓

ヨコ る コくユリロコロロユ 

eQ・ …齢 …1・・,。ttt、、・鍵童飾1嚇 ・厘1・…e・"'

一3 .:【42r_180』011'・

㎜ ▼■E駆

醸灘

罰日Eτハ3.142r(130.00d}S:mEVIEW

鋳 一 一 脅・"脚"@趣駄 麟 、認il・砂 醐 聾噸1麗ゆ 一 鹸 講

為x

↑2

一3.142r-180 。00di

P罪6.233=(360.00d)、 、

勲 窃 禽・h魯r@躍II唖``菖砂1睡彗肇葦喜望馨醒聾≡隷 運猛8奮嚇 曜.幅.翰_

0』00rO・00{1、

)

饗ナナァ"繕 難響

・鋤 か

、 、、 ・吟 ㌧パ パ:'1へ 畔 謡 グ

↑呂

.← 。」∴鰹/、 ヂ'へ1「 孝 樋F無

図3.11:第2段 階 の ヤ コ ビ行 列推 定 の ため の テニ スサー ブの試 行 .左:テ ニ ス ラケ ッ ト面 中

心 の三次 元位 置 と向 きの軌道 と経 由点,右:ボ ール を打つべ き時刻 のSARCOSア ームの姿勢 と

ボールの軌跡(上 か ら上面,前 面,側 面 図 をそれぞれ示 す)を 示す .右 図 におい て,ゴ ー ルの位

置 を,上 面 図で は ○,前 面 と側面 図で は 〕 で示す.

60

TG=(∬G,ッG)T

JGは 経 由点 に微小 な摂動 ±δφ6,…,土 δψ6を 順 に与 えた ときの タス クの変化 δTGを 観測 して以

下の ように求め た.

苑 一 嶽 一(触 勉 血Ωδφ6δ θ6δ ψ6勉 蛭 勉

δφ7δ θ6δ ψ6)

図3.11に 第2段 階のヤ コビ行列推定 のためのテニスサー ブの試行 を示す.

π+1回 目の試行 の経 由点 を広義 ニ ュー トン法 によ り以下の ように求 める.

sa+1=S3+堵B。(TGd-T3)

B・ 一(α00α)

α一{i:1一翻灘1-

d=ITHd-THI

(3.4)

(3.5)

(3.6)

ここでdは ボ ール を打つべ き時刻 での ラケ ッ ト面 中心 とボールの距離で ある .d<0.1で あ れ

ばボー ルが ラケ ッ ト面 中心 に当 た った と判 定 しラケ ッ トの向 きを修 正す るが ,そ うで なけれ ば

ラケ ッ トの 向 きは修 正 しない.

図3.12に 第2段 階学習 中のテニスサー ブの16回 分 の試行 を重 ねて示す.ボ ー ルは徐 々 にゴー

ルの方 向 に飛ぶ ようにな ってい る.図3.13と 図3 .14右 に第2段 階学習後 のテニスサ ーブの試行

を示す.ボ ールは ゴール に入 ってい る.

図3.15に65回 試行 中の,ボ ールを打 つ時刻 のボール とラケ ッ ト面 中心 との距離ITHd-丁 劃,

ゴールの高 さまでボ ールが 落 ちた ときのボール とゴール の距離ITGd-T各1の 試行 毎 の変化 を

示す.図3.15に お いて,縦 軸 は距 離[m],横 軸 は試行 回数 を示す.○ はITGd-T巳1,× は

ITHd-T劃 をそ れぞれ示 す.横 軸の下の*,+は,1段 目は 」:H,2段 目は ゐ に関 して,ヤ コ ビ

行 列 を推定 す るため に摂 動 を与 えた試 行で あ るこ ζをそれぞれ示す.当 た り損 ねや,計 測の失

敗 のた め に 兆 推定 の摂動 を与 えた試行が とび とび になってい る.図3.14右 に60回 目(JH,JG

を求め るための試行 も含む)の 試行 を示す.ゴ ールの方 向 にボールが跳 ね返 され る ようになって

い る.

3.3経 由点 の選 択

前節のロボッ ト,実験では学習によって修正する経由点を実験者が試行錯誤で選んだ.そ の際,

経 由点の選択 嫉直観的で根拠のない ものであった.本 節では,よ り客観的な経由点の選択方法イ

を考 える.本 節 の実験 はすべ て計算機 シミュ レー シ ョンによ り行 なった.

61

x

1・201㎞TOP▼11弼 運

.→0.079931

尋0.069770・+0 .010161

一〇.301㎞

く ナ

謹 難r

難 垂 霧Y

藤o.034801

一〇.009680

+0.044431

0.ooo構

P

←x

・陽

◎ 馨蓄纏馨

o。500願

一〇』98759

q」

し、

P.

'

㎜ ▼1翼町

⑪ 翰

禦;;撫 繍櫛 「 麟

一3 .142=一180.00己

期口El臨 3・142=(180.00d)

陣 、 つ か嚇

PsY

x

一3。142望 一180.00己毎

6・83r(360.00d)

s】コ亙VIE騨

齢 曜 岬 丁㌧養

0.000rO.00d》

熱灘  

騨 ↑ヨ

← 。」

図3.12:第2段 階学 習 中の テニ スサー ブの試 行.16回 分 の試 行 を重 ね て示す.左:テ ニス ラ

ケ ッ ト面 中心 の三次元位 置 と向 きの軌 道 と経 由点,右:ボ ール を打 つべ き時刻 のSARCOSア ー

ムの姿勢 とボール の軌 跡(上 か ら上面,前 面,側 面 図 をそれぞれ示す)を 示す .右 図 におい て,

ゴールの位置 を,上 面 図では ○ ,前 面 と側面 図で は 〕 で示す.

62

x 1。2"1㎞ ,

.・.。.尋0.020855

晒な

昏o.oo9960

壱0。010895

-o.300m'

Y

引・0.041960

.o

●暉 鰯顧

、π1四 ▼IE可

2

6→0.000793

・}0.041167

0』ol㎞ 葦

o。50lh励

噸・0.013353

霧 義

←「 

既㍉ ↓

一〇.00691

・}0.020272

-1.300鵬

㎜ 3。142r(180.00d)・

$愈'●"蒔 轟圃@繧彗'1墨喩

、闘、轟;1簿 ・1・・伽1・ 一 ← 開

一3 .142r-180.00d

IHEL瓦 3.142={18000d)

伽 一一 の8剛 鞭 圏"甑愈、、、、…@一囑 癬 命 一 鋤 舞

伽3 .142r-180.00d.・

PsY

癒 輸

6.283r(360.00d)

酬命⑧側鯉認恥 燃_擁

0.000蟹0.00d

㎜ ▼IE卿

,編 蜜

灘1、 。㌔F窒=ミ馬 ラ1 ・ 多

}

国SIコ £ ▼■珊

羅鍵灘 繍. ↑

←.」鍮愚 、'ゑ㌶舶蜘 で∵ ・襟様謹畷 £.モ 黛・1∫二'雛欝 ・

図3.13:第2段 階学 習後 の テニスサ ーブの試行.左:テ ニ ス ラケ ッ ト面 中心 の三次 元位 置 と向

きの軌 道 と経 由点,右:ボ ール を打 つべ き時刻 のSARCOSア ー ムの姿 勢 とボー ルの軌跡(上 か

ら上面,前 面,側 面 図 をそ れぞ れ示す)を 示す.右 図 にお いて,ゴ ール の位 置 を,上 面 図で は

○,前 面 と側面 図で は 〕 で示す.

63

けくひ  しへ

櫨畿Vl,w

瞬識 。重

脚)す

V2◎

o

←・習4

V2,0x-2.5

ZO.8

Z

」親

㏄Z

ぐ。」

習 ぎ

1礁 哩

、 ㊥

謡謡 πVIEW

V2.Ox-25

zo.8

轟 、、轡鰯・、 全

壱裾 、X1・OX_2 .5smEV正WZO.8

声㌧V2∬ Ψ_1

.5

図3.14:テ ニスサ ーブの試行.左 か らそれぞれ1,25,60回 目の試行 .ボ ール を打 つべ き時刻

のSARCOSア ームの姿勢 とボールの軌跡 を示す .上 か ら上面,前 面,側 面図 をそれぞれ示す.ゴールの位置 を,上 面 図では ○,前 面 と側 面図で は 口 で示 す.

14

2

'3

6

'4

。2

'0

6

4

2

0

2

2

2

1

1

1

1

0

0

0

0

1020一

30 40 50 60

捧 糸 弗 緋 来

図3.15:テ ニスサー ブの65回 試行 中の誤差の変化 .× はボール を打 つ時刻 の ボール とラケ ッ ト

面 中心 との距離ITHd-T葺1の 試行毎 の変化 を示す.○ は ゴールの高 さまでボ ールが 落 ちた と

きのボール とゴールの距離ITGd-T劉 の試行毎 の変化 を示 す .縦 軸 は距離[m],横 軸 は試 行 回

数 を示 す.横 軸ρ下 の*,+は,1段 目はJh,2段 目はJGに 関 して ,ヤ コビ行列 を推 定す るた

めに摂動 を与 えた試行 であ るこ とをそれぞれ示す .

64

OPTOTRAK

(」沸鴫う

hur㎜handtr購tory

、joir貢anglehandpos弼on

盤搬,FIRM

..via門poinお

Plntangles 童lnverseKinematicsθvia

縄i

θ 。i。 黎

handpos甫on

.、/Xvia

圃edoツ

lbma逝on

FIRM

θ。pt

Maイ)Olnt

m軸(諭#

姻red

脇 。ツ

θ,eal

十 一

㌔ ・ 、X…

伯cepos・ 呵ballpos .殉.

jL

劇ized

鵬 。ツ

調 而曲c㎏dynamicsmodel

懸 「 。

lnverseK

Dyn㎝ 鵬

oommandbrque

麗謂朧騙

図3.16:テ ニ ス サ ー ブ学 習 シ ミュ レー シ ョン実 験 シス テ ム の概 略.

65

3.3.1サ ブタスク1に お ける経 由点 の選択

まず第1番 目の経 由点 か ら終 点 までの位 置 と向 きの成分(6×8=48個)に 摂動 を加 え,ヤ コ

ビ行 列 を以下 の ように求 める .

警一〔雛 灘〕

一(h・,…,h48)(3.7)

この と きヤ コ ビ行 列 の 第 ゴ列 の縦 ベ ク トル の ノル ム

1剛(3.8)

を,そ の経 由点の成分の変化がサブタスク1に 及ぼす効果 と考 えることとす る.例 えば第8列

目の縦ベク トルのノルム

Il蝿"一(δ ¢Hδ〃2)2+儲)1+(舞)2(39)

は2番 目の経 由点 の 〃成 分が サ ブタス ク1に 及 ぼす効果 であ る.こ の値 が大 きい経 由点 の成 分

か らい くつか を修正 すべ き経 由点 として選べ ば よい .

図3・17上 におい て・横 軸 は列 の番 号 ゴ を,縦 軸 はllh州 の値 をそ れぞれ示す .図3.17上 か

ら,ヤ コビ行列 の第13,14,15,19,20,21列,す なわち第3,4番 目の経 由点の うち位 置 に関す

る成分 を抜 きだ し,

S・=(皿3,!ノ3,2∫3,コP4,!ノ4,2r4)T(3 .10)

を修 正す る経 由点 と して選べ ば よい.

3.3.2サ ブタスク2に お ける経 由点 の選択

3.3.1節 で選 んだ経 由点成 分 を用 いて第1段 階の シ ミュ レー シ ョン学習 を行 ない,ボ ールが ラ

ケ ッ ト面 中心 に当 たる よ うにな った ところで,こ の軌 道の まわ りにお け るサ ブ タス ク2に 関 す

るヤ.コビ行列 を以下の ように求 める.

砦 一(勉 璽 Ω...勉δα:1δ 〃1δ ψ8塑Ω 塑 Ω...亜 Ωδ餌1δ 写1δ ψ8)

・=(91,…,948)(3 .11)

66

1権ノ

5

4.5

4

3.5

3

2。5

2

15

1

0.5

o

㌔㌔ ∫ 「 ご'

㍉ ■

='

…「

㌔ ~ ㌦ じ

.1 r

」'

ド ■

:,演 二

'E

ヴ ニ

、 ・ 」

,㌔

'

ズ車

i

蛋i

1髪

愛 ぐ

.

.…

… …

ド':隙 玉ピ"

,「 へ

'

丁'

……

さ噺 三、

'

bb

F

麟 ㌔ 、滋 ㌃ピ・ ,:ぞ

'

i…

㍗訴 』編、ざ1

.ξ 菱

卜㌶

'

ソ野:デ :・ 三

領 細.." ■

i 

卜 舞_

_・{,F

.騨纏

麟','

貞■

戸PF'耳

「Fく/'

:.憾∵

蒸気ゴヅ,中 、

勲 ・

:/裟i

……2

i… …_

il.騒臨嚢嚢塞購 ニゼ 鹸,継

.」

iil

.耀 ト薯嚇寧…

誕 一藏 撫 翻1

…i蟹1.

i2匿.1.

..燭!..■..口E.闘 ■■已.闇■■=........四 一.層.....

…1………謝 懸 む1き㎜㎝....L...._協 藤

'

lr 一

i芝.L 關

濫 、丁

」うし ・「 口1

F 卜」 ・co

F 2.ゴ

霜 蒜 魅 等

'

kノ

16

14

12

10

8

6

4

2

o

F 』9 2 紹 頴 希 等

700

600

らむむ

1陽ll、.。

酬,。 。

200

100

0

'

"

」 」

P」 ㌔

1㍉'

.♪

、 ㍗

bF」

㌔ ㌃「

F

特iり〃 ミ、 「L、、

碑 悔i

'

r

丁 「叩

i…

……

、■く 、 、

稼・馬 ・㍉

)

ρ 、

'

'」b㌔ ㌔PF、卜 ㌔ 」'榊 ヒ

、'℃ ・

鴬嘱謝:∵ ・'

''",,

、 、」

弄∴ 」㌔帆

趣慈A」霊

,ラ》 へ

此 、-、

㍉"、 ド ー"圭

;'

・=鋳、L

㍗F'諦 ら く亭

芋',、㍉

♂ く'㍉丁、ノ,

'んi.

1\i

もi

h.i剃

'

£ 許

:穰」

'占㌔乱「

ご,∫ '

F,F 「・F己

ン'ご,㌔'㌦

b

■ ㍉

■ ■■

" 丁ド瀞 ∵}ウ ギ

'、㍉ へ ■

,し '

㌔II.聾

1跳liゴ'

℃■ド"

:'

監…

……E…

i}

熔 「

' 、

■ ♪ ㌔

、 「、F

''

r r

b㌔ 」

」 」b㌔㌔ ㌔㌔

「F「

ソ「rF「

・「

L

ご 、、 ■

' ■

」 ㌔

㌔ ♪

「・

'

:

ii〆i.

}r,

、 、

'㌔ ウ

㍉ 翌 ←

'〉ゐ'、占' ,こ

甘Lr 、

く丁

レ ㍉㍉㍉

'

r、

r 、

、〔㌧"

5,

、 ㌔

無 ・

磯》 ・・

霊占翫 、

二、、L

、■参、 'ヤ

.

.1

=.=..

'.

…1.

島i

3.鍾;

彦:旨.i舜.喫.5一.

iil… 懸

F

b b

bFbbFF

∫ ㌦ 「姦

■ 、

'"'

'ド 、1■

~1孝:季、^り ㍉、'

㍗㍉㍉

㍉ ■

■ ■

■、

、、.㌔

琴.㍉.

甕二・

・1

霧 …,§

..■ 賜

.. ..〉 ・_一 盤鰹i:5.2画

..

嚢隊葵85鐸 蒙睡....1麗菱

灘 醗

亭甘■、'ぐ 、

■ 、■■'■

幽藝...■..一

=■図=.....一.

一.一.

覆 罫

躍.一 一

一 凹

..

.巴..5.皿 臼.盈2懸 【8匪一 駅幡6

魑"9"

「.【,=暉

ヒ.隔

.層■ 「"

丁 ・rF∫ 「

つ ー

}T

;-7…』

輪聰 一..LL.一..

ll 1睡 懸 「f 「L

曽 馳1■=..簡 憂

.矯 躍

,蹴n.

〕§.【..置==.'.鯉i畿 騒

「.

灘 鰯幽 塗懸 酬難};,㎜ 團罵薗糀}

.....一. .「 .__................隔.㎝

.「闇.隔A...」}....・.…㎜ 隔 糊 …

.旨`居6一 凋i㎜:i:i漸 巡.響 窟.旨儒 撒応認 鑛一曝」 鷹 圃露9… 霧:5`巴:

F 卜雪 2 鴇 絹 魅 等

図3.17:サ ブ タスクに対す る経 由点修正 の効 果.」

67

第3・3・1節 と同様 にll9ゴllを 求めた ものが図3・17中 であ る.ll9州 の値が大 きい もの を修正すべ

き経 由点 と して選 び学 習 の計 算機 シ ミュ レー シ ョンを行 なった ところ ,学 習 は不安 定 とな り収

束 しなか った.こ の場合,第3.3.1節 で選 んだ経 由点成分 も含 まれるので ,サ ブ タスク2の ため

の経 由点修 正の影響 がサ ブ タス ク1に も及んだため と考 え られる .

学習 を安 定 に収束 させ るため,サ ブ タス ク2の み に経 由点 修正 の効果 が現 れ ,サ ブ タス ク1

に影響 の少 ない経 由点 の選択 を したい.そ こで,

ll9ゴII

llhゴli(3・12)

を求めた ものが 図3.17下 であ る.図3.17下 か ら,ヤ コビ行列 の第34,40,42列,す なわ ち第6,

7番 目の経 由点の うち向 きに関する成分 の一部 を選 び,修 正す る経 由点 を

SG=(φ6,φ7,ψ7)T(3 .13)

とすれ ば,サ ブタス ク1に 悪影響 を与 えず,し か もサ ブ タス ク2の 学習 が安定 して収束す る と

考 え られ る.こ の経 由点 の組 み合 わせ で学 習の計算機 シ ミュ レーシ ョンを行 な った ところ ,学

習 は安 定 して収 束 した.こ の結果 は実 ロボ ッ トに よる実験 で直観 的 に選 んだ経 由点 と定性 的 に

一致 してい る.

68

第4章

動作や環境の変動への適応

4.1は じ め に

本研 究で は,抽 象 的表現 と して経 由点 を用 い たタス ク レベ ル学習 を試 みてい る.第2章 では,

第1章1.5節 の枠組 を用 い てロボ ッ トにダイナ ミック な運動 であ るけん玉 を行 わせ る ことに成功

'した[38,58,59,60,53,54,57,61].

け ん玉実 験 で は簡単 な タス ク表 現が可能 な最 も簡単 な運動 を選 び,タ ス ク 目標 を達成 させ る

ことが で きた.し か し第1章1.5節 の枠 組が汎用 性 を もち得 るか どうか を確 かめ るため には,連

続す る複数 の動 作 が含 まれ る階層 的 な運動 や,非 線 形性 の強 い制御 対象 を扱 う場 合 な ど,種 々

の運動 にお ける学習 可能性 を調べ る必 要が あ る.連 続 す る複 数 の動作 が含 まれ る階層 的 な運動

に関 しては・第3章 で ロボ ッ トにテニスサ ーブ を行 わせ るこ とに成功 した[55 ,62].

本章 で は最適化 原理 に基づ く軌道計 画 と経 由点 の枠 組 を用 い た見 まね に よるロボ ッ トの運動

学習 につい て汎用 性 と学習可 能性 に関 して調べ る.そ の ため よ り複 雑 で困難 な運動 と して振 り

子 の振 り上 げ の運動学 習 を試 み る.4.3節 の計 算機 シ ミュ レー シ ョンに よる振 り子 の振 り上 げ

実験 で は,操 作対 象の振 り子 が強い非線形性 を持 ってい る.

Atkesonら は,人 間の デモ ンス トレーシ ョンか らロボ ッ トに振 り子 の振 り上 げ動作 を行 なわ

せ てい る[4].彼 らは タス クモデルの学 習 と最適制御 の組合せ で ,少 ない試行 回数で振 り上 げ動

作 を成 功 させ た.彼 らの モデル では,タ ス クの物理 的性 質 に関す る先 見 的な知識 に基づ くモ デ

ル と して制 御対 象 であ る振 り子 の内部モ デル を用 い てい るが ,我 々のモ デルで は制御 対 象の 内

部モ デル は陽 には用 いない.(ヤ コビ行列 」孝 が 間接 的な内部 モデルであ る と考 えて よい).

第2章 と第3章 で は,被 験 者が行 なった見本 の運動 をロボ ッ トに与 え る初期 の運動軌道 と し

た.こ の とき,学 習 の 間 」≠ は大 き く変化 しない とい う仮定 の もとに学 習前 の運動 軌道 の近傍

で見積 もった 」#を 以降 の学 習 に も用 いてい た.し か し,振 り子 な どの非線 形性 の強い制御 対

象 を扱 う場 合 には学習 の進行 とともに 」#が 大 き く変化 し,第2章 と第3章 と同様 には学習 を

行 なえない.そ ヒで本章 で はヤ コビ行列 遊 を学 習の問,自 動的 に校正す る方法 を提 案す る.

69

灘;ヒS5π

王裏 認 →

Memoryof

pasしexperience

Act:uaヒor

&ENV

visual

Feedback

△♂ 握

ノ㌔r憩曳∂∫ノ

H㎜

demonsしraヒion

△Tπ

τ躍

Realized

Task

細図4.1:ヤ コ ビ行列 自動校正 システムのブ ロック図.

4.2ヤ コビ行列の 自動校正

本論文で述べ てきた広義ニュー トン法 による学習では,学 習前 に,ま ず最初の試行で経由点

に微小 な摂動 を与えてヤコビ行列 」 の推定値を求めるが,制 御対象の非線形性が強い場合は学

習が進むにつれ真の 」その ものが変化する.ま た,実際の応用においてはアクチュエータの動作

のばらつ きや測定系のノイズの影響が無視で きない場合 も起こ り得る.し たがって,最 初の推

定値をそのまま用いたのでは学習が遅 くなった り,最 悪の場合発散 してしまう.

制御対象の非線形性が強い場合やアクチュエータの動作のばらつきや測定系のノイズの影響

が無視で きない場合,安 定に学習を収束 させ るために学習の途中で 」 を推定 しなお したいが,

再推定の時期 を自動的に決定することは困難である.ま た再推定のためだけに摂動 を与 えるこ

とは試行回数がいたず らに増加するので好 ましくない。そこで図4.1で 示す ように学習途 中の

経由点 と実現 されたタスクを記憶 してお きヤコビ行列を自動的に校正する.

η回目で得 られる経 由点 とタスクをそれぞれ

Sη=={コ じ空,…,錫},

Tπ ・={τr,…,7・ 浩}

(4.1)

(4.2)

とす る.こ の と き,η 一m回 目か ら π 回 目 まで のm回 の 試 行 で得 られ た 経 由 点 と実 現 され た

タス ク の集 合 を ・

/{Sπ}m,Tπ 一m},…,{Sπ,Tπ}(4 。3)

70

とす る.こ の うち任意 の2試 行(例 えば 乞番 目と ゴ番 目)の 差分 を

{δS,δT}={SI-Sゴ,T乞 一Tゴ}(4。4)

の ように求め る.{δS,δT}の うちllδSllとIlδTIlが 充分 大 きく,か つ互い に一時独立 になる

ような もの をK組 み選 んで行列 κ,ア を作 る.

一(δ の}… δ∬Σ

δぜ … δ婿),幽)

7一 〔δ7至 ・。・ δ7・翫

δイ(・ 。・ δτ海)幽)

行列 κ,7と ヤ コビ行列 」 には

7T=」 κT

の関係が成 り立つ.

(AB)雪=BTムT

か ら

7~ 、ぞJT,

JT~ 、ぞ#ア

と変形で き,こ れ をさ らに変形 す ると式(4.7)の ようにヤ コ ビ行列が推定 され る.

」 一(κ#7一)T(4.7)

上に述べた手順 を用いると,過 去に学習によって修正 された経由点 と実現 された タスクの蓄

積か らヤコビ行列 を自動的に校正することができる.

4.3振 り子 の振 り上 げ

本節では非線形性の強い制御対象の運動学習の例 として,振 り子の振 り上 げ動作 の学習に関

して述べる.こ こで行なう振 り子の振 り上げ動作の運動学習システムの模式図を図4.2に 示す.

振 り子 には水平 まわ りに自由に回転す る軸が一方に付いている.回 転軸 を水平方向に振 り,下

に垂れていた振 り子を振 り上げて上向きに止めることが運動の目標である.

例 えば,回 転軸 を横 に動かそ うとする力がかかった時,振 り子が下向 きの時 と上向きの時で

は,振 り子が回転 しようとする方向は逆 になる.ま た振 り子が真横 を向いてい る時は,回 転軸

にかかる力は振 り子の回転にまった く影響 しない.

71

鑑   ati-9

舜 、

/

QU工CK幽MAG

\via-poi工 止s

Ex七raction

via-poi夏 七s

TrajectoryFoma七ion.

工nverseKin㎝atics

Vユa-PO:Lnts

Modi:Eicatio二

Desi:redσoint

Trajec七 〇=y Reali2edTask

:Eo:rWa:rdki=Lema七ics,

Peコdulu:mdynamics

ア ・・

図4.2:振 り子振 り上 げの運動学 習 システ ムの概 略.

4.3.1運 動 軌道計測 と経 由点抽出

人 間の手本 の運動軌道 はPro£Atkesonに 提供 して頂 いた .運 動軌 道計測 はQUICKMAGで

行 なわれ,マ ー カは振 り子 の上端 と下端 に取 り付 け られた[4].人 間の手 本で は水 平方 向以外 の

手先位置 もわず か に変化 してい るが,本 実験で は水 平方 向の みの位 置軌 道 か ら経 由点 を抽 出 し

た.

ロボ ッ トの数学 モデ ルは簡単 のためSARCOSア ームの順 キネマテ ィクス方程式 のみ とし,運

動方程 式 は用 い ない.す なわ ち関節 角実現軌道 が 目標 軌道 に完全 に一致 す る理想 的 なモ デルで

ある.振 り子 は式(4.8)で 示 す ような回転軸 の摩擦 が無 く質点が先端 に集 中 した理想 的 な振 り子

の力学 モデ ル を用 いた[4].角 度 は振 り子 が真下 を向いてい る時が 一π,真 上 を向 いてい る時 が

0で,向 か って反 時計 まわ りが正 であ る.

・ ・ △

1, 、 θ・+・=θ ・+7(9・i・(θ ・)一 葱・c・・(θ・))(4・8)

こ こで θ は振 り子 の 角 度 ∴ θ は振 り子 の 角 速 度 を そ れ ぞ れ 表 す .角 度 は,振 り子 が 真 下 を向 い

72

θ

Jointspace Cartesianspace

ヨ も

'\ ノOo、

●,''

○… ノ

'

'

、、

'

'

'図4 .3:関 節角軌道 を求め る手順.

てい る時が 一π,真 上 を向 いてい る時 が0で,向 か って反時計 まわ りが正で あ る.房 は手先位

置 の加速 度で 向か って左 向 きが正 であ る.△=0.0025は 刻 み時間,g=9.8m/82は 重力加速

度,Z=0.29mは 振 り子 の長 さ,を それぞれ表す.

4.3.2逆 キネマ テ ィクス

手先座標 か ら関節角座標 へ変換す る とき,以 下 の二つ の方法が最 も簡単で ある.

(1)手 先 の経 由点 か ら手先軌 道 を生成 し,手 先軌道 か らすべ てのサ ンプリング点 で逆 キネマ ティ

クス変換 を行 ない,関 節角軌道 を求 める.

(2)手 先 の経 由点 か ら逆 キネマテ ィクス変換 に よ り関節角 の経 由点 を求 め,関 節 角 の経 由点 か

ら関節 角軌道 を生成 す る.

方法(1)は 正確 な手先軌 道 を得 るこ とが で きるが計 算 コス トが高 い.方 法(2)は 計 算 コス トは

非常 に低 いが,手 先座標 の経 由点 を正確 に通 過す る こ としか保証 され ないた め,関 節 角軌道 か

ら得 られた手先軌道 は誤差 が大 きい.

第2章 の けを玉実験 と第3章 のテニスサ ーブ実験 で は,方 法(2)を 用 い た.け ん玉 とテニ ス

サ ーブ実験 で.ほ,手 先 の軌道 の誤差 は それほ どタス クの達 成 に影響 しなか った.し か し,本 章

73

で行 な う振 り子 の振 り上 げで は誤差 が大 きい と回転軸 が水 平 にな らない場 合が発 生 し,手 先 軌

道 の誤差 をなるべ く小 さ くす る必要が 出て来 た.方 法(1),(2)は それ ぞれ長短が あ るが ,こ こで

は,比 較 的計 算 コス トが低 く,方 法(2)よ り誤差 が小 さ くなるよ うに関節角空 間で ,経 由点 を追

加す る方法 を用 い る.

1.手 先 の経 由点 か ら手先軌道 を生成 す る.

2.手 先 の経 由点か ら逆 キネマテ ィクス変換 によ り関節角の経 由点 を求 める .

3.関 節角 の経 由点か ら関節角軌道 を生成 する.

4.関 節 角軌道 か ら順 キ ネマ テ ィクス変換 に よ り手先軌道 を得 る.

5.1で 得 た手先軌 道 と4で 得 た手先軌道 を比較 し,誤 差 の大 きい ところに関節 角の経 由点 を

追加 す る.

.6.誤 差が 充分小 さければ終 了する.そ うで なけれ ば手順3に 戻 る.

Lを 順 キ ネマ テ ィクス方 程式 と し,広 義 ニュー トン法 を用 い て関節角 の経 由点 を以下 の よう

に求め る.

酬 一 び+(∂L∂θz)#(s-L(び))(49)

4.3.3経 由点修 正

図4.4に1回 目の試行 を示す.図4.4左 は振 り子 の動 きを示す.図4.4右 上 は回転軸 の水平位

置 の時 間変化 を示 す.破 線 と点線 は手先 と振 り子 先端 の水 平位 置の時 間変 化 を,丸 は経 由点 を

そ れぞれ示 す.図4.4右 下 は振 り子 の角 度 と加 速度 の軌 道 とタス クの設 定 をそれぞ れ示す.点

線 は手本 の振 り子 の,実 線 はロボ ッ トに よって実現 された振 り子 の角度 と角 速度 の時 間変化 を

それ ぞれ示す.こ の試行 で は経 由点 は まだ修正 され てい ない.図 か らわか る ように,手 本 か ら

得 た経 由点 をそ の まま用 い てロボ ッ トに試行 させ た場合,振 り子 は下で揺 れ るだけで上 向 きに

はな らない 傷 に さえな らない).

振 り子 を振 り上 げ る とい う目標 を達 成す るための タス クの設定 は どの ようにで もで きるが,

本実験 で は最 も直観 的 な もの として以下 の よ うな タス ク を設定 した.実 現 タス ク と目標 タス ク

を,

T・ 一(£),(4・ ・)

T-C)(4.11)

74

「RO圃了VIEW zo,40

'1

↑が ヱ

_。 」x1.oo孟 雷智

磨 嘩1唖 柵 一 … 柵

}ハ 幸

o

噂1

/∵ 婁篭帖

一 黙(》 ζ築㌦ 鴨 ・聖・〆 …

,謡1PρLE酬G肛 発RV匠Li23繍

10

藁.{

㍗…

{鱒

1ζ ・'● 念

i… 禰824

の 

とし,n+1回 目の試行 の経 由点 を広 義ニ ュー トン法 に よ り以下の ように求め る.

sn+1=sn+」#B(T・ 一Tn)(4 .12)

ここで,Bは 発散 を防止す るため に収束量 を調 整す る もので

B一(柵2)(4・ ・3)

と した.ヤ コ ビ行列 」 を解析 的 に求め るこ とは困難 なの で,ま ず2回 目か ら7回 目までの試行

で,経 由点 に微小 な摂動 δXl,…,δx6を 順 に与 え ,こ の ときの1回 目の試行 か らの タス クの変

化 δTか らヤ コ ビ行列 の推定値 」 を求め る.

/」 ÷(1:::1)(4・14)8回 目以 降の試行 で式(4.12)に よ り学習 を行 なう.

75

図4.4:学 習前 の振 り上げ動作 の試行.

と表す こと とす る.θ,め はそれぞ れ終点 に一致 す る時間の手 本の振 り子の角度 と角 速度 を表す.

θ,ωはそれぞ れ終 点 に一致す る時間の振 り子 の角度 と角速度 を表す .

学 習 に よって修正す る経 由点 を

s一(∬1)

1.6一

一〇.o 湘 八、八 VV胎 済/1 1/踊一

一1.6一

.

一3 .1一

ー4 .7

    ハ型 ハ^l

IGee

w

■1■5■ 層.匹.1

1020304050

崇 弗甚**弗

図4.5:50回 試行 中の θ,ωの変化.最 初 に推 定 したヤコビ行列 の推定値 」 をその まま学 習 に用

いた場合.縦 軸 は角度,横 軸 は試行 回数 を,○ は θを,× は ω ×0.1を それぞれ示す.横 軸

の下の*は ヤ コビ行列 の初期値 を得 るため に摂動 を与 えた試行 であ ることを示す.

1.6

一〇 .o

一1.6

一3.1

一4。7

1020

崇 廉うト*うkうkう トうト*弗 うk第 藤うト築簾弗糸

30 朋 50

図4.6:50回 試行 中の θ,ωの変化.学 習途 中でヤ コビ行列 を2回 再推定 した場合.縦 軸 は角度,

横 軸 は試行 回数 を,○ は θを,× は ω ×0.1を それぞれ示す.横 軸の下 の*は ヤ コ ビ行列 の

初期値 を得 るため に摂動 を与 えた試行 であ ることを示す.

76

・。

・。

・.

4.

弓。

=

・.

・.

4。

づ・

置2亟 δ嶋δκ1δx

l

3

//

2 5

図4.7:ヤ コ ビ行列 の最初 の推定値Jcと3度 目の推定値.

振 り子 の振 り上 げ動 作 で は,振 り子 が下 で振 れ る とき と上 で振 れ る ときとで はヤ コビ行 列 が

大 き く異 な り,最 初 に推 定 したヤ コビ行列 の推定値 」 をその まま学習 に用 い た場合 ,学 習が発

散 した.図4.5に50回 試行 中の θ,ω の変 化 を示 す.縦 軸 は角度,横 軸 は試行 回数 を,○ は

θ,×は ω ×0.1を それぞ れ示す.横 軸の下の*は ヤ コビ行列 の初期 値 を得 るた め に摂動 を与 え

た試行 で ある こ とを示す.

学習途 中でヤ コビ行 列 を2回 再推定 した結 果,学 習 は安定 に収束 した.図4 .6に50回 試行 中

の θ,ωの変化 を示す.縦 軸 は角度,横 軸 は試行 回数 を,○ は θ を,× は ω ×0.1を それぞれ

示す ・横 軸の下 の*は ヤ コビ行 列の初期値 を得 るため に摂動 を与 えた試行 であ るこ とを示 す .

図4.7上 は最初 のヤ コビ行列の推定値の グラフで ある.図4.7下 は3度 目の推定値で ある .図

4.7か ら分 かる ように,ヤ コビ行列 の各成分 は大 きさ,符 号 の両方 の変化 がみ られ る.

式(4.3)か ら式(4.7)を 用 いて,学 習 しなが らヤ コビ行列 を校正す る と学 習 は収束 した .図4.10

に50回 目の試行 を示す.振 り子 は上 を向 くようになってい る.

図4.8に50回 試行 中の θ,ωの変化 を示す.縦 軸 は角度,横 軸 は試行 回数 を,○ は θを,×

は ω ×0.1を そ れぞれ示す.横 軸 の下の*,+は それぞれ ,ヤ コビ行列 の初期値 を得 るため に

摂動 を与 えた試行,ヤ コビ行列 の校正 を行 なった試行,で あ るこ とを示す 。

図4.9上 は最初 の ヤ コビ行列 の推定値 をグラ フ化 した ものであ る.図4.9下 は50回 目の試行

77

一1.6

一3.1

一4.7

.6一

.o

.6一

.1一

.7

塩.ノ ゾー …・一 一 一 一 ・、'、'鞭

冷}⇔ ⇔一 ・κW一 一廿eeeeeeeeeeee6

OI'1'Il量 ・1

辮 辮 ・潔 ・・......潔....潔....柵..翠..柵....摯

図4.8:50回 試行 中の θ,ωの変化.学 習 しなが らヤ コ ビ行列 を校 正 した場 合 .縦 軸 は角度,横

軸 は試行 回数 を,○ は θ を,× は ω ×0.1を それぞれ示す.横 軸 の下の* ,+は それ ぞれ,ヤ コビ行 列 の初 期値 を得 るため に摂動 を与 えた試行 ,ヤ コビ行列 の校 正 を行 なった試行,で あ

るこ とを示 す.

40

30

20

10

0

-10

・20

'3。 δθ

6'葡 爾

'1:

30

20

10

0.

1

・10

雪20

・30

-40

圃50

2

\亟δκ1

3

/亟 亟δκ6δ κ6

~ 5 6

図4.9:ヤ コビ行列の最初 の推 定値Jcと50回 目の試行 時の推定値 .

78

x

翻」 ・ … 一 鱒 鱒一■

0

t30

「}「鞠L・FL

-6.50

824

瞥IG「

匪 …赴 銘o

ミ§

i、 鱒・・'ノi

}'i一4 .71

腿4

POLEA閥G肌ARVEL

㌧..80吊曜5

・ま・,

……

ミ ・.

の ・・.〆'='㌦..・・o,■

'・'1バ・・

、ご ・.殉 卿

23156

葬薫もk.曜' ・晒ヒ.嘔

.『一 ・'「

・'ミ'㍉一

略… 一{一 一 擁.叶

…掌

ζ.・

\ 認,

一.ボ

§

o

……

…一23.56

腿4

図4.10:50回 学習後 の振 り上 げ動作 の試行 .

時 のヤ コビ行列 の校 正 された値 を示す.図4.8か ら分 か る ように,ヤ コビ行 列が 自動 的 に校正 さ

れ て学習が 収束 している ことが分か る.

79

馬、」㍉星■一d匹 しヒ3 し」.聖2d匡'

/x 1.20〔 ㎞

."・ 、尋0.240924

iY

曇0.274222

-0.033298

-o.300m

2

1.200m

-0。206182

・讐電ゆ 一〇.267862

+0』61630

0.ooI㎞.

0.501㎞

一〇.429143

一〇.486605

+0.057463

o〔㎞'班 肛

3.142ご(130』0の

鰻 硬 嚇 漁 撃1惣駄、1,,,,・・雪酬 蟻 脚一 融 軸

一3.142=一180』Od

!聡 丁ハ3.142r(180.00d)

繭 軸 鞠 頓1麟 酬 一 燃一命 一 酬

一3.142蟹 一130.00己

PSY

6.283r(360、00の 馨

磁 軌 嚇 醸,副 鞭 認3:=::闘癌 噸 ㌦ …愈_

o.ooOrO.oo己襲

TαP▼ ■E駆 ←「 

。 ↓

㎜ ▼:【㎜

麟綱↑

← 。)」S皿EVI即

)..訟

・亭 「 蚕 贈 煮 ・

削・き爵`

ぐ・轟yか ゴ 毛

外"轍 ・'

↑2

←」

図4.11:学 習前 の テニスサ ー ブの試行.7回 分の試行 を重 ねて示す.左:テ ニス ラケ ッ ト面 中心

の三次元位 置 と向 きの軌 道,右:ボ ール を打つべ き時刻 のSARCOSア ームの姿勢 とボール の軌

跡(上 か ら上面,前 面,側 面 図 をそれぞ れ示 す)を 示す.右 図 にお いて,ゴ ールの位置 を,上 面

図で は ○,前 面 と側面 図で はuで 示す.

4.4テ ニ ス サ ー ブ に お け る ヤ コ ビ行 列 の 自動 校 正

テニ スサー ブで は経 由点 とタスクの関係 は比較 的非線形性 が弱い.し たが ってシ ミュ レーシ ョ

ンで は最初 に推 定 したヤ コ ビ行 列 のみ を用 い て も学 習 は収束 す る.し か し,実 際 の ロボ ッ トを

80

㍉x

1.201㎞

.。.'.◎0.021653

` 、

噸OgOO7241

凸0.014412

-0300m

刑四 ▼■即 敏

麟;轟驚♪.㌢

Y

.6.047222

昌4 ・0.006861

寺0.040361

0000㎞i

←「Y

o。501㎞

尋o。023797】 団㎜ ▼IE四

`、庵 瀞

昏0.00900

◎0.01479S

-130

㎜ きコユる ロく ヨロコ ロこラ

強 噸 ・嚇 愈 塁,醒醒・Sl,s:;、、…1、1藩・…・・命 ・1・一 《}i'

一3142r-18000d'

π{ET孔

縄蝉

ヨユ る ロくユロロ ロヘコ

三s1コEVIE騨

s一 一 憩 拙騨 《鋤 冨躍'B・・㊧、1、、、、・・鍵 ・叫 曝 一砂 一 鰹 ・

一3.142r_180。00d鐸

,P5Y

Φ 強

6.283=(360』Od)

極 蜘 愈 、ぱ 趣 ・・`菖`i311恥駄_軽1

0.000=0。00己 il

←x㌔

↑2

↑2

← 。」

図4.12:第2段 階 学習 後 の テ ニス サー ブの試行.5回 分 の試行 を重 ね て示 す .左:テ ニス ラ

ケ ッ ト面 中心 の三次元位 置 と向 きの軌 道,右:ボ ール を打 つべ き時刻 のSARCOSア ームの姿勢

とボー ルの軌 跡(上 か ら上面,前 面,側 面 図 をそ れぞれ示す)を 示す .右 図 におい て,ゴ ー ルの

位 置 を,上 面 図では ○,前 面 と側面 図では 口 で示 す。

'

81

o。5

0、4

o.3

o.2

Ol1

o,0

10 20 30 朋 50

操兼藷藻藻隷隷 療甚来隷隷

Ol5

o.4

o.3

Ol2

o。1

0』

10 20

搬甚甚甚うト巌十→一十十十十十十十十十十十十十一ト十一ト十十十

30

→一十 十

哺十 十十

50

来 舞 歯帳うトうト十 十十 十十 十 一1一十十 十十 十十 十十一トート十 十十 十十 十十 十斗 十一ト十 十

図4.13:テ ニ ス サ ー ブ シ ミュ レー シ ョン の50回 試 行 中 の 誤 差 の 変 化.上:最 初 に推 定 した ヤ

コビ行 列 のみ を用 い た場 合,下:学 習 しなが らヤ コ ビ行 列校 正 牽行 なった場 合 ,(縦 軸 は距離

[m],横 軸 は試行 回数 を示す.OはITGd-T各1,× はITHd-T葺1を それ ぞれ示 す.横 軸

の下 の*,+は ~`1段 目はJH,2段 目はJGに 関 して,そ れぞ れ,ヤ コビ行列 の初期値 を得 る

ため に摂動 を与 えた試行,ヤ コ ビ行列の校正 を行 なった試行,で ある ことを示す).

82

用 いた場合,第3章 の 図4.11,図4 .12か ら分か る ように,試 行 ご とにボールの飛 び方 にば らつ

きが あ る・ ボール を放 り上 げ る時 にカ ・プか らは なれ るボールの初速 曳 ラケ 。 ト面 に跳 ね返

る時の方 向や速度 にば らつ きが あ るためで ある と考 え られ る .特 に,図4.12で はば らつ きが著

しい.こ れ は ラケ ッ ト面 とボールの表面 の凹 凸が大 き く影響 してい るためで あ ろ う.ま た測定

系の ノイズ の影響 も含 まれ る.し たが って,最 初 に推定 したヤ コビ行列 には誤 差 が含 まれ る と

考 え られる.

本節 で は・ その方法 を用 いたヤ コビ行列校 正の効果 をテニスサー ブの運動 に関 して調べ る.

本 シ ミュ レー シ ョン実験 で は実 際の ロボ ッ トで実 験 を行 な う時 と同 じ程度 にボール の飛 び方

にば らつ きを与 え,動 作 の ば らつ きや ノイズ に対 す るヤ コビ行列校正 の効果 を調べ る.

図4・13に ・50試 行 中の・ ボール を打つ時刻 のボール とラケ ・ ト面 軋 ・との距 離IT。、一T監1,

ゴールの高 さまで ボールが落 ちた ときのボール とゴールの距離ITGd-T&1の 試 行毎 の変化 を示

す.

最 初 に推 定 したヤ コビ行列 のみ を用 い て学 習 を進 め る場 合 よ り,ヤ コビ行 列 を校正 しなが ら

学 習 を進 め るほ うが誤差 の減少 が速 く,し か も安定 している ことがわか る.

83

第5章

今後の課題

5.1は じめ に

本研 究 で は,脳 の運動 制御 の計算理 論 のひ とつ で ある,最 適化 原理 に基づ く運動 パ ター ン認

識 の応 用 例 と して,見 まね に よる運動 学習 ロボ ッ トの 開発 を行 なって来 た.こ れ まで にSAR-

COSア ーム にけん玉(第2章)と テニスサ ー ブ(第3章)を 行 わせ る ことに成功 した.ま た計算

機 シ ミュ レーシ ョンによ り振 り子の振 り上 げ(第4章)も 可能であ ることを確 か めた.

けん玉 は ダイナ ミックで しか も簡単 な タス ク表 現が可 能 な運動 であ り,単 一 の タス ク 目標 を

設 定す る こ とに よ り成 功 させ る ことが で きた.テ ニス サーブで は時 間的 に連 続す る二 つの動作

(玉 を投 げ上 げ る動作 と玉 を打 つ動作)が 相 互 に強 く影響 しあ うため,け ん玉 に比べ て学 習が 困

難 で ある.振 り子 は非 線形性 の強 い制御対 象で あ り,学 習の進行 につれ て振 る まいが大 き く変

化 す るので学 習が 困難 であ った.テ ニスサー ブ成 功 のため,タ ス ク 目標 をサ ブ タス ク1と サ ブ

タス ク2に 分 け,そ れぞ れのサ ブ タス クに対応 して学 習 を2段 階 に分 けた.ま たサ ブ タス ク間

の相互影 響 を避 け るため,ヤ コビ行列 を解析 して学 習で修正 す る経 由点の選択 を行 なった.振

り子 の振 り上 げ タス クで は,制 御 対象 であ る振 り子 の動 特性が 学習の進行 とと もに変化す る.

学習 を安 定 に収束 させ るた めヤ コビ行列 を学 習途 中 に再評価 しなければ な らないが,再 評価 の

タイ ミングの決 定 を 自動 的 に行 な うこ とは困難で あ る し,再 評価 の ための試行 は無 駄で あ る.

そ こで過去 の学 習 に よる試行 の履歴 を利用 して,学 習の進行 と同時 にヤ コ ビ行 列 を自動 的 に校

正す る方法 を提 案 した.

これ まで本論 文 で用 い て きた学 習 スキーマ は広 義 ニュー トン法 であ った.し か し,解 決 すべ

き本 質 的 な課題 も多 く残 ってい る.ま た,ど の よ うな学習対 象 に対 して も上 の方法 が有効 で あ

る とは限 らない.今 後,フ ィー ドバ ック誤 差 学習や 強化学 習,あ るい はそ れ らを組 み合 わせ た

形 の学習 の枠 組 を取 り入 れて検証 実験 を進 め て行 く必 要が ある.本 章 で は運動学 習 のため の新

たな枠組(階 層 的強化 学習の枠組)を 構成 す るため に解 決すべ き課題 と,こ れか ら進 むべ きであ

る と考 える方 向た っい て ま とめ る.ま た強化学 習 を取 り入れ るための前準備 と して振 り子 の振メ

り上 げの計 算機 シ ミュ レーシ ョンに関 して述べ る.

84

5.2本 研 究 の 枠 組 と 問 題 点

これ まで行 な って きた見 まね に よる運動 学 習の枠組 で ,も っ と も特徴 的 と考 え られ る ことは

以下 の2点 で ある.

1・FIRM(Forward-InverseRelaxationModel)を 用 いて経 由点の抽 出 と最適軌道 の再構成 を

行 な う.

2.経 由点 を制御 変数 とみ な し,広 義ニ ュー トン法 に よ り学習 を行 なう.

これ らの要素 を用 いて これ まで以下の ように学習 を行 なってい た.

(1)FIRMを 用 い て人 間の運動 軌道 か ら経 由点の抽 出を抽 出す る.

(2)タ ス クの成功 に本 質 的 な役割 を果 たす と考 え られ る経 由点 を制御 変数 とみ な し,修 正 の方

策 を決 め る.

(3)す べ て の経 由点か ら運動軌 道全体 をFIRMに よ り運動前 に再構成 してお き,目 標軌道 と し

て ロボ ッ トに与 える.

(4)タ ス ク 目標 が達成 され るように経 由点 を修正す る.

(5)作 業 目標 が達成 される まで(3),(4)を 繰 り返 ナ.

この ような枠 組 を用 いて,こ れ まで見 まね に よる運動 学習 をあ る程度 実現 して きた .し か し,

この枠組 で は以下 の問題点が未解 決の まま残 ってい る.

1.運 動 を行 な う前 に全体 の軌道生成 を行 な うので運動途 中での軌道修正が不可 能であ る.

2.サ ブ ゴー ルの設定 が実験者 の直観 と試行錯誤 に よって与 えられた .

3.手 本 の運動 を超 え られない.手 本 よ り上手 な運動 はで きない .

4.白 紙の状 態か らまった く新 しい運動 パ ター ンは獲得で きない .

これ らの課 題 を解 決す るために ,階 層 的強化 学習の新 しい枠 組 を構築す る必 要があ る.

5.3階 層 的 強 化 学 習 の 新 しい枠 組 と今 後 の 予 定

これ まで用 い 下 きた枠 組 の中 だけで新 しい発 展 を望 む ことは困難 なので,前 節 で述べ た課題

を解 決 す るた婚 には従 来の枠 組 を再構 築す る必 要 が ある.し か し,経 由点 と最適 化原理 に基づ

85

表5.1:階 層的強化学習 のための枠組.

i階 層II要 素1目 標i最 適化原理1実 現化のための道具1

高次 ゴー ル,

サ ブ ゴール

作業 Σ議 Mulもiple-paired

forward-inversemodels,

強 化 学 習

中間 経由点,

運動時間

サ ブゴール Σ擁 経由点

強化学習

低次 運動指令,

制御 対象 の

ダイナ ミクス,

運動 時 間,

目標位 置

経 由 点

(錫,コじ歪十1)

ゐ=嵯`+1漁

ゐ=鵡`+1記2砒

LOCaltrajeCtOry

planner-controller

躍度(ト ルク変化)最 小 軌道 な ど

(Hof匹Arbib,

リカ レン トネ ッ ト,

最適制御則,強 化学習)

く軌道 生成 の要素 は残 したい.そ こで,現 時点 で考 え付 く階層 的強化学習 のため の枠組 を表5.1

に示す.

表5。1に お いて,低 次 の階層 での 目標 は中間の階層 か ら与 え られ た経 由点 錫,ω狙 を通 る よう

に コス ト関数 ゐ を最小 とす る ことで ある.Jlと しては躍度 や トル ク変化 な どを考 える.中 間

の階層 での 目標 は高次の階層 か ら与 え られたサ ブゴール を達成 し,か つ ΣJlが な るべ く小 さ く

なる ように経 由点 を定 め るこ とで ある.低 次 の階層 か ら中 間の階層 へ は運動誤 差 だけで な くJl

も伝達 され る.さ らに ゐ は高次 の階層 まで伝達 され,Σ 孟 が最小 とな るよ うに最 終的 なゴー

ルが達 成 され れ ば よい.結 果 として最 終 ゴール を達成す るこ とので きる軌道 の うち ,全 体 の運

動軌道が最 もなめ らか となる運動軌道が獲 得 され るこ とが望 まれる.

今後,上 記 の枠 組 を考慮 しつつ,ス クラ ッチか らの運動系 列獲得(5.3.1節),サ ブ ゴール設 定

の 自動化(5.3.2節),localtrajectoryplanner-controllerの 学習(5.3.3節) ,な どのテーマ を行

なってい く予 定 で ある.強 化 学習 を取 り入 れる第1ス テ ップ と して,振 り子 の振 り上 げの計 算:

機 シ ミュ レー シ ョンを行 な った(5.4節).

5.3.1ス ク ラッチ か らの運動系列獲得

これ まで用 い て きた枠 組 で は,白 紙 の状 態 か らまった く新 しい運動パ ター ンを獲得 す る こと

はで きない.教 師の手 本 を基 に して学 習 を行 な うか らであ る.教 師 な し学習 の うち,運 動系列

を獲得 す る能力 を持 つ もの のひ とつ に強化学 習が あ る[78].強 化 学習 で は時 々刻 々の入力 に対

す る望 ま しい 出㍗ を学 習者 に与 えるこ とな く,一単に学習者 の行動 を評価 し,強 化信 号(報 酬 や

罰)と して学 習者 に与 え る.学 習者 は強化信号 を用 いて タス ク に対 す る解 を自 ら獲得 す る.強ノ

化学習 に よる運 動 制御 で はcart-pole制 御 や起 き上が り運動 の獲 得 な どが行 なわれ ている[5,11,

86

staU∋X

P(し)

工曲 正OユコC∈ment:

r

蹴 u

acヒi㎝

Plart

図5.1:Actor-Critic型 強 化 学 習 の ブ ロ ッ ク線 図.

図5.2:経 由点 を用 いたTD学 習.

12,66].こ れ らの モデルで は,図5.1に 示すactor-critic型 の強化学習 に よって時'々刻 々の入力

に対 して最適 な フィー ドバ ック制御 を行 なう.

今後,経 由点表現 と局所 的 な靴道 生成,強 化 学 習 を組 み合 わせ てス ク ラ ッチか らの運動系 列

獲得 の可能性 を検 討 してい く.具 体 的 には以下 の ように進 め る予 定であ る.

方法1:図5.2に 示す ように経 由点表現 を用 い て強化学習 を行 な う.ア クターの出力 は次 の経 由

点 の位 置 と時刻.経 由点 と経 由点 の 間の時 間 は変動 す るが,等 時 間 間隔 と仮定 してTD-

learning(TemporalDi飽rencelearning)を 行 なって もうま くい くか どうか も確 かめ る(5 .4

節).

方法2:図5.3に 示す ようにContinuousTD-learning[11]1な どを用 いて ある程度 成功 に近付 く

まで強化学習 を行 な う.得 られ た運動軌道 か ら経 由点 を抽 出 し,広 義 ニュー トン法 で学習

を行 な う.経 由点 表現 に切替 えるこ とに よ り,次 元が減 り探索空 間 を狭 い範 囲 に限 定で き

るので,よ り少 ない試行 回数 で,運 動系列 を獲得 で きると期待 され る.

で嘉?1eam'ng、 融 的に離散時間で定義 されているがC…'・u…TBI・am・ ・gは 連欄 版のTD柚m…

87

τ

TD-Lea㎜ ∈江x

器d

..無.堕.

Feedbackl口

⊂磁tユ ℃]ユ∈r1 Planし

㎞T【aゴecヒ αy

Plameb(㎞t:=◎]ユerVぬ駆)in

via-R):hユ ヒsvia-R):i皿t:s

M匝fi(at=LQn

図5.3:TD一 学 習か ら経 由点 を用い た広義 ニュー トン法へ の切替 え.

5.3.2サ ブゴール設 定の 自動化

本論 文 で は,こ れ までサ ブゴールの設定 は実験者 の経験 的知識 や試 行錯誤 に よって行 なわれ

て きた.今 後,サ ブ ゴール設定 が 自動 的 に行 なわれ るため に は どの ようにす れ ば よい か を検討

してい く.

運動 指令 と結果 の関係(ダ イナ ミクス)が 質 的 に変化す る場 所,あ るいは経 由点 をサブ ゴー ル

に設 定す る.タ ス クの ダイナ ミクス の解析 には多重対 内部 モデル:MPFIM(Multiple-Paired-

Forward-lnverse-Models)[87]を 用 い る.こ の モ デル は複数 の順 モデ ル と逆 モ デル(線 形 の順 モ

デル と局所 的 に定義 され た評価 関数か ら決 まる局所 的 な最適 制御 器)か ら,タ ス クの ダイナ ミク

スに応 じて最 適 なモ ジュール を選択 す る もの である.

手本 の運動 軌道 が あ らか じめ与 え られ てい る ときは タス クの ダイナ ミクス が質 的 に変化 した

ところが わか るので,MPFIM(Multiple-Paired-Forward-Inverse-Models)を 用 いてサ ブゴール

をあ らか じめ決定 してお くことが で きる と期待 され る.ま た,観 測すべ きダイナ ミクス をどの

よ うに設定 す るか とい うこ とも,手 本 の運動軌 道が あ らか じめ与 え られてい る と きは選択 しゃ

すい.

しか し手本 の運動 軌道 が与 え られ てい ない場 合 には,タ ス クの ダイナ ミクスが質 的 に変化 す

る ような状 況 に偶 然遭 遇す る まで はサ ブゴール を決定 で きない.ま た,手 本 の運動軌 道が与 え

られていない場合 は何 を観測 すべ きダイナ ミクス として選ぶ かが分か らない.

手本 の運動軌 道 が あ らか じめ与 え られてい るか否 か に関係 な く観 測すべ きダ イナ ミクス の選

択が 困難 な場 合 もある と考 え られ る.

具体例:(振 り子 の振 り上 げ)図5.4に 振 り子 の振 り上 げの場 合の例 を示す.振 り子 の振 り上 げ

では振 り子 が† を向 いてい る時 と上 を向い てい る時 とで は回転軸 に加 わる制御 入力 と振 り子 が

88

r隙 ユ,厭)1p∈江t,Ka臓 ヒosU止=niし 仁edt;oMPS98

一tySL劃

RLCα た曲1

RL(加oner2

Fo㈱ 聞e11

Fo翻 聞e12

u(⇔

㎞11α ユC団e沈x(tゴ

εお

醐 赴辻ys畑

鯉1

護〉!輿2

,vo

'

↑Sub-9◎a1

図5.4:MPFIM(Multiple-Paired-Forward-Inverse-Models)を 用 い た振 り子 の 振 り上 げ の サ ブ

ゴー ル 設 定.

回転 し ょ う とす る方 向 が異 な る.振 り子 が 真 横 を向 い た 時 ,MPFIM(Multiple-Paired-Forward-

Inverse-Models)の サ ブ モ ジ ュ ー ル の切 り替 え が起 こ る と考 え られ る .し たが っ て,こ の と きの

状 態 が サ ブ ゴー ル と して選 ば れ る と予 想 され る .

5・3・310caltrajectoryplanner-controller

従 来使 用 して きたFIRMで は与 え られた始点 と経 由点 ,終 点 を通 る軌道 を運動 時 間全体 にわ

た って生 成す る.し たが って視覚 フィー ドバ ックな どを用 レ}た運動途 中での軌道修 正 が不 可能

であった.

前節 で述べ た強化 学習 と経 由点 を組 み合 わせ る方法1,2や 視覚 フィー ドバ ック に よる制御 を

行 な うため に,局 所 的な時間幅での軌道生成 を逐次行 な う軌道計 画器 を構成 したい .

Ho且Arbibの モデ ルは この 目的 にか な うモ デルの ひ とつ であ る.図5.5と 以下 の式 にHo岱

Arbibの モ デル を示す.

q='(劣,tノ,α)T,

T=(T,0,0)T,

d誘q=Aq+βT,

(5.1)

(5.2)

(5.3)

89

十舶A

aP

FeedbackVu雌tf

τ 鰯」κ

暑 工nverseV「

adynamics

a厘1μan仁X

図5.5:Hoff&Arbibの 躍 度 最小 軌 道生 成 器.

.4=

B=

Dニ

嘉 嘉 る),

詠 〕,オf一 オ

(5,4)

(5。5)

(5.6)

Hoff-Arbibの モ デルは現 在の位 置 と速度か ら目標位 置 丁 と到達時 間 オ∫を与 える と躍度 最小 軌

道 ω を生成 す るフ ィー ドバ ックコン トローラで ある.し か しHo伍Arbibの モ デル にはい くつ か

の不 満が あ る.最 適化基 準 と して躍 度最小 が必ず しも正 しい とは限 らない こ とと,パ ラメー タ

があ らか じめ組 み込 まれてい るこ とで ある.

最 近,躍 度最小 基準 も トル ク変化 最小 基準 も用 い ないサ ッカー ド眼 球運動 とヒ ト腕 の運動軌

道 を再現 で きる新 しい モデ ルが 出 て きた[23】.こ のモ デル は運動 指令 の大 きさに依存 した ノイ

ズが運動 指令 に加 え られ る と き,運 動 後 の分散 が最 も小 さ くなる ような軌道 が生 成 され る とい

う もので あ る.こ のモ デ ルは非 線形 計画 問題 の なかの二次計 画 問題(quadraticprogramming

problem)に 帰着 され,MATLABな どの汎用 数値計算 ソフ トウエ アに よって解 を得 るこ とが で

きる.こ の モデ ルは強化学 習 を用 い て解 くこ とがで きる可能性 があ る.今 後,上 述 の軌 道計 画

モ デルを強化 学習の枠 組で解 くこ とを 目標 と したい.

5.4ス クラ ッチか らの 運動系 列獲 得;経 由点 表現 を用 いた強化学 習 によ る振 り

子 の振 り上 げ運動 の獲 得.

本節 では経 由点 と強化 学習 を組み合 わせ た枠 組 を新 たに提案 し,そ れ を用 い てcart-pole制 御

のため の運動系 列 の学習が可 能で あ るこ とをシ ミュ レー シ ョンに よ り示 す.こ の新 しい枠組 で

は以下 の要素 を取扱 う.

(1)経 由点 と最適化原理に基づ く軌道生成.

90

P(⊃siti

opt二 ■mum

t=臓コ∈d双y

並XS

viaざX)inヒ

X▽

瓠 ゼpoint:

X

tftime

図5.6:経 由点 と最適軌 道.

(2)時 間 に関 して局 所 的 な軌 道 生 成(10caltrajectoryplanner-controller).

、(3)強 化 学 習.

(4)サ ブ ゴール設定 の 自動化.

本稿 で は まず第1ス テ ップ と して,こ れ らの うち(2)と(3)に 関 して考 える .(1)に 関 して は,

本節 で は躍度最小軌道 を仮定す る.(4)に 関 しては,本 節 ではひ とつの ゴールの みで学 習可能 な

タスク と して振 り子 の振 り上 げを選 んだ.

5.4.1経 由点 と最適軌道 の時 間局所 的 な生成.

図5・6に 始点 ・終 点 とひ とつの経 由点 と,再 構成 された最適 軌道 を示す .心 理物理 実験:から示

唆 され る人腕 の最適軌 道モ デル としては躍度 最小軌 道(minimumjerktrajectory)や トル ク変化

最小軌 道(minimumtorqechangetrajectory)な どが提案 され てい る.始 点(運 動 の開始時),

経 由点,終 点(運 動 の終了時)が 与 え られ た時,こ れ らの点 を通 る最適 軌道計 画 問題 を考 える .

始点,経 由点,終 点 にお ける位 置,速 度,加 速度 をそれぞれ(ωS,ωS,:rs),(ω。,餌,諺。),(ωf,勾,房f)

とす る.始 点 と経 由点 間,経 由点 と終点 の時刻 をそれぞれ オ。,孟fとす る.最 適軌 道 を躍度最小軌

道(5次 多項式)と す る と,¢f=0,島=0と おいた とき ¢。,¢.が 容易 に決定 で き,最 適軌道が

計算 で きる.

複雑 な運 動 に対 して は複数 の経 由点が必 要 とな るが,す べ ての経 由点 か ら大 域 的 な最適軌 道

を計算 す る従 来 のFIRMを その まま用 いたので は ,運 動途 中での軌道修 正が不可能 であ る.

本節 で は運動途 中で の軌道修 正 を可 能 とす るため に図5.7に 示 す ように,局 所 的 な経 由点 と

最適軌 道 の生成 を繰 り返 して全体 の運動 を行 な う.こ の とき,現 時点 とひ とつ先 の2つ の経 由

点のみを用い為あでは,そ の経由点での速度 と加速度 を決定で きない.仮 にその経由点での速

度 と加速度 を6と するとぎこちない動作になり不自然である.局 所的な経由点を滑 らかにつな

91

Xn+1

!〈 薇2⑦:

tirユ+1t二'n+2

Xn

Xn+ユ

\こ寧寄 ろ

≒h+1th+2

x'n+3

!一 一 く'

t'n+3

図5.7:局 所的な経由点 と最適軌道の生成:○ は経由点の位置,× は仮の経 由点の位置 を示す.

破線は計画 された軌道,実 線は実行 された軌道,細 い破線 は破棄された軌道をそれぞれ示す.

いでい くよ うにす るため に,図5.7上 に示 す よ うに,ま ず 時刻 オ.に お ける経 由点 の位 置 を ∬.

とす る とき,ひ とつ先 の経 由点 の位 置 と時 間 賜+1,ち+1を 決め,同 時 にふ たつ先 の経 由点の位

置 と時 間を暫 定的 に コr髭+2,塩2と す る.つ ぎに仮 の経 由点 鑑+2に お け る速度,加 速 度 を0と

して最適 軌道(¢ 。→ ω。+・→ ω傷+2)を 生成す る.上 で得 られた最適軌道 の うち前 半部分(∬.→

妬+1)を 目標軌道 と して制御 を行 な う.時 刻fη+1に な った時点で(図5.7下),す で に生成 され て

い る最適軌 道 ¢π+1→ 垢+2)を 破棄 して新 た に経 由点 ωπ+2,鑑+3を 上記 と同様 の手順で生成す

る.こ の ように して次 の経 由点 に移行 す る こ とに,つ ぎつ ぎと経 由点 と最適軌 道 の生成 を繰 り

返 して運動 を行 な う.

5.4.2経 由点 を用 い たTD(TemporalDi伽rence)学 習

actor-critic型 強 化 学 習

本節で提案 す る経 由点表現 を用いた強化学習 の枠組 を図5.8に 示 す.こ のモデ ルはactor-critic

型 の強化 学習 に経 由点表現 を組み込 んだ形 となってい る.actor-critic型 の強化 学習 モデ ルは,

actorと 呼 ばれ る制御 ネ ッ トワー ク とcriticと 呼 ばれ る評価 ネ ッ トワー クか ら成 る.actorは 状

態入力 に対 す るフ ィー ドバ ック制御 出力 を強化学習 の原理 に よ り学 習す る.criticは 今の制御対

象 の状 態が どれ ぐらい失敗 に近 いか(あ るい は成功 に近 いか)を 示 す評価 関数 をTD誤 差 を最小

92

TD一:Leam∈r

X

P(ヒ)

r

ad二 αr1

acしQr2

acしc肛3

acヒ(:町4

,磁d圃 α丈母y

=e±nfα職ntsignal Plant

VvlXv1

㌔1

Vv2Xv2

tv2

晦 駆 Σhts,

movementtime

m◎v鞭nヒ ヒem㎞ ヒ〔蛾

ヒ頃j㏄㎞:y

plε㎜ 一⊂α虹bセ

(αtrd1ユ ∈r

Xd

des:㎞

ヒ向(珈y

図5.8:経 由点 を用 いたTD学 習のブ ロック線図.

化 す るよ うに学 習す る.

criticの 学習

旙 目の勧 点 の時刻 を 孟・と表 す・あ る状 態麟 と制御変数x㈲,礁)の もとで報酬R㈲ 一

γ(x(オ。一1),U(オπ_1))を 受 け取 る とき以下 の ように価値 関数 を定義す る.

γ(x(ち))一R㈱+7R(ち+・)+72R(オ 。+・)+…(5 .7)

0≦7≦1は 割引率(discountfactor)で ある .こ こで価値 関数の推定値 をP(x(オ η))と す ると,

推定値 の非整合性 を表すTD誤 差 デは以下の ようになる.

デ(オπ)一R(孟 ・)+7P(x(オ ・+・))一P(x(オ 。))(5.8)

criticはTD誤 差 ゲが0に なるよ うに学習 を行 な う.

actors

aCtOrの 関 数 近 似 器 の 出力 をZ`(x(ち))と す る .aCtOrの 出力 は以 下 の よ う にす る .

…(X(ち))=・ ・(X(オ。))+・ 。、(オ。)

孟・・(X(オ・))=・ ・(零(ち))+・,・(オ。)

/・ 。、(X(オ。))一 ・、(X(捗。))

オ。2(X(オ 。))=Z4(X(オ 。))

93

(5.9)

(5.10)

(5.11)

(5.12)

U。1,"。2は 単 位 時 間 あ た りの経 由 点 の 移動 量,孟 。1,オ。2は 経 由 点 間 の 時 間 をそ れ ぞ れ表 す.た だ し

オ。1(X(オπ))<孟minの と きは オ。1=孟minと す る.亡 。2に つ い て も同様 とす る.之p1(fπ),之p2(オ π)は 探

索 を行 な う た め の摂 動 で あ る.こ れ らか ら経 由点 の 時 間 と位 置 を以 下 の よ う に計 算 す る.

オπ+1=舌 π十 オv1(5.13)

オa+2==オ π+1十 孟v2(5。14)

∬π+1=∬ η十?ノv1オv1(5.15)

コじ傷+2ニ=⑳ π+1十"v2オv2(5ユ6)

actor1,2の 学 習

actor1とactor2に 関 して は,大 きな デ を生 じた制 御 出力 が 同 じ状 態 で 再 び 出力 され る よ.うに

学 習 す る.学 習 の た め の 入 出力 ペ ア ー と教 師信 号 は以 下 の よ う にな る.

X(孟π_1),Z・(X(オ 。一・)),之 ・(X(孟。一・))+Zp・(オ 。一・)ア(オ。一・)

X(ち_1),Z2(X(孟 。一・)),Z2(X(孟 。一・))+之P2(オ 。一・)デ(オ。一1)

actor3,4の 学 習

図5.7に お い て 妬+2と 鑑+2お よび 孟π+2と オ梶+2が そ れ ぞ れ等 し くな る よ う に学 習 を行 な う

と,仮 の 経 由 点 が 正 し く予 測 され る よ う に な る.す な わ ち,学 習 の た め の 入 出 力 ペ ア ー と教 師

信 号 は以 下 の よ うにす る.

x(オπ_2),z3(x(ち_2)),z1(x(オ π_1))(5.17)

x(ち_2),z4(x(ち_2)),之2(x(ち_1))(5.18)

5.4.3振 り子 の 振 り上 げ運 動 学 習 数値 実 験

前 節 の経 由 点 表 現 を用 い た 強化 学 習 を図5.9の よ うなcart-pole型 の振 り子 振 り上 げ 問題 に適

用 した.

下 に垂 れ た(θ=一 π)振 り子 を,回 転 軸 を ⑳ 方 向 に動 か して振 り上 げ,倒 立 状 態(θ=0)に 保

持 す る こ とが 運 動 の 目標 で あ る.振 り子 の力 学 モ デ ル は

..△θ・+1一(1一 α・)θ汁 丁(9・i・(θ・)橋c・ ・(θ∂) ・(5・19)

と した.こ こで θ歪,傷θ葱偽 は そ れ ぞ れ 時刻 乞に お け る振 り子 の 角度,角 速 度,角 加 速 度,回 転 軸

に対 す る横 方 同あ 加 速 度 で あ る.α1は 粘 性 項,△=1/605は 刻 み 時 問,g=9.81m/52は 重

力 加 速 度,1=0.5mは 振 り子 の 長 さ を それ ぞ れ 示 す.こ こで は α1=0.01と した.

94

'、

(、'

θ

κ

1

m8

図5.9:振 り子 の力 学モ デル.

η番 目の経 由点 の時刻 におけ る状 態変数 は

x(tn)一{θ(t・),e(t・),x(tn)調}(5 .2・)

報酬は

・(tn)一{8'+cos(θ(tn)))/2課 評(5 .2・)

と した.最 長 運 動 時 間 は12秒 と した .た だ しlxl≧1の と きr=一1と し終 了 と した .

criticとactorはAdaptiveGaussianSoftmaxBasisFunctionを 用 い た[65] .criticの 出 力 は

以 下 の よ うに計 算 した.ん 番 め のユ ニ ッ トの活 性 化 関 数 を

ak(x(tn))一 ・xp(llM'(x(弩)一 の り(5 ・22)

とす る.た だ しCkは 活性度 の中心,Mkは 活性化 関数の形状 を決定す る行列 であ る.Softmax

基底 関数 は以下 の ように与 え られる.

・b・(x(tn))一 Σ縞 織))(5・23)

ただ しKは 基底 関数 の数で ある.criticの 出力 は

P(x(tn))=Σ ω,b,(x(tn))(5 .24)k=1

と得 られ る.誤 差 が あ る基 準em砥 よ り大 き く ,す べ て の ユ ニ ッ トの 活 性 度 が あ る し きい値 αmi、

よ り小 さ けれ ば,.新 しい ユ ニ ッ トを配 置 す る .新 しい ユ ニ ッ トは

Ck=x(tn),Mk=diag(μ 乞),ωk=z(x(tn))

95

で 初 期 化 す る.

criticの 学 習 は 以 下 の よ う なTD(λ)学 習 を 行 な っ た.

△ ωん=0.3ア(オ π_1)eゐ(舌 π_1)

eた(オπ)=7λ εん(オ。一、)+わ 鳶(X(オ。))

こ こ で θた(オπ)は 各 シ ナ プ ス の 履 歴(eligibilitytrace)を 表 す.criticの 各 パ ラ メ ー タ は

'γ=0.8,λ==1。0,ハ4た=diag(π/4,π,0.5,0.5),

αmin=0.5,emax=0.0001

と した.

actorの 出 力 もcriticと 同様 に計 算 され る.た だ し出 力値 の 範 囲 を

一1≦u。、(x(オ。))≦1

0.05≦ 孟v1(x(オ。))≦1

と な る よ う に制 限 した.'

た.

lZpll<0.3exp(一3P(ち))

1之P2[<exp(一2P(ち))

acもorの 各 パ ラ メ ー タ は

Mた=diag(π/8,π/2,0.5,0.5),

αmi、1=0.6,emax=0.0001

と し た.

実 験 結 果

(5.25)

(5.26)

(5.27)

(5.28)

actor1,2に は探 索 を行 な っ た め の 摂 動zp1,zp2を 以 下 の よ う に与 え

(5.29)

(5.30)

図5.10に1000回 試行後 と2000回 試行後 の振 り上 げの様子 を示 す.予 備 的 な振 りで慣 性 を蓄

えてか ら倒 立状 態 に振 り上 げ た後,保 持 に成功す る ようになってい る.運 動 の始 めの部分 で は

経 由点 の時 間間隔 が長 くと られ フィー ドフォワー ド的 に運動 を行 な ってい る.振 り子が上 の ほ

うに振 り上が った状 態 にな る と自動 的 に経 由点の時 間間隔が短 くな り,細 かい フィー ドバ ック

を行なってバ ラ遜 を保 とうとするよう}こなっている・

本節では経噸 表現 と強化学習 を組み合わせた枠組が振 り子の振 り上げ罰 獲得 に適用可能

で ある ことを示 した.し か し,2000回 程度 と比較 的多 くの試行 回数が必要 であった.経 由点 間

96

o.oo

懸ho吐a

-3 .14

一628

(A)

1.oo

XO,00

一1.00

髄mo

o。oo

暖hota

-3.,4

一623

圃 ∫

=ノ ノ ノ・ 《 辮 〆 〆 喝

一ヘノ》 ヘノ"、・ ㍉1㌧1・1・1・1,響1書,i,1

1234草678910胴 並

ヒimε

(B)

図5.10:(A)991~1000回 試行 後の振 り上 げ と(B)1991~2000回 試行 後 の振 り上 げ.太 い線で示

して ある1000回 目 と2000回 目の試行 は摂動 を与 えてい ない.上 か ら ∬,θ の時間変化 をそれぞ

れ示す.∬ の グラフで 。は経 由点,× は仮 の経 由点 をそれぞれ示す .

97

の時 間 を0.05に 固定 した場合 は非線 形 フ ィー ドバ ック則 を獲得 す る従来 の方式 に非常 に近 い も

の となるが,こ の場合 も同程 度 の試 行 回数 を必 要 とした。パ ラメー タを ファイ ンチ ューニ ング

す れば数100回 程 度 の試行 回数で成功 で きる よ うにで きるか も知 れない.し か し,現 時点 の シ

ミュ レー シ ョン結果 か らは,本 研 究 で提案 す る枠組 が工学 的 な応用 面 におい て は,従 来の方法

と比べ て明 か なア ドバ ンテージ を もつ とはいい難い.本 稿 で は状態 変数 の時 間遅 れ は無い もの

としたが,今 後,時 間遅 れ のあ る場合 も調べ る必要 があ る.生 物 の フィー ドバ ックルー プは時

間遅 れが大 き くゲイ ンが小 さい.し たが っ て高速 で協 調 的 な運動 は前 向 き制御 に よって実行 さ

れ な くて はな らない.本 稿 で提案 した枠 組 は,脳 のモ デル と して適 してい る と期 待 され る.今

後,生 物 の振舞 い を良 く再 現で きる脳 のモ デル を目指 し,状 態変数 の時 間遅 れ が大 きい場合 や

多 自由度の運動制御 な どを調べ てい きたい.

98

第6章

ま とめ

本論文では,最 適化原理 に基づ く双方向性神経回路モデルを用いた見 まねによる運動学習ロボッ

トの検証実験を行 ない,見 まねによる運動学習の枠組の学習可能性 と汎用性について考察 した.

以下に本論文の結論 として各章ごとの要点 を述べ る.

6.1け ん 玉

第2章 では,け ん玉の運動学習ロボ ットに関 して述べた.け ん玉は比較的単純 な運動であっ

た・経 由点抽 出のタスク表現 としての適切 さを評価 した.し か し,見 まねによる運動学習の枠

組の学習可能性 と汎用性 を調べるために,次 節の実験 を行なう必要があった.

6.2テ ニ ス サ ー ブ

第3章 で は,テ ニスサ ーブの運動学 習 ロボ ッ トに関 して述べ た.本 研 究で行 なったテニスサー

ブは,玉 を放 り上 げ る動作 と,玉 を打つ動作 の2段 階の学習が必 要 で,第2章 で述べ た けん玉

の運動 学習 に比べ て,学 習が 困難 であ った.そ の理 由 はサ ブ タス ク1の 学 習 とサ ブ タス ク2の

学習が互 い に強 い依存 性 を持 ってい るためで あった.こ の問題点 を解 決す るため に,最 初 にとっ

た方策が ・学 習の制御 変数 として選 ぶ経 由点 を制限 す るこ とで あった .し か し,そ の選 びか た

は実験 者 が試行 錯誤 で選 び 出 した もので ,根 拠 が ない もの であ った.そ こで,ヤ コビ行 列 を解

析す るこ とに よって経 由点の選択 を適切 に行 な う方法 を提案 した .

6.3振 り子 の振 り上 げ

第4章 で は,振 り子 の振 り上 げの運動学 習 ロボ ッ トに関 して述べ た .広 義 ニュー トン法 だけ

に限 らず,あ る軌 道 の まわ りでの線形近似 を用 い る ことは非常 に多 い .学 習の結果,軌 道 そ の

ものが変化 す る9で,当 然,そ の軌 道の まわ りでの線形近似 は最 初 の もの とは異 なって くる.

第2章 で述べ だ けん玉の運動 学習や 第3章 で述べ たテニ スサ ーブの運動 学習 に関 しては,軌 道

99

の変化が比較的少 ないので,最 初の軌道のまわ りで求めた線形近似 をその まま用い続けること

が可能であった.し かし,振 り子の ような非線形性の強い制御対象の学習制御 を行 なうとき,

最初の軌道の まわ りで求めた線形近似 をその まま用い続けたのでは,学 習が発散 して しまう.

振 り子の場合には振 り子が下で振れているときと,上 で振れているときとでは,軸 の動か し方

に対 して振 り子の振るまいが まった く変わって しまうか らである.学 習の途中で線形近似 を行

なえばよいのであるが,線 形近似 を行 なう時期 を自動的に決定することは非常に困難である.

また,線 形近似 を行なうためにだけ試行を行 なうことは非常 に効率が悪い.以 上の問題 を解決

する為に学習の履歴を用いて,線 形近似 を行なう方法を提案 した.

6.4今 後 の課 題

第5章 では,第4章 までの運動学習の枠組の問題点 と今後の課題 に関 して述べた.第4章 ま

での従来の枠組では以下の問題点が未解決のまま残っている.1)運 動 を行 なう前 に全体の軌道

生成を行 なうので運動途中での軌道修正が不可能である.2)サ ブゴールの設定が実験者の直観

と試行錯誤 によって与えられた.3)手 本の運動を超えられない.手 本 より上手な運動はできな

い.4)白 紙の状態か らまった く新 しい運動パターンは獲得で きない.

これ らの課題 を解決するために,階 層的強化学習の新 しい枠組を構築する必要がある.

スクラッチか らの運動系列獲得の枠組の構築のために,ま ず第1ス テップとして経由点 と最

適化原理に基づ くモデルに強化学習を組み込んだモデルの数値実験を行なった.

100

謝辞

本研究を進めるに当たって,ご 指導 と助言をいただいたATR人 間情報通信研究所川人光男室

長,大 阪大学基礎工学部生物工学科福島邦彦教授 に感謝いた します.川 人室長には神経回路モ

デルを研究す る機会を与 えていただき・大阪大学奉礎工学部生物工学科4年 在学 中,大 阪大学

大学院基礎工学研究科博士前期課程在学中,ATR人 間情報通信研究所在職中お よび科学技術振

興事業団奉職中を通 じて様々な知識 と有益 な議論 を賜わ りました.福 島教授 には大阪大学大学

院基礎工学研究科博士後期課程在学中に様々な知識 と有益 な議論 を賜 わ りました.ま た本論文

の主査 をしていただ き,本 論文 をまとめる際 にも貴重なご意見をいただ きました.本 論文の副

査 をしていただ きました大阪大学基礎工学部生物工学科佐藤俊輔教授,中 野馨教授の皆様 に感

謝いた します.最 後 に貴重 な御意見 をいただ きました大阪大学基礎工学部生物工学科倉田耕治

講師お よび庄野逸助手の皆様,大 阪大学基礎工学部生物工学科の皆様,ATR人 間情報通信研究

所第3研 究室の皆様,お よび科学技術振興事業団川人学習動態脳 プロジェク トの皆様 に感謝い

たします.

101

参考文献

[1]EW.Aboaf,C.G.Atkeson,andD.J.Reinkensmeyer.Ta6k-levelrobotlearning.In

pγ ・occεθ(」2ηg5,ZEE五71物 オθrη α孟乞oηαZOo7承3rθ γLcεoγL」 配oδoオ ¢c5α γL(」ノ1賜孟omα 拓oη,pp .24-29,

Philadelphia,April1988.

[2]有 本 卓.ロ ボ ッ ト知 能 と タス ク理 解.シ ス テ ム/制 御/情 報,Vol.37,No.10,pp.569-575,

1993.

[3]浅 田春 比 古.マ ニ ピュ レー シ ョ ンの知 能.日 本 ロボ ッ ト学会 誌,V6L5,No.6,pp.487-494,

1987.

[4】C.G.AtkesonandS.SchaaLRobotlearning倉omdemonstration.In、 醜 θ糀 αオ20π α」

Ooγ 癖reγ}cθoπ ハ4αcん ¢γ}θ1}θαrπ2η9,1997.

[5]A.G.Barto,R.S.Sutton,andC.W.Anderson.Neuronlikeadaptiveelementsthat

cansolvedi伍cultlearningcolltrolproblems.IEEE野 αη5αc翻oη50π3〃8孟 θm8,、Mα π,α η4

0〃 δeγ・ηe翻c3,Vbl.13,pp.834-846,1983.

[6]D.J.Benllett.Torquesgeneratedatthehumanelbowjointinresponsetoconstant

positionerrorsimposedduringvoluntarymovements.E叩 θ而mθ 窺 α♂βrα伽Rε5eαrcん,

Vol.95,PP.488-498,1993.

[71D.J.Bennett,J.M.Hollerbach,Y.Xu,andI.W.Hunter.Time-varyingsti伽essof

h旦manelbowjointduringcyclicvoluntary 、movement.翫per伽 θ窺 α」.βγα伽Rθ5ε αrcん,

Vol.88,PP.433-442,1992.

[8]J.J.Craig.1傭o伽c6伽 彦oTo励c8」 ム4θcんα耽5α π4co漉o乙Addison-Wesley,Reading,

MA,secondeditionedition,1989.

[9]J.Decety,D.Perani,M.Jeannerod,V.Bettinardi,B.Tadary,R.Woods,J.C.Mazziotta,

andF・F・ 零6・M・pPi・gm・t・rrep・e・ent・ti・n・withp・ ・it・・n・missi・nt・m・9・aphyN鷹,

Vbl.371,No.13,pp.600-603,0ct1994.

102

[10]G・diP・ll・g・i・ ・,L・F・dig・,'L・F・gassi,V・G・II・ ・e,andG.Ri乞 ・・1・tti.U・derstandi。g

motorevents:aneurophysiologicalstudy.翫pθ 短meπ 舌α1Bγ α伽 丑 θ8θαrcん,Vol.91,pp.

176-180,1992.

[11]KD・y・ ・T・mp・ ・aldi恥 ・ence1・ami・gi…ntinu・u・tim・and・pace.1・D.S.T。uret,ky,

M・C・M・ze・,・ndM・E・Hasselm・,・dit・rs,肋 ・…82・N… α1勧 ・㎜ ・伽P・ ・c・・蜘

3〃8孟8㎜38,pp.1073-1079.MITPress,Cambridge,MA,USA,1996.

[12]KDoya・EfE6ientnonlinearcontrolwithactor-tutorarchitecture.InM.C.Mozerand

M・1・J・ ・dan,・dit・rs,オ4・ ・・…2・ 勘 ・・砺 ・・m・ 痴・・P・ ・c・88吻3〃 ・伽 ・8.MITPress,

Cambridge,MA,USA,1997.

[13]R.Featherstone.Roδo孟 吻 ηαm乞c8α1go漉 んm5.Kluwer,Boston,1987.

[14]J.R.Flanagan,D.J.Ostry,andA.G.Feldman.Controloftrajectorymodificationsin

target-directedreaching.Jo脚 ηαZ(ゾ ルfoオorβeん α面or,Vol.25,No.3,pp.140-152,1993.

[15]T・Flash・Thecontrolofhandequilibriumtrajectoriesinmulti-jointarmmovements.

β 乞oZog¢cα1(7シ6θrη θ彦ぼc5,Vbl.57,pp.257-274,1987.

[16]T.FlashalldE.Henis覧Armtrajectorymodificationsduringreachingtowardsvisual

targets.Jot轟mαJo/Oog蛎 伽 θ1Vε 脚03c2ε ηcε,Vbl .3,No.3,pp.220-230,1991.

[17]T・Fl・ ・h・ ・dN・H・gan・Thec…dinati・n・f・ ・mm・ マ・m・nt・ ・A・ ・ゆ ・・im,。t。11y,。n.

且rmedmathematicalmodeLJo脚 ηα」(ザ ノVθ雛08c2ε ηcθ,Vol.5,pp.1688-1703,1985.

[18]T・Fl・ ・h・ ・dN・H・gan・.Thec…dinati・n・f・ ・mm・v・m・nt・ ・A・ ・xp・ ・im,nt。11y,。n.

丘・m・dm・th・m・ti・alm・d・1・ 加 ・・Z岬 ・・鵬 ・・cθ,V・1・5,PP・1688-1703, .1985.

[19]T・F・jii,T・ ぬ ・ud・,S・ 梅k・i,andJ・T・ ・iw・ki.A・i・tua1P・ ・d・1・mmanip・1・ti・ 。,y、t,m

・nag・aphi・ 耐 ・・k・t・ti・n・1・P・ …e吻 ・,2・ 弼EE血 オ・… 伽 ・岬 傭 ん・P。 濾 。δ。オ

απdl1∫umα ηOommuγ 語cαあoη,1993.

[20]M・F両it・ ・Ad・pti・ ・ 且lt・・m・d・1・fthece・eb・ll・m.β 吻2・ α」0吻 ・・オ乞c8,V・L45,PP.

195-206,1982.

[21]A.P.Georgρpoulos,J.F.Kalaska,andJ.T.Massey。Spatialtrajectoriesandreactioh

tim…f・ 坤 ・dm・v・m・nt・ ・E伽 ・t・ ・fp・a・tice,unce・t・i・ty,and・ha・g・i・t・ ・g,tl。,ati。n.

Jotπ ηαZ{ゾ ノVe賜rop吻3乞010g〃,Vol.46,No.41pp.725-743,1981.

103

[22]H.Gomi,Y.Koike,alldM.Kawato.Humanhandstiffnessduringdiscretepoint.to-point

m・lti→ ・i・tm・v・m・nt.1・P・ ・C・・吻 ・ け 冊E助 伽ee吻 嘱M・d乞 ・伽 α・4疏 ・」・9〃

50c乞 εオ〃,pp.1628-1629,1992.

[23]C.M.HarrisandD.M.Wolpert.Signa1-dependentnoisedeterminesmotorplanning.

ノVα施re,Vol.394,No.20,pp.780-784,August1998.

[24]肥 爪 彰 夫,吉 田 雅 彦,吉 川 順 偉,竹 内 章,北 澤 京 介.高 次 外 乱 オ ブ ザ ー バ に よ る ロ ボ ッ ト ァ ー

ム(と め け ん)の 加 速 度 基 準 型 高 速 運 動 制 御.日 本 機 械 学 会 ロ ボ テ ィ ク ス メ カ ト ロ ニ ク ス 講

演 会 論 文 集,pp.1272-1277,1994.

[25]B.HoffandM.A.Arbib.Modelsoftrajectoryfbrmationandtemporalinteractionof

reachandgrasp.Jo脚 ηαJo/MoオorBθ んα麗or,V61.25,No.3,pp.175-192,1993.

[26]市 田 浩 三,吉 本 富 士 市.ス プ ラ イ ン 関 数 と そ の 応 用.教 育 出 版,1979.

[27]K.Ikeuchi,M.Kawade,andT.Suehiro.Assemblytaskrecognitionwithplanar,curved

andmechanicalcontacts.IIIProceθ4伽930/IEEE瓦 オerηαオ歪oηαZOoη 角rθ ηcεoηRoδo痂5

αηd乃 脱om醐oη,V61.2,pp.688-694,Atlanta,May1993.

[28]磯 部 倫 明,川 人 光 男,鈴 木 良 次.関 節 角 座 標 お よ び 視 覚 座 標 に お け る 産 業 用 マ ニ ピ ュ レ ー タ

の 繰 り返 し 学 習 制 御.信 学 技 報MBE87-134,pp.241-248,1988.

[29]M.Ito.Neurophysiologicalaspectsofthecerebellarmotorcontrolsystem.血 孟erηαオ20ηα♂

Jouγ.π α♂(ゾ ハ「θuroJo9〃,Vbl.7,PP.162-176,1970.

[30]M.Ito.Tんecε7θ6eZ1賜mα 溺 πeurα1coη 加o乙RavenPress,NewYbrk,1984,

[31】 伊 藤 宏 司,伊 藤 正 美.生 体 と ロ ボ ッ トに お け る 運 動 制 御.計 測 自 動 制 御 学 会,1991.

[32]M.1.Jordan,T.Flash,andY.Arnon.Amodelofthelearningofarmtrajectoriesfrom

spatialdeviations.Jo駕mαZo∫Oog痂 彦勿eIVεuro8c¢ θηce,V6L6,No.4,pp.359-376,1994.

[33]S.B.KangandK.Ikeuchi.Towardautomaticroboもinstructionfromperception-

recognizingagraspfromobservation.1εEE野 απ3αcカ20ηoη 、Ro60オ乞c3α π4、4脱omα 彦20π,

Vbl.9,pp.432-443,1993.

[34】M.Katayan}aandM.Kawato.Virtualtrajectoryandstiffnessellipseduringmuti.joint

ダarmmov¢mentpredictedbyneuralinversemodels.B20Jog乞cα 」0ψerη θ診¢c3,Vol.69,pp。

353-362ゴ1993.

104

[35]MK・w・t・ ・M・t・ ・th…y・f・peechp・ ・cepti…evi・it・d廿 ・mmi・im・m-t・ ・que-ch・ng,

neuralnetworkmodel.InPTocε εd伽g5(ゾ8オ ん3〃mpo8盛umoη 施 加rεElec加oπ1)e面cθ5,pp.

141-150,1989.

[36]M・Kawato.Optimizationandlearninginneuralnetworksfbrfbrmationandcontrolof

… 士dinat・dm・v・m・ ・t・1・D・M・yerandS.K・mbl・m,・dit・rs,甜 ・励 ・ 。。4P,吻.

m・ πcε・♪σ 防3〃 ・・ゆ ε8¢・1砒P・ ・伽 伽ZP・ 〃・ん・1・9〃,孟 噸 ・2・」傭 ・Z」乞9・・ce,・ ・40・9・ 伽 ・

1Vεuro8cづ εηcε 一、43伽 θγ 」鉱6¢1eθ,pp.821-849.MITPress,Cambridge,MA,USA,1992.

[37]M.Kawato,KFurukawa,andR.Suzuki.Ahiera士chicalneural-networkmoとelfbrcontro1

・・dl・ar・ihg6f・ ・lunt・ ・ym・v・m・nt・B晦 ・α」0伽 晦 ~bl ・57,PP.・69一 ・85,1987.

[38]M.Kawato,F.Gandolfb,H.Gomi,andY.Wada.Teachingbyshowinginkendamabas6d

olloptimizationprinciple.InM.MarinaroandP.G .Morasso(Eds.),editors,Prooeθ 漉 ηg5

0ノ 孟んθ1物 孟θrπα擁oη α」Oo7乖 γ'θηceoη ノ17≠叛c2α 」1Veurα 」!Vθオωoγ・鳶5,PP.6-29,Sorrento,Italy,

1994.

[39]M.Kawato,M.Isobe,andR.Suzuki.Coordinatestransfbrmationalldlearningcolltrolfbr

visually-guidedvoluIltarymovementwithiteration:Anewton-likemethodinafullction

space.疏oJog¢cαZ(惣 δεTηeオ2c8,VoI.59,pp.161一 耳77,.1988.

[40]川 人 光 男.脳 の 計 算 理 論.産 業 図 書,』1996.

[41]Y.Kobayashi,K.Kawano,A.Takemura,Y.Inoue,T.Kitamura,H.Gomi,and

M.Kawato.Inverse-dynamicsrepresentationofcomplexspikedischargesofpurkinje

cellsinmonkeycerebellarventralpara且occulusduringocularfbllowingresponses .In

30cづe吻!bγ1Vε 脚05c2θ πce.465伽c孟5,Vbl.21,SanDiego,140,November11-161995.

[42]小 池 康 春,川 人 光 男.神 経 回 路 モ デ ル を 用 い た 表 面 筋 電 信 号 か ら の 人 腕 の 軌 道 生 成.信 学 技

報,HC94-24,pp.61-66,1994.

[43]Y.Kuniyoshi.Thescienceofimitation-towardsphysicallyalldsociallygroundedintel。

ligence一.EWO%cん.Eεp.,Vbl.TR-94001,pp.123-124,1994.

[44]Y.Kuniyoshi,M.Inaba,andH.Inoue.Learningbywatching:extractingreusabletask

knowledgefromvisualobservationofhumanperfbrmance .ZEEE%α π8αc伽 ηoηRoδoオ2c8

αη4∠4賜 孟oηげα拓oη1,Vbl.10,No.6,pp.799-822,1994.

f!

105

[45]Y.Kuniyoshi,HInoue,andMInaba.Teachingbyshowing:Generatingrobotcommand

sequencesbasedonrealtimevisualrecognitionofhumanpickandplaceactions .」3RJ,

Vbl.9,pp.295-303,1991.

[46]国 吉 康 夫,井 上 博 允,稲 葉 雅 幸.人 間 が 実 演 して見 せ る作 業 の実 時 間 視 覚 認 識 とそ の ロ ボ ッ

ト教 示 へ の応 用.日 本 ロボ ッ ト学 会誌,Vol.9,No.3,pp。295-303,1991.

[47]国 吉 康 夫.自 律 ロ ボ ッ トに お け る注 意 と視 点:情 報 の分 節 ・統 合 ・共 有.人 口知 能 学 会 研 究

会 資 料,VbLSIG-FAI-9402-7(10/3-4),pp.37-40,1994.

[48]A.M.Liberman,F.S.Cooper,D.P.Shankweiler,andMStuddert-Kennedy.Perception

ofthespeechcode.P8〃cんoJo92cα ♂」配θ"2εω,Vbl.74,PP.431-461,1967.

[49]A.M.LibermanandI.GMattingly.Themotortheoryofspeechperceptionrevised.

Oo9η ¢拓oγL,Vol.21,PP.1-36,1985.

[50]D.Marr.砺8乞oη.NewYbrk:W.H.Freeman&Company,1982.

[51]L.MassoneandE.Bizzi.Aneuralnetworkmodelfbrlimbtrajectoryfbrmation.β20Zog¢cα 」

0ψe糀 θオ乞c3,Vol.61,No.6,pp.417-425,1989.

[52】 三 浦 宏 文,井 上 博 允,下 山 勲,井 筒 正 夫,光 石 衛,竹 中 一 起,木 村 壮.視 覚 を も つ マ ニ ピ ュ レ ー

タ の 動 的 制 御(ロ ボ ッ ト に よ る 「け ん 玉 」 の 実 現).58年 度 科 学 研 究 費 補 助 金 研 究 成 果 報 告

書,pp.55-63,1984.

[53】H.Miyamoto,EGandol飴,H.Gomi,S.Schaal,Y.Koike,R.Osu,E.Nakano,Y.Wada,

andM.Kawato.Akendamalearningrobotbasedonadynamicoptimizationtheory.4む ん

刀9EE瓦 オeTπαあoπ α」 レ「zorん5んoPoγL」Roδoオ αγL(」1動mα ηOomγ ηuη客cα翻oη,PP.327-332,1995.

[54]H.Miyamoto,F.Gandolfb,H.Gomi,S.Schaa1,Y.Koike,R.Osu,E.Nakano,Y.Wada,

andM.Kawato.Akendamalearningrobotbasedonadynamicoptimizationprinciple .

1物孟θγ・ηαオ乞oηαZOoγ げ『εTeγLceoη1Ve錫 γ・α」1毎oTmα 擁oπ 」Pγりce352ηg,pp.938-942,1996 .

[55]H.MiyamotoandM.Kawato.Atennisserveandupswinglearningrobotbasedon

dynamicoptimizationtheory.1Ve郡 α」1Vεカωo沈5,Vol.11,No.7-8,pp.1331-1344,1998。

[56]H.Miyamoto,M.Kawato,T.Setoyama,andR.Suzuki,Feedback-error-learningneural

network衆>rtrajectorycontrolofaroboticmanipulator・ ノVe脚 αZNeオ ωo嫡3,Vol .1,PP.

251-265,1988.

106

[57]H・Miy・m・t・,S・S・haal,F・Gand・lf・,H・G・mi,Y.K・ik・,R.O・u,E.N・k…,Y.W。d。,

andM.Kawato.Akendamalearningrobotbasedondynamicoptimizationtheory .Ne雛 α♂

1Vθ`ωo沈8,Vol.9,No.8,pp.1281-1302,1996.

[58]宮 本 弘 之,五 味 裕 章,川 人 光 男 ・最 適 化 原 理 に基 づ く見 まね に よ るけ ん 玉 学 習.PP.453-459,

1985.信 学 技 報,NC20-5.

[59】 宮 本 弘 之,F.Galldolfb,五 味 裕 章,Schaal,小 池康 春,大 須 理 英 子,中 野 恵 理,和 田安 弘,川

人 光 男.最 適 化 原 理 に基 づ く見 まね に よ る け ん玉 学 習.信 学 技 報 ,NC94-143,pp.223-230,

1995.

[60]宮 本 弘 之,五 味 裕章,川 人光 男.タ ス ク レベ ルの ロボ ッ ト学 習.シ ス テム/制 御/情 報,

Vol.39,No.9,pp.419-426,1995.

[61]宮 本 弘 之 ・ロ ボ ッ トへ の教 示 方 法.計 測 と制 御,第36巻9号,PP.627-630,1997.

[62]宮 本 弘 之,川 人 光 男.作 業 レベ ル の ロボ ッ ト学 習 の た め の 見 ま ね に よる教 示.電 子 情 報 通 信

学 会 論 文 誌D-II分 冊,印 刷 中,1998。

[63]宮 崎 文 夫.タ ス ク理 解 と学 習.シ ス テ ム/制 御/情 報,Vo1.37,No.10,pp.615-621,1993.

[64]P・M・ ・ass・・Sp・ti・1・ ・nt・・1・f・・mm・v・m・nt・.伽 ・蜘 伽1β ・・湘 … 畝V・1.42,

pp.223-227,1981.

[65]J・M・ ・im・t・a・dK・D・y・ ・R・i・f・・cem・ntl・a・ni・g・fdynami・m・t・rseq・ ・nce・L・a・ni・g

tostandup・InPγ 験ocθε42γLg50ノ オんε18EE/1~3JIγ 諾ε糀 α拓oγLα♂Ooγ ザeγ・επceoγzIγL孟e〃2geγ 諾

1~060渉3α η43〃5オ εm8,Inpress.

[66]森 本淳,銅 谷 賢治・強化 学習 による起 き上が り運動パ ター ンの獲得.信 学技報,NC97.28,PP.

25-32,1997.

[67]中 村仁彦,花 房秀郎.関 節型ロボットアームの特異点低感度分解.計 測 自動制御学会論文集,

Vol.20,No.5,pp.453-459,1984.

[68!浪 花 智 英,有 本 卓.幾 何 学 的拘 束 の あ る ロ ボ ッ トマ ニ ピ ュ レー タの 学 習 制御.計 測 自動 制御

学 会論 文 集,Vol.29,No.4,pp.411-418,1993.

[69}大 道 武生,川 内直人,佐 々木拓.教 示 システムの現状 と動 向.日 本 ロボ ッ ト学会誌,Vo1.11,

No.1,ppゼ31-35,1993.

107

[70]岡 部 佐 規 一,神 谷 好 承.組 立 ロボ ッ トの最 近 の動 向.日 本 ロ ボ ッ・ト学 会 誌,Vbl.11,No.1,

pp.58-61,1993.

[71]岡 本 良 夫.逆 問 題 と そ の 解 き 方.オ ー ム 社,1992.

[72]D.1.Perrett,M.H.Harries,R.Bevan,S.Thomas,P.J.Benson,A.J.Mistlin,A.J.

Chitty,J.K.Hietanen,andJ.EOrtega.Frameworksofanalysisfbrtheneuralrepre-

sentationofanimateobjectsandactions.JoumαZoノ 翫pe短mε 撹 αZβ20Zog〃,Vol.146,pp .

87-113,1989.

[73]C.R..RaoandS.K.Mitra.σeηerα 伽 θゐ η"er8eo/mα 緬ce5α η面 オ8αppJ2c襯oη5.New

Ybrk;Wiley,1971.

[74]桜 井 明,石 井 好,高 山 文雄 ス プ ライ ン関数 入 門.東 京 電 機 大 学 出版 局,1981.

[751S.Schaal,C.G.Atkeson,andS.Botros.Whatshouldbelearned?InProceθ4吻50∫

3εuθ ηオん 距1e胴Zoγ ・ん5んopoη ノ14αpオ 初eα η(9五eα γ・γ語πg5〃5孟 θm5,pp.199-204,1992.

[76]B.Shepherd.Applyingvisualprogrammingtorobotics.InPγocθ θd伽g8(ザIEEE血 一

オθ糀 醐oη αZOo嘘 γeηcθoηEoゐo孟2c5α η4蓋 麗omα オ琶oπ,Vbl.2,pp.707-712,Atlanta,May

1993.

[77]M.Shidara,K:.Kawano,H.Gomi,andM.K:awato.Inverse-dynamicsencodingofeye

movementbypurkinjecellsinthecerebellum.1Vα 施rε,VbL365,PP.50-52,1993.

[78]R.S.SuttonandA.G.Barto.Rθ ¢ψrcemε ηオ、乙θαrη伽g,、4η1励ro伽c診 乞oη.ABradfbrd

Book,MITPress,Cambridge,MA,USA,1998.

[79]S.Tachi,T.Maeda,R.Hirata,andH.H:oshino.Aconstructionmethodofvirtualhaptic

space.InPγroceθ 漉 η980ノ オんeIOAT,9464オ ん1物 哲εγ・ηα麗07Lα」Ooγ 乖 γ・εηceoη ノ17≠卵c2αZ1~ θαZ髭雪

απ42℃Zθ 一1砒25オεηcεノ,pp.131-138,Tokyo,July1994.

[80]T.Takahashi,H.Ogata,andS.Muto.Amethodfbranalyzinghumanassemblyqp-

erationsfbruseinautomaticallygeneratingrobotcommands.InProcθ θ4乞πg80/IEEE

血 診εm画oη α100η 抽rε πcεoπBoδo亡 乞c8α ηd加 孟omα オ乞oη,V61.2,pp.695-700,Atlanta,May

1993.

[81]Y.Uno,M.Kawato,andR.Suzuki.Formationandcontrolofoptimaltrajectoryinhuman

multijoint/乞rmmovement-minimumtorque-changemodel.窺o♂og伽 」0ψ θrηe診乞c3,

.Vol.61,やp.89-101,1989.

108

[82]Y・U・ ・,R・S・ ・uki,andM・K・w・t・ ・Mi・im・mm・ ・cle-t・n・i・n-ch・ng・m・d,lwhi,h,e.

produceshumanarmmovement・Proceθ 漉 η98(ザ オんε4オ ん3〃mpo5勿moη β ¢oZo9乞cα1α ηd

1)ん〃5¢oJo9¢cαZ五7πg¢ηθer乞ηg,盛 π 」α1)απε3ε.,PP.299-302,1989 .

[83]Y.WadaandM.Kawato.Aneuralnetworkmodel飴rarmtrajectory飾rmatiohusing

fbrwardandinversedynamicsmodels.1Vε 聯 αZ/Ve言 ωoT鳶5,VoL6,No.7,pp.919-932,1993.

[84】Y.WadaandM.Kawato.Atheoryfbrcursivehandwritingbasedontheminimization

principle.β 乞01092cα10ψ θγηθオ否c3,Vbl.73,No.1,pp.3-13,1995.

[85]Y.Wada,Y.Koike,E.V-Bateson,andM.Kawato.Acomputationalmodelforcur.

sivehandwritingbasedontheminimizationprinciple .InJ.D.Cowan,G.Tesauro,and

J.(eds.)「Alspector,editors,、4伽 αηcε5伽!Vθurα 」1蛎ormα あoη1)Tocθ85盛 πg3〃8オem56,pp.

727-734.MorganKauf血ann,1994.

[86]Y.Wada,Y.Koike,E.V。Bateson,andM.Kawato.Acomputationaltheoryfbrmove.

mentpatternrecognitionbasedonoptimalmovementpatterngeneration .疏oJo92cα 」

の6θme孟2c5,VoL73,.No.1,pp.15-25,1995.

[87]D.WolpertandM.Kawato.Multiplepairedfbrwardandinversemodelsfbrmotor

control.ハ 「εt5rα1ハrε孟ω07rん5,亀)εc琶 αZ163uθ,2ηprε85,1998.

[88]吉 川 恒 夫.ロ ボ ッ ト制 御 基 礎 論.コ ロ ナ 社,1988.

5

'

109

発表等

査 読 付 き 論 文

●Miyamoto,H.,Kawato,M.,Setoyama,T.,Suzuki,R.:Feedback-error-learningneural

netw6rkfbrtrajectorycontrolofaroboticmanipulator.・NeuralNetworks,vo1.1,pp.251-

265(1988).

●MiyamotoH,SchaaIS,GandoI%F,GomiH,KoikeY,OsuR,NakanoE,WadaY,

KawatoM:AKendamalearningrobotbasedondynamicoptimizationtheory .Neural

Networks,vol.9,no.8,pp.1281-1302(1996).

●MiyamotoH,KawatoM:Atennisserveandupswinglearningrobotbasedondynamic

optimizationtheor)孔NeuralNetworks,vol.11,no.7-8,pp.1311-1344(1998).

● 宮 本 弘 之,川 人 光 男:作 業 レベ ル の ロ ボ ッ ト学 習 の た め の見 まね に よ る教 示 .電 子 情 報 通 信

学 会 論 文 誌D-II分 冊,no.10,pp.2401-2410(1998).

査 読 付 き国 際 会 議

●Miyamoto,H.,Fukushima,K.:Recogllitionofspatio-temporalpatternsbyamulti-

IayeredneuralIletworkmodeLProceedingsofthe19931nternationalJointConfbrence

onNeuralNetworks,pp.2267-2270(1993).

●MiyamotoH,GandolfoF,GomiH,SchaalS,KoikeY,OsuR,NakanoE,Wada

Y,KawatoM:AKendamalearningrobotbasedonadynamicoptimizationtheory.

4thIEEEInternationalWorkshoponRobotandHumanCommunication,pp.327-332

(1995).

●MiyamotoH,GandolfbF,GomiH,SchaalS,KoikeY,OsuR,NakanoE,WadaY,

KawatoM:AKendamalearningrobotbasedonadynamicoptimizationprinciple.

19961ntr加ti・nalC・n飴 ・ence・nN・u・alI・ 飴 ・m・ti・nP・ ・cessi・g,PP・938-942(1996)・

110

解説

● 宮本弘 之,五 味裕章,川 人光男:タ ス ク レベ ルのロボ ッ ト学習 .シ ステム/制 御/情 報,Vol.39,

No.9,pp.419-426,1995.

● 宮 本 弘 之,大 須 理 英 子,中 野 恵 理,川 人 光 男,FrancescaGandolfo,五 味 裕 章,StefanSchaal,

小 池康 晴,和 田安 弘:け ん玉 ロ ボ ッ トの 開発 発 明,VoL92No.6,pp.44-49,1995.

● 宮 本 弘 之:頭 を使 うけ ん 玉 ロボ ッ ト.ATRジ ャー ナ ル ,VoL92,No.6,1995.

● 宮 本 弘 之,川 人 光 男:最 近 の ロボ ッ ト教 示 方 法=見 まね に よる作 業 レベ ル 学 習 ロ ボ ッ トの

開発 例=.'フ ァ ク トリー ・オ ー トメ ー シ ョン,7,1996.

● 宮 本 弘 之:ロ ボ ッ トへ の教 示 方 法.計 測 と制 御,第36巻,第9号 ,pp.627-630,1997.

発 表

●KawatoM,GandolfoF,GomiH,WadaY,MiyamotoH:Teachingbyshowingfor

tasklevelrobotlearningthroughmovementpatterllperception.InProceedingsof

theInternationalCon5ereIlceonNeuralInformationProcessing,Seoul,Korea,pp.17-20

0ctober1994.

● 川 人,宮 本,磯 部,鈴 木:作 業 座 標 にお け る手 の繰 返 し学 習 制 御 一 広 義 ニ ュ ー トン法 の ア ル

ゴ リズ ム.信 学 技 報,MBE85-91,pp.83-92 ,1986.

● 宮 本 弘 之,川 人 光 男,鈴 木 良 次:中 枢 神 経 系 モ デ ル に基 づ く産 業 用 マ ニ ピュ レー タの 階 層 学

習 制 御.信 学 技 報,MBE86-81,pp.17-24,1987.

● 宮 本 弘 之,福 島邦 彦:階 層 神 経 回路 モ デ ル に よる時 系 列 パ タ ー ンの 認 識 .信 学 技 報,NC89-

83,pp.129-134,1990.

● 宮 本 弘 之,福 島邦 彦:聴 覚 末 梢 系 の 局 所 的特 徴 抽 出機 構 の 自 己 組 織 化 モ デ ル .信 学 技 報,

NC90-139,pp.163-168,1991.

● 宮 本 弘 之,五 味 裕 章,川 人 光 男:最 適 化 原 理 に基 づ く見 ま ね に よ るけ ん玉 学 習 ロ ボ ッ ト.信

学 技 報,NC94-71,pp.89-96,1995.

・ 宮 本 弘 之,FrancescaGandolfo,五 味 裕 章,StefanSchaal,小 池 康 晴,大 須 理 英 子,中 野 恵 理,

川 人 光 男iノ最 適 化 原 理 に基 づ く見 ま ね に よ る け ん 玉 学 習 ・ 信 学技 報,NC94-143,PP・223-

230,1995.

111

● 宮本 弘之,川 人光男:み まね による作 業 レベ ルの運動 学習 .第1回JSMEロ ボ メカ ・シン

ポジ ア講演論文集,pp.150-155,1996.

● 宮本 弘之:頭 を使 うけん玉 ロボ ッ ト(見 まねに よる運動 学習) .生 理学技術 研究 会報告,第

19号,1997.

●琴 坂信哉,宮 本 弘之・見 まね による運動学習・SICE九 州 フォー ラム'97,・99て

● 宮本 弘之:ロ ボ ッ トへの教示方 法 一見 まね に よる学習 一.日 本 ファジー学会 ファジー制御

研 究会特別講演 会 「とこ とんIntelligent」,1998.

112