第 11 回学　習

1

第 11 回　学　習

　

　

2

知識学習 (Knowledge-level learning):過去に与えられた情報に基づき，問題解決を実現するために必要な知識を獲得

記号レベル学習 (symbol-level learning),スピードアップ学習 (speed-up learning):獲得した知識を，より効率よく利用できるように洗練化

　人工知能における最も挑戦的な分野　知識獲得ボトルネック (1980-) に触発

　

機械学習

3

学習データの与え方1. 教師有り学習　～　例からの学習（概念学習）2. 教師無し学習　～　観察による学習

データの種類1. 数値 (1950 -) 　

～　ニューラルネット、パターン認識2. 記号 (1960 -) 　

　

機械学習の諸概念

4

学習の目的？　～　法則　ｖｓ　スキル教示の程度？　

～　概念（個々） /評価報酬（一連） /自発（無し）

先験的な知識の質・量？学習エージェントに与えるデータ量？

ノイズの有無？計算機構？　時間・データ量制約？誤った学習の際のダメージ？

　

機械学習の視点

5

帰納的学習 (inductive learning)教師または与えられた概念の例を基に一般化　～　概念学習

：－記号による学習，ニューラルネットワーク学習

演繹的学習 (deductive learning)既に持っている知識からの演繹による概念獲得　～　スピードアップ学習

類推学習 (analogical learning)既存の概念の中から関連・類似したものを修正

　

機械学習の分類

6　

学習方式の比較

7　

推論方式の比較（再）

8

発見的学習 (learning by discovery)数値例を含む多数データから概念・法則を導出

強化学習学習エージェントが環境に行う行為への報酬により行為の決定法を獲得

事例に基づく学習 (IBL: Instance-Based Learning)過去の具体的な経験則で現状に最も適したものを抽出，問題解決を実施

概念形成属性・属性値からなる例の系列より自動分類

　

機械学習の分類：その他

9　

機械学習研究の沿革

10

与えられた例題・事例より、帰納推論を用いて一般的な概念を獲得

- 例題からの学習：学習させたい概念（目標概念）に属する正の例題と、その概念に属さない負の例題を与え、一般的な知識を生成

　・完全性条件　・無矛盾性条件v.s. 大量例題要、膨大な空間探索、正当性無保証

　

帰納的学習

11

離れて立つ２つのブロックと、それに支えられた１つのブロックから成るもの

　

帰納的学習の具体例：「アーチ」の概念

12

知識表現を限定せずに、例題からの学習の一般的枠組みを与えたもの

　

バージョン空間法 (T.M.Mitchel,1977)

訓練例

13

1. バージョン空間Ｈを初期化：　Ｓ：最初に入力された正の例題そのもの　Ｇ：あらゆる例題を満足する記述

2. 入力された例題ｘに対し、以下を実行- ｘが正の例題の場合：　ｘを満足しない記述をＧから削除、Ｓがｘを満足するようにＳ内の記述を最小限一般化 - ｘが負の例題の場合：　ｘを満足する記述をＧから削除、Ｓがｘを排除するようにＳ内の記述を最小限特殊化

3. ＳとＧが一致するまで、２を反復実行両者が一致した時点のＨが目標概念の記述となる

　

バージョン空間法のアルゴリズム

14

食性（肉食・草食）、発生形態（卵生・胎生）、

体温（恒温・変温）→ 「ペンギン」（肉食，卵生，恒温）

　

バージョン空間法の具体例：「鳥類」の学習

ペンギン

S=｛（肉食，卵生，恒温）｝

G=｛＊，＊，＊｝

15

→「ライオン」（肉食，胎生，恒温）：負の例

　

バージョン空間法の具体例：「鳥類」の学習

ライオン

→「ブンチョウ」（草食，卵生，恒温）→「トカゲ」（肉食，卵生，変温）　？

S=｛（肉食，卵生，　　恒温）｝：そのままG=｛＊，卵生，＊｝

16

エキスパートシステムの知識獲得部で利用決定木 (decision tree) の学習1. 例題の集合を、予め定められた幾つかの属性に対

する属性値の集合としてクラスに分類して入力2. 分類結果が正例・負例いずれか一方のみしか含ま

ないように、ある評価基準に従って分類3. それぞれのクラスを定義する記述を決定木の形式

で出力・評価基準：情報量の期待値～最も多くの情報量を減少させる属性を優先して選択

　

ＩＤ３ (J.R.Quinlan, 1979)

「オッカムの剃刀」原理Ｈ（Ｓ）＝　－ Σ ｐ（ｃ） Log ｐ（ｃ）ｐ（ｃ） : カテゴリｃに分類されるデータの割合

17

「鳥類」の学習

　

ＩＤ３の具体例

正負のみならず，複数のクラスを同時指定した取り扱いが可能

18

観測された事実を含意し背景知識と整合する仮説を生成～　予め定義された概念記述用言語を用いて観測の一般化された記述を作成

例）中古車情報を特徴付ける概念の生成属性：年式，排気量，色，走行距離，車検残り月数，価格

　

概念クラスタリング

19

獲得済みの既存の知識を組み合わせ、演繹推論により導くことにより、より利用効率の高い知識を生成

ルーツ： STRIPS（ Stanford Univ. 1971:

ロボットの行動計画立案）

　

演繹的学習

20

与えられる一つの事例が学習しようとする概念の実例になっていることを論理的に説明し，予め与えた概念定義に用いられている記述要素より優れた記述要素によって概念を再定義する

入力：・目標概念：　学習すべき概念の定義～機能的記述・訓練例：　目標概念を満たす単一の例題・領域理論：　問題領域で成立する背景知識・操作性規範：　学習の結果得られる記述が満足すべき条件学習過程：・説明 (explanation)・一般化 (generalization)

　

説明に基づく一般化 (T.M.Mitchel,1986)

21

事物 cup(obj-1) より一般的な cup(obj) の記述獲得・目標概念 cup(x) ← liftable(x), stable(x), open-vessel(x)・訓練例part-of(obj-1, handle-1), is(obj-1, light), is(obj-1, color, red)・領域理論is(x,light), part-of(x,y), isa(y,handle) 　→　 liftable(x)part-of(x,y), isa(y,bottom),is(y,flat) 　→　 stable(x)part-of(x,y), isa(y,concavity), is(y,upward-pointing) 　→　

open-vessel(x)・操作性規範

概念定義は訓練例を構造的要素で記述すること～　例えば liftable でなく light, handle,flat などで記述

　

説明に基づく一般化の例（入力）

22

・ is(obj,light), part-of(obj,hndl-1), isa(hndl-1,handle) 　→　liftable(obj)

・ part-of(obj,btm-1), isa(btm-1,bottom),is(btm-1,flat) 　→　stable(obj)

・ part-of(obj,concavity), isa(cncv-1,concavity), isa(upw-1,upward-pointing) 　→　 open-vessel(obj)

学習結果・ is(obj,light), part-of(obj, hndl-1), isa(hndl-1,handle),

part-of(obj, btm-1), isa(btm-1, bottom), is(btm-1,flat), part-of(obj, concavity), isa(cmcv-1, comcavity), isa(upw-1, upward-pointing) 　 → cup(obj)

　

学習の遂行

23

問題解決の対象である状況において、知識が不足しているなどの理由により直接推論結果が得られない場合に、類似した他の状況を利用し両者の類似性を見出すことにより（類推）、新たな結論を導出

　

類推学習

24　

類推学習の具体例 (T.G.Evans, 1968)

A→ＢＣ→？

25

エキスパートシステムの知識ベース構成のため、・問題解決のための知識を専門家から抽出・推論に適した形式に変換・知識の修正・追加の際の整合性チェック、冗長性除去

知識獲得ボトルネック　対話型知識獲得支援システム　インタビューエキスパートシステム

　

知識獲得と学習

26

知識獲得支援ツールと開発過程の関連

　

27

知識が無い状態からの知識収集・獲得を支援（未だ少数）

- COLAB: 知的な電子白板として開発　少人数で行われる会議を生産的、協調的にガイドするグループウェアツール　

- CONSIST: ＫＪ法（ボトムアップな知識整理法）に“関係の階層”という概念を導入し、適切な抽象度や視点の模索を支援

- EPSILON: 専門家の問題解決過程を整理し、利用者とのインタビューをサポート

知識抽出ツール　

　

28

未知の環境におかれた知的エージェントが環境との相互作用を通して，目標達成のための適切な行動規則を学習

エージェントは環境の状態遷移確率 Pa(s,s') や報酬の与えられ方 Ra(s,s') についての知識を予め持たない

エージェントは環境との試行錯誤的な相互作用を繰り返して，最適な政策を学習する．

　

強化学習

29

強化学習（Ｑ学習）のアルゴリズム

30

Q 学習：状態ｓ , 行動 a, 行動価値関数 Q(s,a), 行動の集合 A

Q(st,at)←(1-α ） Qt(st,at)+α(r(st,at)+γmax Qt(st+1,a)) aα: 学習率～ [0.0, 1.0] γ：減衰率～ [0.0,1.0] ：現在の行動の将来への影響

r(s,a): 報酬関数Ｑ (s,a) ：　状態sで行動 aを選択し , 以降ずっと最

適戦略をとり続ける時の報酬の期待値

　

Ｑ学習最大のＱ値を持つ行動が最適な戦略

31

32

ロボカップ（サッカー）におけるシュート行動の学習（阪大・浅田ら）

　

強化学習の例

Documents

第 11 回 学 習

第 11 回学　習