Automatic Language Acquisition, an Interactive Approach † Robert J. Martin † 大西昇 ‡ 山村毅 † 名古屋大学 ‡ 愛知県立大学

Automatic Language Acquisition, an Interactive Approach

† Robert J. Martin 　 †大西昇 ‡山村毅

† 名古屋大学　‡愛知県立大学

発表内容 Lingquest システムの紹介背景：

人間が作るモデル従来の自動獲得

提案インタラクティブ・アプローチの概念設計Use Case ( 例 )

まとめ

Lingquest System というのは… 自動的な自然言語獲得ツール

Lingquest System というのは… 自動的な自然言語獲得ツール特定の言語、ドメインに依存しない

Lingquest System というのは… 自動的な自然言語獲得ツール特定の言語、ドメインに依存しない結果として得られるモデルは再利用、共

用できる、例： J － POP ？

Lingquest System というのは… 自動的な自然言語獲得ツール特定の言語、ドメインに依存しない結果として得られるモデルは再利用、共

用できる、例： J － POP ＝英語 + 日本語

Lingquest System というのは… 自動的な自然言語獲得ツール特定の言語、ドメインに依存しない結果として得られるモデルは再利用、共用でき

るある言語定理でモデルを実現するツールだけで

はなく、基本の言語定理、モデル等で始まり、インタラクティブ実験で適応なモデル , 定理とモデルを作る方法を発見するものである

背景

言語学者も必要

言語学者も必要

時間　　かかる

時間　　かかる

整備も　必要

整備も　必要

効率が悪い効率が悪い

人間が作ったモデル人間が作ったモデル

目的

効率のよい自動獲得方法を開発

関連研究統計的な方法 (Deligne & Bimbot)

+ 簡単、効率がよい- 局所極大 (EM 元 ), sparse data

インタラクティブな方法 (J. Riloff)+ 局所極大問題のような問題に成功できる- まだ人間に依存する

帰納的方法 (R. Mooney)+ 人間に読みやすいルール（ symbolic), 見ていないデー

タに強い , 新しいルールを推論できる

提案自動獲得方法を

組み合わせる自動獲得方法を

組み合わせる

統計的な方法

統計的な方法

インタラクティブな方法

インタラクティブな方法

帰納的方法

帰納的方法

+ 人間より効率がよい

+ 人間より効率がよい- 局所極大、sparse data 等

- 局所極大、sparse data 等

+ 統計問題に成功

+ 統計問題に成功

- また人間からモデルの問題

- また人間からモデルの問題

+ 　新しいルールを自動的に

作れる

+ 　新しいルールを自動的に

作れる

提案（続き）人間が作ったモデ

ル+ 深い ( 抽象パターン

認識 ), 信用性が高い- 遅い , 効率が悪い ,

整備しにくいコンピュータが作っ

たモデル+ 　速い , 順応で整備

がやすい- 浅い ( 表層認識の

み ), データの限界

人間がフィードバック

を与える

フィードバックを利用し、

ルールを帰納

統計的にパターンを求める

設計３成分システム：

Learner: 学習方法を使い、データを変化出来るモデルを出す： DataLearnerModel

Model: モデルを使い、データの変化をユーザに出力する： DataModelData’

Meta-Learner: ユーザのフィードバックを利用し、新しい学習方法を推論する：Data’’ + Model’’Meta-LearnerLearner

人間が作る方法

Data

Model

入力出力

At-1 ? t At-1 B t?

At-1Bt

人間が作る方法

Data

Model

入力出力

At-1 ? t At-1 B t

At-1Bt

自動獲得

Data

Model

入力出力

At-1 ? t At-1 B t

At-1Bt

Learner

At-1 B t

?t-1?t

?

Meta-Learning （メタ学習）

Data

Model

入力出力

At-1 ? t At-1 B t

At-1Bt

Learner

At-1 B t

?t-1?t

Ct-1 D t

Ct-1Dt ?

Meta-

Learner

????

　設計 (Behavior) Hybrid, Interactive Bootstrapping:

1. 自動獲得を利用して簡単なモデルを作る2. ユーザのモデルとデータのフィードバックを

受ける。３ a. フィードバックで変形されたモデル ( 強い ),

データ ( 弱い ) を用いて１に戻る3b. ユーザのフィードバックを利用して帰納的に

新モデル , 学習方法を作ったら１に戻る

Lingquest:Use Case 1. ModelAlpha = LearnerAlpha(DataJ)

= {…, で , は , な , い ,…}

2. Modelμ-gram = LearnerEM(RepJ = ModelAlpha(DataJ)):= {…, で , は , な , い , ない , はない ,…}

3. Modelμ-gram(“ ではない” ) = [ で ][ はない ]4. User corrects:

1. Strong : Modelμ-gram = {…, で , は , な , い , ない , では…｝

2. Weak : RepJ = [ では ][ ない ]

Lingquest: Use Case( 続き )

5a. Lingquest がユーザのフィードバックでモデル、 Representation を評価し直して２に戻る

5b. 類似行列、 feature selection 等で新しい変形を帰納的に探すe.g.- 　 [ で ][ もない ][ でも ][ ない ] ２に戻る

まとめコンピュータの計算能力と人間の知的能力で

協力する、 Lingquest というシステムを提案した

情報工学の Contribution ：人間がモデルを作る方法より効率がいい自動獲得システムの問題はいくつかを解決する

（ EM 局所極大や浅いモデルなど）簡単にユーザがコンピュータの結果を直すだけ

ではなく、インタラクションで学ぶ方法を開発する

Documents

Automatic Language Acquisition, an Interactive Approach † Robert J. Martin † 大西昇 ‡ 山村毅 † 名古屋大学 ‡ 愛知県立大学