49
大規模テキストに基づく 対話型ナビゲーションシステム 東京大学情報基盤センター 学術情報研究部門 特任講師/ 株式会社リッテル 最高技術責任者 清田 陽司 2010210マイニング探検会#11 @東京大学アントレプレナープラザ会議室 1

マイニング探検会#11

Embed Size (px)

DESCRIPTION

 

Citation preview

Page 1: マイニング探検会#11

大規模テキストに基づく対話型ナビゲーションシステム

東京大学情報基盤センター

学術情報研究部門 特任講師/

株式会社リッテル 最高技術責任者

清田 陽司

2010年2月10日マイニング探検会#11@東京大学アントレプレナープラザ会議室

1

Page 2: マイニング探検会#11

2

これまでの主な研究内容

自然言語処理技術(構文解析など)の情報検索への応用

• 自己組織化マップによる製品ニュース記事の整理システム (IPSJ NL研究会 1999年)

• 自動要約によるWeb全体のKWICインデックスの生成システム (SAINT 2001)

• 大規模テキスト知識ベースに基づく自動質問応答システム「ダイアログナビ」 (マイクロソフトとの共同研究)– ユーザ質問文とテキストの正確で柔軟なマッチングに基づく

ギャップの解消 (COLING 2002 / 「自然言語処理」2003年)– 換喩表現マッチング (IJCNLP-04 / 「自然言語処理」2004年)– ダイアログナビ音声インタフェース (ACL 2003)

Page 3: マイニング探検会#11

3

ダイアログナビhttp://www.microsoft.com/japan/navigator/

• 2002年4月から運用開始• 現在まで約25,000回のアクセス

Page 4: マイニング探検会#11

4

ダイアログナビのユーザインタフェース

システムとユーザを示すアイコン

大きめのテキストボックス⇒自然文による質問の入力を誘導

対話履歴を表示するフレーム

Page 5: マイニング探検会#11

5

ダイアログナビのユーザインタフェース

選択肢(マッチしたテキスト)を表示するフレーム

テキストの種類とスコアをアイコンで表示

Page 6: マイニング探検会#11

6

対象とするテキスト集合

• 用語集– Windowsなどの用語の説明

– 4,707件 約 70万文字

• ヘルプ集– Windows, Officeの操作説明

– 11,320件 約 600万文字

• サポート技術情報– マイクロソフト製品に関する

障害情報と対処方法など

– 20,921件 約2,200万文字

マイクロソフトにて作成されたテキスト知識ベース

Page 7: マイニング探検会#11

7

ダイアログナビ: 研究の背景現状• ノウハウを必要とする複雑な製品が増えた

PC,携帯電話,ディジタル家電 etc.→ 製品を使う上で様々な疑問が発生

• 疑問に答えるための大量のテキストの蓄積(Web,データベースなど)

たいていの疑問に対応する答え(テキスト)がどこかに存在する

問題点質問に対応するテキストになかなかたどりつけない

質問とテキストの間にギャップが存在

既存のテキスト検索システムのログを分析し,どのようなギャップが存在するかを調査した

Page 8: マイニング探検会#11

8

質問とテキストの間の

表現のギャップ

パソコンが固まった

プリンタドライバをインストールすると,Windows XPがハングアップする

Wordを起動すると,Windows XPがフリーズする

ACPIモードを使用すると,青い画面が表示される

• キーワードのレベルe.g. ハングアップ-フリーズ

• キーワードを超えるレベルe.g. パソコンが固まる-ハングアップ-フリーズ-青い画面

Page 9: マイニング探検会#11

9

質問とテキストの間の

具体性のギャップ

Windowsでエラーが発生した

52件のテキストが見つかりました。• Windows 98を起動したときに、…というエラーが発生する

• Windows XPでアプリケーションを起動したときに、エラーが発生する• インターネットにダイアルアップで接続しようとしたときに、…というエラーが発生する• 印刷中にエラーが発生して印刷できない• …………………………..

Page 10: マイニング探検会#11

10

52件のテキストが見つかりました。• Windows 98を起動したときに、…というエラーが発生する

• Windows XPでアプリケーションを起動したときに、エラーが発生する• インターネットにダイアルアップで接続しようとしたときに、…というエラーが発生する• 印刷中にエラーが発生して印刷できない• …………………………..

質問とテキストの間の

具体性のギャップ

Windowsでエラーが発生した

Page 11: マイニング探検会#11

11

エキスパートやコールセンター

Windowsでエラーが発生した

エラーが発生したのはいつですか?

お使いのWindowsは何ですか?

どんなエラーメッセージが出ました

か?

インタラクションで具体性のギャップを解消

(もちろん表現のギャップも柔軟に吸収)

Page 12: マイニング探検会#11

12

情報検索のモデル

情報要求 情報集合

マッチング

検索質問 テキスト集合

内部表現 内部表現

合致する情報

自然言語処理技術が必要

テキストの部分集合

経済の成長見通しに関する記事が欲しい

テキスト検索

富士山の高さは?

「3776m」

Open-domainQA

Excelで行を

追加したい

「Excelで行を追加する方法は以下の通りです

…」

本研究のタスク

Page 13: マイニング探検会#11

13

Q Q Q’ A Q

S1 Q1’

S2 Q2’

A A1

A2

テキスト検索 Open-domain QA 本研究のタスク

•質問(Q)に対応する部分(Q’)がテキスト全体に分散•答え(A)としてはQを満たすテキスト集合を返せばよい

•質問(Q)に対応する部分(Q’)は多くの場合1文•答え(A)はQ’の文構造の中に埋め込まれている

•質問(Q)に対応する部分(Q’)は多くの場合1文•答え(A)はQ’と同じテキスト内に存在•Q’のまわりに、複数存在するAのどちらかを特定できる部分(S)が存在

浅い処理で十分(形態素解析)

深い処理が必要(構文解析など)

具体性のギャップ解消に利用

Page 14: マイニング探検会#11

14実運用による評価: ダイアログナビ

表現のギャップ 具体性のギャップ

換喩表現マッチング

GIFの

画像が

表示されない

GIFが

表示されない

?

拡張

•換喩・解釈ペアをコーパスから自動抽出•マッチングへの応用

ユーザ質問文とテキストの柔軟で正確なマッチング

Excelで行を追加したい

•文構造の利用(係り受け関係への重みづけ)

•同義表現辞書

聞き返しによるユーザのナビゲート

応用

マッチングに基づくボトムアップの聞き返し

対話カードによるトップダウンの聞き返し

質問

質問

ORUSBマウスが動かない

エラーが発生した

エラーはいつ発生しますか?1. Windows起動中2. ログイン時3. 印刷中

[エラー]

<UQ>エラーが発生する

<SYS>エラーはいつ発生しますか?

Windows起動中

ログイン時

印刷中

本研究のアプローチ

Page 15: マイニング探検会#11

15

<メール>

メイル / メッセージ

<読む>

読める / 読める / 読み込める

<受信>

受け取る / 受け取れる

<ブラウザ>

ブラウザー / 閲覧ソフト

<メールを読む>

メールを受信する

<ハングアップする>

画面が固まる / 画面が青くなる / フリーズする

同義表現辞書メール

メイル

メッセージ

<メール>

読む

読める

読み込む

読み込める

<読む>

メール

読む

メール

受信

<メールを読む>

メール

読む

メイル

読む

メッセージ

読む

メール

読める

メイル

読める

メッセージ

読める

メール

読み込む

メイル

読み込む

メッセージ

読み込む

メール

読み込める

メイル

読み込める

メッセージ

読み込める

Page 16: マイニング探検会#11

16

係り受け重みづけの有効性評価

0.77

0.78

0.79

0.80

0.81

0.82

0.83

0.84

0.85

0.0 0.5 1.0 1.5 2.0 2.5 3.0

m (係り受けへの重みづけ)

εの

平均

0.58

0.59

0.60

0.61

0.62

0.0 0.5 1.0 1.5 2.0 2.5 3.0

m (係り受けへの重みづけ)

εの

平均

値ヘルプ集(163質問文)

サポート技術情報(773質問文)

Page 17: マイニング探検会#11

17

提案手法の有効性評価(係り受け重みづけ以外)

手法 ヘルプ集163質問文

サポート技術情報773質問文

ベースライン 0.602 ( ) 0.497 ()

+A)同義表現辞書 0.838 (+0.236) 0.561 (+0.064)+C)否定表現フラグ 0.602 ( ) 0.512 (+0.015)+D)文末表現削除 0.605 (+0.003) 0.508 (+0.011)+E)質問タイプ 0.602 ( ) 0.498 (+0.001)+F)製品名 0.602 ( ) 0.519 (+0.022)すべて 0.840 (+0.238) 0.614 (+0.117)(数値はεの平均値, 係り受け重みづけm=1.0 )

Page 18: マイニング探検会#11

18

マッチング失敗の分析

εが小さな質問文について分析した

1. 同義表現の不足

e.g. 文字を大きくする – 文字のサイズを変更

2. 重要でない箇所とのマッチング

e.g. フォントをWindows MEにインストールせずにフォントを追加するアプ

リを使用している場合,TrueTypeフォントキャッシュの内容が破壊される

3. 係り受け重みづけの副作用

i. 構文解析の誤り

ii. 格の省略

iii. 換喩による係り受けのギャップ

ログを分析し随時追加

文末への重みづけ

最新の自然言語処理技術の利用

本研究で扱う

Page 19: マイニング探検会#11

19

II. 研究紹介: ダイアログナビ

a. 背景と本研究のアプローチ

b. ユーザ質問文とテキストの柔軟で正確なマッチング

c. マッチングの拡張: 換喩表現マッチング

d. マッチングの応用: 聞き返しによるユーザのナビゲート

e. 実運用による評価

Page 20: マイニング探検会#11

20

換喩とは

比喩の一種: あるものをそれと関連する別のものに置き換えて表現する現象(Lakoff 1980; 山梨1988)

• 漱石を読む.(作者と作品)• トヨタを買う.(製造者と製品)

重要な言語現象

• ユーザの質問文に頻繁に出現

• 機械翻訳や照応解析などで扱う必要がある

Page 21: マイニング探検会#11

21

換喩による係り受けのギャップ

GIFの

画像を

表示する

GIFを

表示する

ユーザ質問文 テキスト文

27.052

32

?

(換喩)

係り受けへの重みづけによる副作用

(m=1.0)

Page 22: マイニング探検会#11

22

換喩表現と換喩解釈表現

以下の2種類の表現の組み合わせを扱う(α) AP→V GIFを表示する(β) A(の)→BP→V GIF(の)画像を表示する

(A, B: 名詞, V: 動詞, P: 格助詞, →: 係り受け関係)

仮説: (α)と(β)は換喩とその解釈になっている⇒ (α)を換喩表現, (β)を換喩解釈表現と呼ぶ

コーパスからの自動抽出• (α),(β)のパターンに合致する表現を抽出

頻度の閾値: ≧3,名詞句の一部や括弧を含む表現は除外

• 各々の(α)に対応する(β)をペアとして抽出

Page 23: マイニング探検会#11

23

コーパスと抽出されたペアの数

コーパス 規模 ペア数

ユーザ質問文(MSダイアログナビ・話し言葉検索)

約76万文 661

テキスト集合(MSヘルプ集,サポート技術情報)

約59万文 288

ユーザ質問文+

テキスト集合約135万文 1,126

ユーザ質問文の寄与が大きい

⇒ 引き続きシステムを運用することで,さらに多くのペアが得られる

Page 24: マイニング探検会#11

24

抽出した換喩表現・換喩解釈表現ペア換喩表現(α) # 換喩解釈表現(β) #

エラーが 出る 1681 エラー 表示が 出る 68エラー 画面が 出る 6エラー メッセージが 出る 3

電源を 入れる 290 電源 スイッチを 入れる 5Excelを 開く 147 Excel ファイルを 開く 135

Excel 文書を 開く 9印刷を 実行 141 印刷 プレビューを 実行 12

印刷 ジョブを 実行 4動作が 遅い 123 動作 速度が 遅い 8画像を 挿入 69 画像 ファイルを 挿入 6JPGで 保存 20 JPG 形式で 保存 13アドレスを 開く 4 アドレス 帳を 開く 43MOを 使用 3 MO 装置を 使用 4

約80%のペアは換喩とその解釈として適切

Page 25: マイニング探検会#11

25

マッチングへの応用

得られた換喩表現・換喩解釈表現ペアを同義表現辞書に登録

GIFの

画像を

表示する

GIFを

表示する

ユーザ質問文 テキスト文

27.052

32

?

(換喩)

0.155

33

=×(m=1.0)

Page 26: マイニング探検会#11

26

テストセットによる評価結果

0.60

0.65

0.70

0.75

0.80

0.85

0.90

0.0 0.5 1.0 1.5 2.0 2.5 3.0

m (係り受け関係への重みづけ)

εの

平均

値提案手法

ベースライン

0.51

0.52

0.53

0.54

0.55

0.56

0.57

0.58

0.59

0.0 0.5 1.0 1.5 2.0 2.5 3.0

m (係り受け関係への重みづけ)

εの

平均

提案手法

ベースライン

ヘルプ集(31質問文)

サポート技術情報(140質問文)

Page 27: マイニング探検会#11

27

II. 研究紹介: ダイアログナビ

a. 背景と本研究のアプローチ

b. ユーザ質問文とテキストの柔軟で正確なマッチング

c. マッチングの拡張: 換喩表現マッチング

d. マッチングの応用: 聞き返しによるユーザのナビゲート

e. 実運用による評価

Page 28: マイニング探検会#11

28

聞き返しの必要性

• ユーザの質問とテキストの間には具体性のギャップが存在

⇒ 聞き返しが不可欠

• 適切な聞き返しが可能で,かつ大規模なテキスト集合に適用可能な先行研究はみられない

ユーザ質問文とテキストのマッチング手法を応用した聞き返しによるユーザのナビゲート

Page 29: マイニング探検会#11

29

マッチング手法の応用による聞き返し

質問

テキスト1 テキスト2

質問質問

OR

状況説明文

Page 30: マイニング探検会#11

30

状況説明文の抽出

1. マッチしたテキスト文の構文木を以下の箇所でセグメント分割

連用修飾節,「時間」を示す節,読点を伴うデ格

2. セグメントのうち,すべての文節が質問文と対応するものを削除

3. 末尾のセグメントを状況説明文の核とする

4. 核のセグメントと,それに直接係るセグメントのみを抽出

「IE5をインストール後,ページ違反が発生した」

ページ違反が

タスクスケジューラを

使うと

IE5を

起動した際に

ページ違反が

発生する

IE5を

インストール後、

発生する

タスクスケジューラを使うとIE5を起動した際に

Page 31: マイニング探検会#11

31

テキスト集合

漠然

具体

ユーザの質問

マッチング&状況説明文の抽出

Windows 95で起

動時にエラーが発生する

Page 32: マイニング探検会#11

32

テキスト集合

漠然

具体

ユーザの質問

困ってます

マッチング&状況説明文の抽出?

エラーが発生した

Page 33: マイニング探検会#11

33

テキスト集合

漠然

具体

ユーザの質問

マッチング&状況説明文の抽出

困ってます

対話カードによる具体化

Windows95(=Windows 95で

起動時にエラーが発生する)

Windows起動中

いつ?

お使いのWindowsは?

エラーが発生した

Page 34: マイニング探検会#11

34

[エラー]

<UQ>エラーが発生する

<SYS>エラーはいつ発生しますか?

<SELECT>

Windows起動中 goto [エラー/Windows起動中]

ログイン時 goto [エラー/ログイン時]

印刷中 goto [エラー/印刷時]

</SELECT>

[エラー/Windows起動中]

<UQ>Windowsを起動中にエラーが発生する

<SYS>あなたがお使いのWindowsを選んでください。

<SELECT>

Windows 95

retrieve 「Windows 95で起動時にエラーが発生する」

Windows 98

retrieve 「Windows 98で起動時にエラーが発生する」

Windows XP

retrieve 「Windows XPで起動時にエラーが発生する」

</SELECT>

対話カード

質問とのマッチング

システムの発話

テキストとのマッチング

U: Windows起動中

U: エラーが発生した

S: エラーはいつ発生しますか?

1. Windows起動中

2. ログイン時

3. 印刷中

S: あなたがお使いのWindowsを選んでください。

1. Windows 952. Windows 983. Windows XP

U: Windows 95

Page 35: マイニング探検会#11

35

U: Windows 95(=Windows 95で起動時にエラーが発生する)

S: 以下の選択肢から選んでください。1. 「<ファイル名>が不正かありません」

というエラーが発生する2. 「JISフォントドライバーがインストール

されていません」 等のエラーが発生する

3. Windows 3.1のロゴ画面が表示されハングアップしてしまう現象が発生する

4. アプリケーションを起動した直後にエラーが発生する

5. …

テキスト集合

Page 36: マイニング探検会#11

36

テキスト集合

漠然

具体

ユーザの質問

マッチング&状況説明文の抽出

困ってます

対話カードによる具体化

Windows95(=Windows 95で

起動時にエラーが発生する)

Windows起動中

いつ?

お使いのWindowsは?

エラーが発生した

相補的

ボトムアップ

トップダウン

Page 37: マイニング探検会#11

37

II. 研究紹介: ダイアログナビ

a. 背景と本研究のアプローチ

b. ユーザ質問文とテキストの柔軟で正確なマッチング

c. マッチングの拡張: 換喩表現マッチング

d. マッチングの応用: 聞き返しによるユーザのナビゲート

e. 実運用による評価

Page 38: マイニング探検会#11

38

実運用による評価の必要性

既存の情報検索システム評価手法

• テストセットによる評価– インタラクションを伴うシステムの評価は不可

• タスク指向評価– 漠然としたユーザの疑問を反映するシナリオ

の設定は困難

⇒ 一般ユーザによる実運用評価が必要

Web上で一般公開運用し、対話ログを評価

Page 39: マイニング探検会#11

39

評価の観点

1. システムは適切なテキストを提示したか?A) 対話セッション単位の評価

2. ユーザとシステムはどう振舞ったか?B) ユーザ行動とシステム応答の分布

C) 質問文の長さとシステム応答の関係

3. 状況説明文の抽出は適切か?D) 状況説明文の評価

2002年8月の対話ログから無作為抽出した378対話セッションを評価した

Page 40: マイニング探検会#11

40

A) 対話セッション単位の評価

成功 失敗 範囲外

知識有 知識無 知識有 知識無 適切 不適切

149 25 15 41 57 91(65%) (11%) (7%) (18%)

174 (76%) 56 (24%)148

230 (100%)378

原因: リソースの不足•テキスト集合•同義表現辞書

顕著な失敗例を分析し,随時修正・作成⇒成功率 60%台 → 70%台

Page 41: マイニング探検会#11

41

B) ユーザ行動とシステム応答の分布ユーザ質問の入力

(キーボード)

対話カード応答(完結した応答)(U: こんにちわ)S: こんにちは。

対話カード応答(選択肢提示)(U: エラーが発生した)S: エラーはいつ発生

しますか。

平均選択肢数:3.24

テキストマッチング(該当あり)(U: 行を追加したい)S: 以下の選択肢から

選んでください。

平均選択肢数:14.81

テキストマッチング(該当なし)(U: サービスパックを

入れたい)S: 該当する情報を見

つけることができませんでした。

ユーザの選択(マウス)

ユーザの選択(マウス)

テキストの表示

32回 159回66回 261回計518回

58回14回(CARD) 6回

(RET)

38回(SHOW)

198回

(98回) (420回)

Page 42: マイニング探検会#11

42

C) 質問文の長さとシステム応答の関係

質問文の

文節数

対話カード応答 知識ベース応答計

完結応答 選択肢提示 該当あり 該当なし

1 29 17 115 59 2202 3 37 46 47 1333 10 33 30 734 2 22 10 34

5以上 45 13 58合計 32 66 261 159 518

短い質問文に対して有効に働く

一般的に、短い質問文ほど漠然としている⇒ 対話カードによる応答は有効に働いている

Page 43: マイニング探検会#11

43

D) 状況説明文の評価評価者1名が3段階で評価

– 最重要情報: ユーザが選択肢を選ぶ上で最も重要な情報

評価 基準 選択肢数

妥当 最重要情報が過不足なく含まれている 213 ( 61%)不十分 最重要情報が含まれていない 27 ( 8%)冗長 最重要情報以外の情報が文字数換算で1/2

以上含まれている 108 ( 31%)合計 348 (100%)

平均文字数: 81.6文字⇒68.9文字(圧縮率15.6%)

Page 44: マイニング探検会#11

44実運用による評価: ダイアログナビ

表現のギャップ 具体性のギャップ

換喩表現マッチング

GIFの

画像が

表示されない

GIFが

表示されない

?

拡張

•換喩・解釈ペアをコーパスから自動抽出•マッチングへの応用

ユーザ質問文とテキストの柔軟で正確なマッチング

Excelで行を追加したい

•文構造の利用(係り受け関係への重みづけ)

•同義表現辞書

聞き返しによるユーザのナビゲート

応用

マッチングに基づくボトムアップの聞き返し

対話カードによるトップダウンの聞き返し

質問

質問

ORUSBマウスが動かない

エラーが発生した

エラーはいつ発生しますか?1. Windows起動中2. ログイン時3. 印刷中

[エラー]

<UQ>エラーが発生する

<SYS>エラーはいつ発生しますか?

Windows起動中

ログイン時

印刷中

本研究のまとめ

Page 45: マイニング探検会#11

45

得られた知見

• 情報検索システムの研究には実運用評価が必須

• 実運用のログは自然言語理解研究へのヒントの宝庫

比喩(換喩,暗喩など),省略,照応 etc.

• 情報検索プロセスをうまく説明するモデルの必要性

Page 46: マイニング探検会#11

46

III. 今後の研究計画:図書館レファレンス・サービス

の自動化

Page 47: マイニング探検会#11

47

研究方針

情報検索システムの研究には一般ユーザによる実運用評価が必要

⇒ 実世界から研究へのフィードバックを重視

現行サービスの分析 システムの実装 実運用

評価

• ユーザの満足度• 関連研究に対する位置づけ

情報検索プロセスのモデル化

自然言語理解

自然言語処理技術 一般ユーザの利用

Page 48: マイニング探検会#11

48

レファレンス・サービスとは

図書館の「コンシェルジェ・サービス」

=利用者の調べものに対する援助サービス

利用者の当初の情報要求は曖昧

⇒利用者に対して多角的な問い返しを行う

⇒どのような資料が必要なのかを明確化

Page 49: マイニング探検会#11

49文献・資料

漠然

具体

ダイアログナビの方法論の応用

どんなキーワードで探せばいいの?

自然言語処理の研究を始めたい

○○先生の書いた本を調べたい

ATS-Pってどんなシステム?

NDC(日本十進分類法)による質問の一般化

東大学術情報DB

Kiwi, 言選Web

OPAC

百科事典 (Wikipedia)

日本の原子力発電について調べたい

東大の歴史を調べたい

東大図書館FAQ