32
Wikipedia Templateから抽出した 意味的関係インスタンスによる質問応答手法 真嘉比 愛S#jn De Saeger‡鳥澤 健太郎,呉 鍾勲,山本 和英長岡技術科学大学 電気系 ‡() 情報通信研究機構 ユニバーサルコミュニケーション研究所

Wikipedia Template から抽出した意味的関係インスタンスによる質問応答手法

  • View
    240

  • Download
    4

Embed Size (px)

Citation preview

Page 1: Wikipedia Template から抽出した意味的関係インスタンスによる質問応答手法

Wikipedia  Templateから抽出した  意味的関係インスタンスによる質問応答手法

真嘉比 愛†,S#jn  De  Saeger‡,  鳥澤 健太郎‡,呉 鍾勲‡,山本 和英†  

 †長岡技術科学大学 電気系  

‡(独)  情報通信研究機構 ユニバーサルコミュニケーション研究所  

Page 2: Wikipedia Template から抽出した意味的関係インスタンスによる質問応答手法

研究の目的

•  質問応答システム「一休」を拡張  

網羅性・即時更新性の高いWikipedia  Templateに着目   →  Wikipedia  Template中の情報を知識源として利用     した質問応答システムを提案

ゴーヤを使った  

料理は?

塩焼きそば,  ゴーヤチャンプルー,  

Webデータ

Web文書中から  質問の回答を  リアルタイム検索

質問応答システム: 一休

Page 3: Wikipedia Template から抽出した意味的関係インスタンスによる質問応答手法

Wikipedia  Template

データを  自動的に取得

記事名 Template名 属性名 属性値

アバター Film 監督 ジェームズ・キャメロン

アバター Film 出演者 サム・ワーシントン

記事名:アバター(映画)    {{Infobox  Film  |  作品名 =  アバター  |  監督 =  [[ジェームズ・キャメロン]]  |  脚本 =  [[ジェームズ・キャメロン]]  |  出演者 =  サム・ワーシントン<br  />[[シガニー・ウィーバー]]<br  />ゾーイ・サルダナ  

 ….. 各種情報を  自動的に抽出

Page 4: Wikipedia Template から抽出した意味的関係インスタンスによる質問応答手法

用語の定義

•  関係名  –   Template名と属性名の組み合わせ    e.g.  Film  出演者  

•  関係インスタンス  –   記事名+属性値    e.g.  アバター,サム・ワーシントン                         アバター,シガニー・ウィーバー  

    1つの関係名は   複数の関係インスタンス   を持つ  

Page 5: Wikipedia Template から抽出した意味的関係インスタンスによる質問応答手法

研究の目的

•  質問文が問うている関係名を自動的に特定することで,対応する回答を提示する質問応答システムを提案  

Q:アバターに出演している人は誰?  Q:  アバターで有名な人は誰?

A:  サム・ワーシントン     シガニー・ウィーバー

Film  出演者  

→  回答が自明でない質問に対しても回答を返すことができる

Page 6: Wikipedia Template から抽出した意味的関係インスタンスによる質問応答手法

提案手法の概要 質問: アバターに出演している人は誰?

Film  出演者,A  B  出演  =  0.507292  Film  監督,A  B  出演  =    0.012332  

回答: サム・ワーシントン,・・・

関係名と質問文パタンの組合せに  対応するスコアを割り当てる

スコアの高い関係名の順に  対応する回答を提示

質問文パタンの抽出  回答候補(+関係名)を取得

オフライン処理

関係名:  Film  出演者    A  B  出演          0.507292    A  B  演じる    0.234533                                      ……  

関係名-­‐関係名対応パタンDB

関係名-­‐関係インスタンスDB

関係名:  Film  出演者    アバター,S・ワーシントン  関係名:Film  監督  アバター,J・キャメロン  

サム・ワーシントン (Film  出演者)  ジェームズ・キャメロン (Film  監督)    

Aに出演しているB  →  A  B  出演  

Page 7: Wikipedia Template から抽出した意味的関係インスタンスによる質問応答手法

提案手法の概要 質問: アバターに出演している人は誰?

Film  出演者,A  B  出演  =  0.507292  Film  監督,A  B  出演  =    0.012332  

回答: サム・ワーシントン,・・・

関係名と質問文パタンの組合せに  対応するスコアを割り当てる

スコアの高い関係名の順に  対応する回答を提示

質問文パタンの抽出  回答候補(+関係名)を取得

サム・ワーシントン (Film  出演者)  ジェームズ・キャメロン (Film  監督)    

Aに出演しているB  →  A  B  出演  

オフライン処理

関係名:  Film  出演者    A  B  出演          0.507292    A  B  演じる    0.234533                                      ……  

関係名-­‐関係名対応パタンDB

関係名-­‐関係インスタンスDB

関係名:  Film  出演者    アバター,S・ワーシントン  関係名:Film  監督  アバター,J・キャメロン  

Page 8: Wikipedia Template から抽出した意味的関係インスタンスによる質問応答手法

提案手法の概要 質問: アバターに出演している人は誰?

Film  出演者,A  B  出演  =  0.507292  Film  監督,A  B  出演  =    0.012332  

回答: サム・ワーシントン,・・・

関係名と質問文パタンの組合せに  対応するスコアを割り当てる

スコアの高い関係名の順に  対応する回答を提示

質問文パタンの抽出  回答候補(+関係名)を取得

サム・ワーシントン (Film  出演者)  ジェームズ・キャメロン (Film  監督)    

Aに出演しているB  →  A  B  出演  

オフライン処理

関係名:  Film  出演者    A  B  出演          0.507292    A  B  演じる    0.234533                                      ……  

関係名-­‐関係名対応パタンDB

関係名-­‐関係インスタンスDB

関係名:  Film  出演者    アバター,S・ワーシントン  関係名:Film  監督  アバター,J・キャメロン  

Page 9: Wikipedia Template から抽出した意味的関係インスタンスによる質問応答手法

提案手法の概要 質問: アバターに出演している人は誰?

Film  出演者,A  B  出演  =  0.507292  Film  監督,A  B  出演  =    0.012332  

回答: サム・ワーシントン,・・・

関係名と質問文パタンの組合せに  対応するスコアを割り当てる

スコアの高い関係名の順に  対応する回答を提示

質問文パタンの抽出  回答候補(+関係名)を取得

オフライン処理

サム・ワーシントン (Film  出演者)  ジェームズ・キャメロン (Film  監督)    

Aに出演しているB  →  A  B  出演  

関係名:  Film  出演者    A  B  出演          0.507292    A  B  演じる    0.234533                                      ……  

関係名-­‐関係名対応パタンDB

関係名-­‐関係インスタンスDB

関係名:  Film  出演者    アバター,S・ワーシントン  関係名:Film  監督  アバター,J・キャメロン  

Page 10: Wikipedia Template から抽出した意味的関係インスタンスによる質問応答手法

提案手法の概要 質問: アバターに出演している人は誰?

Film  出演者,A  B  出演  =  0.507292  Film  監督,A  B  出演  =    0.012332  

回答: サム・ワーシントン,・・・

関係名と質問文パタンの組合せに  対応するスコアを割り当てる

スコアの高い関係名の順に  対応する回答を提示

質問文パタンの抽出  回答候補(+関係名)を取得

オフライン処理

サム・ワーシントン (Film  出演者)  ジェームズ・キャメロン (Film  監督)    

Aに出演しているB  →  A  B  出演  

関係名:  Film  出演者    A  B  出演          0.507292    A  B  演じる    0.234533                                      ……  

関係名-­‐関係名対応パタンDB

関係名-­‐関係インスタンスDB

関係名:  Film  出演者    アバター,S・ワーシントン  関係名:Film  監督  アバター,J・キャメロン  

Page 11: Wikipedia Template から抽出した意味的関係インスタンスによる質問応答手法

提案手法の概要 質問: アバターに出演している人は誰?

Film  出演者,A  B  出演  =  0.507292  Film  監督,A  B  出演  =    0.012332  

回答: サム・ワーシントン,・・・

関係名と質問文パタンの組合せに  対応するスコアを割り当てる

スコアの高い関係名の順に  対応する回答を提示

質問文パタンの抽出  回答候補(+関係名)を取得

オフライン処理

サム・ワーシントン (Film  出演者)  ジェームズ・キャメロン (Film  監督)    

Aに出演しているB  →  A  B  出演  

関係名:  Film  出演者    A  B  出演          0.507292    A  B  演じる    0.234533                                      ……  

関係名-­‐関係名対応パタンDB

関係名-­‐関係インスタンスDB

関係名:  Film  出演者    アバター,S・ワーシントン  関係名:Film  監督  アバター,J・キャメロン  

Page 12: Wikipedia Template から抽出した意味的関係インスタンスによる質問応答手法

関係名対応パタンの獲得  1/2

•  各関係名毎に係り受け解析した6億ページのWeb文書から,換言により拡張した関係インスタンスが共起する構文パタンを獲得        e.g.  アバターに出演するサム・ワーシントン      → Aに出演するB  (関係名:  Film  出演者)        e.g.  アバターでサム・ワーシントンが乗る翼竜      → AでBが乗る  (関係名:  Film  出演者)  – 全ての関係名に対し,「Aの(属性名)はB」という構

文パタンを追加(e.g.  Aの出演者はB)  

Page 13: Wikipedia Template から抽出した意味的関係インスタンスによる質問応答手法

関係名対応パタンの獲得 2/2

•  データ過疎性を考慮し,活用の違いを無視するために,構文パタンから内容語のみを抽出した単語集合を獲得        e.g.  Aに出演したB →  A  B  出演            Bが出演するA      →  A  B  出演  

これらを  「関係名対応パタン」  と見なす

回答候補は質問文中の名詞と特定の関係名を持つ語に  限定される(=強い意味クラスの制限を受ける)   → 助詞を考慮しない事で大きな影響はないと予想

e.g.  アバターに出演している人は誰ですか?    

   アバター (Film  出演者)      サム・ワーシントン            (Film  監督)   ジェームズ・キャメロン

回答候補

Page 14: Wikipedia Template から抽出した意味的関係インスタンスによる質問応答手法

関係名対応パタンへスコアを付与

表 1: システムの出力例

質問:タイタニックで有名な人は誰? 質問:小学館から出ている作品は何? 質問:大林組が携わった建物は何?関係名 出力結果 関係名 出力結果 関係名 出力結果Film 出演者 レオナルド・ディカプリオ radiodrama 発売元 BASARA 体育館 施行 名古屋市総合体育館Film 出演者 ケイト・ウィンスレット novel 出版社 ふしぎ遊戯 体育館 施行 大阪市中央体育館Film 監督 ジェームズ・キャメロン novel 出版社 超時空要塞マクロス 体育館 施行 府中市立総合体育館Film 音楽 ジェームズ・ホーナー novel 出版社 ブラック・ラグーン hotel 設計 ホテルエンパイアFilm 製作 ジョン・ランドー novel 出版社 ハヤテのごとく! ダム 施行業者 上郷ダムFilm 製作総指揮 レイ・サンキーニ novel 出版社 ケータイ少女 ダム 施工業者 内村ダムFilm 編集 コンラッド・パフ novel 出版社 人類は衰退しました ダム 施工業者 美和ダムFilm 編集 リチャード・A・ハリス novel 出版社 ホットギミック ダム 施工業者 八汐ダムFilm 製作国 アメリカ合衆国 novel 出版社 神のみぞ知るセカイ ダム 施工業者 七色ダムFilm 配給 20 世紀フォックス novel 出版社 レヴィアタンの恋人 ダム 施工業者 天ヶ瀬ダム

の (e.g. 関係インスタンス:NICT,京都府精華町→ NICT,精華町)

2. Wikipediaのリダイレクト情報を用いて関係インスタンスの換言を行った単語対 (e.g. 関係インスタンス:ヤマト運輸,トラック輸送→クロネコヤマト,トラック輸送).

3. 高度言語情報融合フォーラム (ALAGIN)5の日本語異表記対データベース (Version 1.1,リソース ID

A-7)と基本的意味関係の事例ベース (Version 1.3,リソース ID A-9)中にある同義語対を用いて関係インスタンスの換言を行った単語対.

これらの処理により,10,468 個の関係名に対して2,946,385個の構文パタンが得られた.残りの 22,629個の関係名は,

1. 関係インスタンスが非常に疎な関係名であり,Web6

億ページ中に関係名を表現する構文がない (e.g. 関係名:天体軌道 近日点距離).

2. 関係インスタンスの情報が記号で表現されていたため,Web6億ページ中のデータと一致しない (e.g.

関係名:駅情報 社色,関係インスタンス:大阪駅,#0072bc).

3. Wikipedia Templateの抽出誤りによるもので,関係名として有効でない.

といった理由から,構文パタンが抽出できなかった.これらのデータは処理対象から除外して扱っている.また例外処理として,全ての関係名に対し「Aの (属

性名)は B 」(e.g. Aの出演者は B)というパタンを加えた.活用の違い等を無視するために,得られた構文パタンから内容語 (未定義語,名詞,形容詞,動詞の基本形のいずれか)のみを抽出した単語集合を構築し,それらをパタンと見なす (e.g. Aに出演した B→ A B 出

5http://www.alagin.jp/

演).更に抽出したパタン群を関係名を表現する代表的なパタンのスコアが高くなるよう重み付けする.ここでは情報検索における一般的な特徴単語の重み付け手法であるTF-IDF法に則り,関係名 rにおけるパタン p

の重み wgt(r, p)を式 (1)で定義する.

wgt(r, p) =np,r!x nx,r

!"log2

|R||Rp|

+ 1

#(1)

ここで np,r は関係名 r中の全インスタンスに対するパタン pの共起頻度,!x nx,rは関係名 r中のパタン総数,|R|は関係名の総数,|Rp|はパタン pがその関係インスタンスと共起する関係名の総数をそれぞれ表している.例外的に導入した「Aの (属性名)は B」というパタンに対しては,関係名中で最も高かったスコアと同等の値がふられている.最後に,こうして得られた重み付きパタン群を高度言語情報融合フォーラムの動詞含意関係データベース (Version 1.3.1,リソース ID A-2)[2]を用いて含意関係にある語で換言し,パタンの拡張を行う(e.g. A B 出演→A B 演じる).拡張で得られたパタンには,拡張元のパタンと同等のスコアがふられている.

2.2 質問応答部の処理提案手法では,まず JUMANと KNPを用いて入力

された質問文から質問のトピック候補となる名詞群,およびそれらをつなぐ構文パタンを取得する.構文パタン抽出のために質問文に含まれる疑問代名詞も考慮する.例えば,「黒澤明が監督した映画は何?」という質問から下記のパタンと名詞対が得られる.

構文パタン   名詞対「A が監督した B」 A:黒澤明,B:映画

「A が監督した映画は B」 A:黒澤明,B:何「A は B」 A:映画,B:何

これらの名詞に現れる語 (黒澤明,映画,何)を以下では質問のトピック候補と呼ぶ.次にこのトピック候補を片方の名詞として持つような関係インスタンスを全て抽出し,もう片方の名詞を回答の候補と見なす.この回

•  関係名を表現する関係名対応パタンのスコアが高くなるよう重み付けを行う  

•  TF-­‐IDF法にのっとり,関係名rにおけるパタンpの重みwgt(r,  p)を定義

関係名中に頻繁に出現するパタンはスコアが高くなる

多くの関係名に出現するパタンはスコアが低くなる

表 1: システムの出力例

質問:タイタニックで有名な人は誰? 質問:小学館から出ている作品は何? 質問:大林組が携わった建物は何?関係名 出力結果 関係名 出力結果 関係名 出力結果Film 出演者 レオナルド・ディカプリオ radiodrama 発売元 BASARA 体育館 施行 名古屋市総合体育館Film 出演者 ケイト・ウィンスレット novel 出版社 ふしぎ遊戯 体育館 施行 大阪市中央体育館Film 監督 ジェームズ・キャメロン novel 出版社 超時空要塞マクロス 体育館 施行 府中市立総合体育館Film 音楽 ジェームズ・ホーナー novel 出版社 ブラック・ラグーン hotel 設計 ホテルエンパイアFilm 製作 ジョン・ランドー novel 出版社 ハヤテのごとく! ダム 施行業者 上郷ダムFilm 製作総指揮 レイ・サンキーニ novel 出版社 ケータイ少女 ダム 施工業者 内村ダムFilm 編集 コンラッド・パフ novel 出版社 人類は衰退しました ダム 施工業者 美和ダムFilm 編集 リチャード・A・ハリス novel 出版社 ホットギミック ダム 施工業者 八汐ダムFilm 製作国 アメリカ合衆国 novel 出版社 神のみぞ知るセカイ ダム 施工業者 七色ダムFilm 配給 20 世紀フォックス novel 出版社 レヴィアタンの恋人 ダム 施工業者 天ヶ瀬ダム

の (e.g. 関係インスタンス:NICT,京都府精華町→ NICT,精華町)

2. Wikipediaのリダイレクト情報を用いて関係インスタンスの換言を行った単語対 (e.g. 関係インスタンス:ヤマト運輸,トラック輸送→クロネコヤマト,トラック輸送).

3. 高度言語情報融合フォーラム (ALAGIN)5の日本語異表記対データベース (Version 1.1,リソース ID

A-7)と基本的意味関係の事例ベース (Version 1.3,リソース ID A-9)中にある同義語対を用いて関係インスタンスの換言を行った単語対.

これらの処理により,10,468 個の関係名に対して2,946,385個の構文パタンが得られた.残りの 22,629個の関係名は,

1. 関係インスタンスが非常に疎な関係名であり,Web6

億ページ中に関係名を表現する構文がない (e.g. 関係名:天体軌道 近日点距離).

2. 関係インスタンスの情報が記号で表現されていたため,Web6億ページ中のデータと一致しない (e.g.

関係名:駅情報 社色,関係インスタンス:大阪駅,#0072bc).

3. Wikipedia Templateの抽出誤りによるもので,関係名として有効でない.

といった理由から,構文パタンが抽出できなかった.これらのデータは処理対象から除外して扱っている.また例外処理として,全ての関係名に対し「Aの (属

性名)は B 」(e.g. Aの出演者は B)というパタンを加えた.活用の違い等を無視するために,得られた構文パタンから内容語 (未定義語,名詞,形容詞,動詞の基本形のいずれか)のみを抽出した単語集合を構築し,それらをパタンと見なす (e.g. Aに出演した B→ A B 出

5http://www.alagin.jp/

演).更に抽出したパタン群を関係名を表現する代表的なパタンのスコアが高くなるよう重み付けする.ここでは情報検索における一般的な特徴単語の重み付け手法であるTF-IDF法に則り,関係名 rにおけるパタン p

の重み wgt(r, p)を式 (1)で定義する.

wgt(r, p) =np,r!x nx,r

!"log2

|R||Rp|

+ 1

#(1)

ここで np,r は関係名 r中の全インスタンスに対するパタン pの共起頻度,!x nx,rは関係名 r中のパタン総数,|R|は関係名の総数,|Rp|はパタン pがその関係インスタンスと共起する関係名の総数をそれぞれ表している.例外的に導入した「Aの (属性名)は B」というパタンに対しては,関係名中で最も高かったスコアと同等の値がふられている.最後に,こうして得られた重み付きパタン群を高度言語情報融合フォーラムの動詞含意関係データベース (Version 1.3.1,リソース ID A-2)[2]を用いて含意関係にある語で換言し,パタンの拡張を行う(e.g. A B 出演→A B 演じる).拡張で得られたパタンには,拡張元のパタンと同等のスコアがふられている.

2.2 質問応答部の処理提案手法では,まず JUMANと KNPを用いて入力

された質問文から質問のトピック候補となる名詞群,およびそれらをつなぐ構文パタンを取得する.構文パタン抽出のために質問文に含まれる疑問代名詞も考慮する.例えば,「黒澤明が監督した映画は何?」という質問から下記のパタンと名詞対が得られる.

構文パタン   名詞対「A が監督した B」 A:黒澤明,B:映画

「A が監督した映画は B」 A:黒澤明,B:何「A は B」 A:映画,B:何

これらの名詞に現れる語 (黒澤明,映画,何)を以下では質問のトピック候補と呼ぶ.次にこのトピック候補を片方の名詞として持つような関係インスタンスを全て抽出し,もう片方の名詞を回答の候補と見なす.この回

表 1: システムの出力例

質問:タイタニックで有名な人は誰? 質問:小学館から出ている作品は何? 質問:大林組が携わった建物は何?関係名 出力結果 関係名 出力結果 関係名 出力結果Film 出演者 レオナルド・ディカプリオ radiodrama 発売元 BASARA 体育館 施行 名古屋市総合体育館Film 出演者 ケイト・ウィンスレット novel 出版社 ふしぎ遊戯 体育館 施行 大阪市中央体育館Film 監督 ジェームズ・キャメロン novel 出版社 超時空要塞マクロス 体育館 施行 府中市立総合体育館Film 音楽 ジェームズ・ホーナー novel 出版社 ブラック・ラグーン hotel 設計 ホテルエンパイアFilm 製作 ジョン・ランドー novel 出版社 ハヤテのごとく! ダム 施行業者 上郷ダムFilm 製作総指揮 レイ・サンキーニ novel 出版社 ケータイ少女 ダム 施工業者 内村ダムFilm 編集 コンラッド・パフ novel 出版社 人類は衰退しました ダム 施工業者 美和ダムFilm 編集 リチャード・A・ハリス novel 出版社 ホットギミック ダム 施工業者 八汐ダムFilm 製作国 アメリカ合衆国 novel 出版社 神のみぞ知るセカイ ダム 施工業者 七色ダムFilm 配給 20 世紀フォックス novel 出版社 レヴィアタンの恋人 ダム 施工業者 天ヶ瀬ダム

の (e.g. 関係インスタンス:NICT,京都府精華町→ NICT,精華町)

2. Wikipediaのリダイレクト情報を用いて関係インスタンスの換言を行った単語対 (e.g. 関係インスタンス:ヤマト運輸,トラック輸送→クロネコヤマト,トラック輸送).

3. 高度言語情報融合フォーラム (ALAGIN)5の日本語異表記対データベース (Version 1.1,リソース ID

A-7)と基本的意味関係の事例ベース (Version 1.3,リソース ID A-9)中にある同義語対を用いて関係インスタンスの換言を行った単語対.

これらの処理により,10,468 個の関係名に対して2,946,385個の構文パタンが得られた.残りの 22,629個の関係名は,

1. 関係インスタンスが非常に疎な関係名であり,Web6

億ページ中に関係名を表現する構文がない (e.g. 関係名:天体軌道 近日点距離).

2. 関係インスタンスの情報が記号で表現されていたため,Web6億ページ中のデータと一致しない (e.g.

関係名:駅情報 社色,関係インスタンス:大阪駅,#0072bc).

3. Wikipedia Templateの抽出誤りによるもので,関係名として有効でない.

といった理由から,構文パタンが抽出できなかった.これらのデータは処理対象から除外して扱っている.また例外処理として,全ての関係名に対し「Aの (属

性名)は B 」(e.g. Aの出演者は B)というパタンを加えた.活用の違い等を無視するために,得られた構文パタンから内容語 (未定義語,名詞,形容詞,動詞の基本形のいずれか)のみを抽出した単語集合を構築し,それらをパタンと見なす (e.g. Aに出演した B→ A B 出

5http://www.alagin.jp/

演).更に抽出したパタン群を関係名を表現する代表的なパタンのスコアが高くなるよう重み付けする.ここでは情報検索における一般的な特徴単語の重み付け手法であるTF-IDF法に則り,関係名 rにおけるパタン p

の重み wgt(r, p)を式 (1)で定義する.

wgt(r, p) =np,r!x nx,r

!"log2

|R||Rp|

+ 1

#(1)

ここで np,r は関係名 r中の全インスタンスに対するパタン pの共起頻度,!x nx,rは関係名 r中のパタン総数,|R|は関係名の総数,|Rp|はパタン pがその関係インスタンスと共起する関係名の総数をそれぞれ表している.例外的に導入した「Aの (属性名)は B」というパタンに対しては,関係名中で最も高かったスコアと同等の値がふられている.最後に,こうして得られた重み付きパタン群を高度言語情報融合フォーラムの動詞含意関係データベース (Version 1.3.1,リソース ID A-2)[2]を用いて含意関係にある語で換言し,パタンの拡張を行う(e.g. A B 出演→A B 演じる).拡張で得られたパタンには,拡張元のパタンと同等のスコアがふられている.

2.2 質問応答部の処理提案手法では,まず JUMANと KNPを用いて入力

された質問文から質問のトピック候補となる名詞群,およびそれらをつなぐ構文パタンを取得する.構文パタン抽出のために質問文に含まれる疑問代名詞も考慮する.例えば,「黒澤明が監督した映画は何?」という質問から下記のパタンと名詞対が得られる.

構文パタン   名詞対「A が監督した B」 A:黒澤明,B:映画

「A が監督した映画は B」 A:黒澤明,B:何「A は B」 A:映画,B:何

これらの名詞に現れる語 (黒澤明,映画,何)を以下では質問のトピック候補と呼ぶ.次にこのトピック候補を片方の名詞として持つような関係インスタンスを全て抽出し,もう片方の名詞を回答の候補と見なす.この回

表 1: システムの出力例

質問:タイタニックで有名な人は誰? 質問:小学館から出ている作品は何? 質問:大林組が携わった建物は何?関係名 出力結果 関係名 出力結果 関係名 出力結果Film 出演者 レオナルド・ディカプリオ radiodrama 発売元 BASARA 体育館 施行 名古屋市総合体育館Film 出演者 ケイト・ウィンスレット novel 出版社 ふしぎ遊戯 体育館 施行 大阪市中央体育館Film 監督 ジェームズ・キャメロン novel 出版社 超時空要塞マクロス 体育館 施行 府中市立総合体育館Film 音楽 ジェームズ・ホーナー novel 出版社 ブラック・ラグーン hotel 設計 ホテルエンパイアFilm 製作 ジョン・ランドー novel 出版社 ハヤテのごとく! ダム 施行業者 上郷ダムFilm 製作総指揮 レイ・サンキーニ novel 出版社 ケータイ少女 ダム 施工業者 内村ダムFilm 編集 コンラッド・パフ novel 出版社 人類は衰退しました ダム 施工業者 美和ダムFilm 編集 リチャード・A・ハリス novel 出版社 ホットギミック ダム 施工業者 八汐ダムFilm 製作国 アメリカ合衆国 novel 出版社 神のみぞ知るセカイ ダム 施工業者 七色ダムFilm 配給 20 世紀フォックス novel 出版社 レヴィアタンの恋人 ダム 施工業者 天ヶ瀬ダム

の (e.g. 関係インスタンス:NICT,京都府精華町→ NICT,精華町)

2. Wikipediaのリダイレクト情報を用いて関係インスタンスの換言を行った単語対 (e.g. 関係インスタンス:ヤマト運輸,トラック輸送→クロネコヤマト,トラック輸送).

3. 高度言語情報融合フォーラム (ALAGIN)5の日本語異表記対データベース (Version 1.1,リソース ID

A-7)と基本的意味関係の事例ベース (Version 1.3,リソース ID A-9)中にある同義語対を用いて関係インスタンスの換言を行った単語対.

これらの処理により,10,468 個の関係名に対して2,946,385個の構文パタンが得られた.残りの 22,629個の関係名は,

1. 関係インスタンスが非常に疎な関係名であり,Web6

億ページ中に関係名を表現する構文がない (e.g. 関係名:天体軌道 近日点距離).

2. 関係インスタンスの情報が記号で表現されていたため,Web6億ページ中のデータと一致しない (e.g.

関係名:駅情報 社色,関係インスタンス:大阪駅,#0072bc).

3. Wikipedia Templateの抽出誤りによるもので,関係名として有効でない.

といった理由から,構文パタンが抽出できなかった.これらのデータは処理対象から除外して扱っている.また例外処理として,全ての関係名に対し「Aの (属

性名)は B 」(e.g. Aの出演者は B)というパタンを加えた.活用の違い等を無視するために,得られた構文パタンから内容語 (未定義語,名詞,形容詞,動詞の基本形のいずれか)のみを抽出した単語集合を構築し,それらをパタンと見なす (e.g. Aに出演した B→ A B 出

5http://www.alagin.jp/

演).更に抽出したパタン群を関係名を表現する代表的なパタンのスコアが高くなるよう重み付けする.ここでは情報検索における一般的な特徴単語の重み付け手法であるTF-IDF法に則り,関係名 rにおけるパタン p

の重み wgt(r, p)を式 (1)で定義する.

wgt(r, p) =np,r!x nx,r

!"log2

|R||Rp|

+ 1

#(1)

ここで np,r は関係名 r中の全インスタンスに対するパタン pの共起頻度,!x nx,rは関係名 r中のパタン総数,|R|は関係名の総数,|Rp|はパタン pがその関係インスタンスと共起する関係名の総数をそれぞれ表している.例外的に導入した「Aの (属性名)は B」というパタンに対しては,関係名中で最も高かったスコアと同等の値がふられている.最後に,こうして得られた重み付きパタン群を高度言語情報融合フォーラムの動詞含意関係データベース (Version 1.3.1,リソース ID A-2)[2]を用いて含意関係にある語で換言し,パタンの拡張を行う(e.g. A B 出演→A B 演じる).拡張で得られたパタンには,拡張元のパタンと同等のスコアがふられている.

2.2 質問応答部の処理提案手法では,まず JUMANと KNPを用いて入力

された質問文から質問のトピック候補となる名詞群,およびそれらをつなぐ構文パタンを取得する.構文パタン抽出のために質問文に含まれる疑問代名詞も考慮する.例えば,「黒澤明が監督した映画は何?」という質問から下記のパタンと名詞対が得られる.

構文パタン   名詞対「A が監督した B」 A:黒澤明,B:映画

「A が監督した映画は B」 A:黒澤明,B:何「A は B」 A:映画,B:何

これらの名詞に現れる語 (黒澤明,映画,何)を以下では質問のトピック候補と呼ぶ.次にこのトピック候補を片方の名詞として持つような関係インスタンスを全て抽出し,もう片方の名詞を回答の候補と見なす.この回

表 1: システムの出力例

質問:タイタニックで有名な人は誰? 質問:小学館から出ている作品は何? 質問:大林組が携わった建物は何?関係名 出力結果 関係名 出力結果 関係名 出力結果Film 出演者 レオナルド・ディカプリオ radiodrama 発売元 BASARA 体育館 施行 名古屋市総合体育館Film 出演者 ケイト・ウィンスレット novel 出版社 ふしぎ遊戯 体育館 施行 大阪市中央体育館Film 監督 ジェームズ・キャメロン novel 出版社 超時空要塞マクロス 体育館 施行 府中市立総合体育館Film 音楽 ジェームズ・ホーナー novel 出版社 ブラック・ラグーン hotel 設計 ホテルエンパイアFilm 製作 ジョン・ランドー novel 出版社 ハヤテのごとく! ダム 施行業者 上郷ダムFilm 製作総指揮 レイ・サンキーニ novel 出版社 ケータイ少女 ダム 施工業者 内村ダムFilm 編集 コンラッド・パフ novel 出版社 人類は衰退しました ダム 施工業者 美和ダムFilm 編集 リチャード・A・ハリス novel 出版社 ホットギミック ダム 施工業者 八汐ダムFilm 製作国 アメリカ合衆国 novel 出版社 神のみぞ知るセカイ ダム 施工業者 七色ダムFilm 配給 20 世紀フォックス novel 出版社 レヴィアタンの恋人 ダム 施工業者 天ヶ瀬ダム

の (e.g. 関係インスタンス:NICT,京都府精華町→ NICT,精華町)

2. Wikipediaのリダイレクト情報を用いて関係インスタンスの換言を行った単語対 (e.g. 関係インスタンス:ヤマト運輸,トラック輸送→クロネコヤマト,トラック輸送).

3. 高度言語情報融合フォーラム (ALAGIN)5の日本語異表記対データベース (Version 1.1,リソース ID

A-7)と基本的意味関係の事例ベース (Version 1.3,リソース ID A-9)中にある同義語対を用いて関係インスタンスの換言を行った単語対.

これらの処理により,10,468 個の関係名に対して2,946,385個の構文パタンが得られた.残りの 22,629個の関係名は,

1. 関係インスタンスが非常に疎な関係名であり,Web6

億ページ中に関係名を表現する構文がない (e.g. 関係名:天体軌道 近日点距離).

2. 関係インスタンスの情報が記号で表現されていたため,Web6億ページ中のデータと一致しない (e.g.

関係名:駅情報 社色,関係インスタンス:大阪駅,#0072bc).

3. Wikipedia Templateの抽出誤りによるもので,関係名として有効でない.

といった理由から,構文パタンが抽出できなかった.これらのデータは処理対象から除外して扱っている.また例外処理として,全ての関係名に対し「Aの (属

性名)は B 」(e.g. Aの出演者は B)というパタンを加えた.活用の違い等を無視するために,得られた構文パタンから内容語 (未定義語,名詞,形容詞,動詞の基本形のいずれか)のみを抽出した単語集合を構築し,それらをパタンと見なす (e.g. Aに出演した B→ A B 出

5http://www.alagin.jp/

演).更に抽出したパタン群を関係名を表現する代表的なパタンのスコアが高くなるよう重み付けする.ここでは情報検索における一般的な特徴単語の重み付け手法であるTF-IDF法に則り,関係名 rにおけるパタン p

の重み wgt(r, p)を式 (1)で定義する.

wgt(r, p) =np,r!x nx,r

!"log2

|R||Rp|

+ 1

#(1)

ここで np,r は関係名 r中の全インスタンスに対するパタン pの共起頻度,!x nx,rは関係名 r中のパタン総数,|R|は関係名の総数,|Rp|はパタン pがその関係インスタンスと共起する関係名の総数をそれぞれ表している.例外的に導入した「Aの (属性名)は B」というパタンに対しては,関係名中で最も高かったスコアと同等の値がふられている.最後に,こうして得られた重み付きパタン群を高度言語情報融合フォーラムの動詞含意関係データベース (Version 1.3.1,リソース ID A-2)[2]を用いて含意関係にある語で換言し,パタンの拡張を行う(e.g. A B 出演→A B 演じる).拡張で得られたパタンには,拡張元のパタンと同等のスコアがふられている.

2.2 質問応答部の処理提案手法では,まず JUMANと KNPを用いて入力

された質問文から質問のトピック候補となる名詞群,およびそれらをつなぐ構文パタンを取得する.構文パタン抽出のために質問文に含まれる疑問代名詞も考慮する.例えば,「黒澤明が監督した映画は何?」という質問から下記のパタンと名詞対が得られる.

構文パタン   名詞対「A が監督した B」 A:黒澤明,B:映画

「A が監督した映画は B」 A:黒澤明,B:何「A は B」 A:映画,B:何

これらの名詞に現れる語 (黒澤明,映画,何)を以下では質問のトピック候補と呼ぶ.次にこのトピック候補を片方の名詞として持つような関係インスタンスを全て抽出し,もう片方の名詞を回答の候補と見なす.この回

: 関係名の総数

: パタンpが出現する   関係名の総数

: 関係名rにおける   パターンpの出現頻度

: パタンpの出現頻度  

Page 15: Wikipedia Template から抽出した意味的関係インスタンスによる質問応答手法

パタンの拡張

•  より多くの換言表現を獲得する    → 関係名パタンの内容語をALAGINの動詞含意      

    関係データベースで換言し,パタンを拡張          ※拡張で得られた関係名表現パタンには,元パタンと   同様のスコアがふられる  ※「A  B  (属性名)」の関係名対応パタンには,関係名中   で最も高いスコアと同じ値がふられる

A  B  出演        0.507292    →  A  B  演じる    0.507292    →  A  B  出る      0.507292

Page 16: Wikipedia Template から抽出した意味的関係インスタンスによる質問応答手法

提案手法の概要 質問: アバターに出演している人は誰?

Film  出演者,A  B  出演  =  0.507292  Film  監督,A  B  出演  =    0.012332  

回答: サム・ワーシントン,・・・

関係名と質問文パタンの組合せに  対応するスコアを割り当てる

スコアの高い関係名の順に  対応する回答を提示

質問文パタンの抽出  回答候補(+関係名)を取得

オフライン処理

サム・ワーシントン (Film  出演者)  ジェームズ・キャメロン (Film  監督)    

Aに出演しているB  →  A  B  出演  

関係名:  Film  出演者    A  B  出演          0.507292    A  B  演じる    0.234533                                      ……  

関係名-­‐関係名対応パタンDB

関係名-­‐関係インスタンスDB

関係名:  Film  出演者    アバター,S・ワーシントン  関係名:Film  監督  アバター,J・キャメロン  

Page 17: Wikipedia Template から抽出した意味的関係インスタンスによる質問応答手法

提案手法の概要 質問: アバターに出演している人は誰?

Film  出演者,A  B  出演  =  0.507292  Film  監督,A  B  出演  =    0.012332  

回答: サム・ワーシントン,・・・

関係名と質問文パタンの組合せに  対応するスコアを割り当てる

スコアの高い関係名の順に  対応する回答を提示

質問文パタンの抽出  回答候補(+関係名)を取得

オフライン処理

サム・ワーシントン (Film  出演者)  ジェームズ・キャメロン (Film  監督)    

Aに出演しているB  →  A  B  出演  

関係名:  Film  出演者    A  B  出演          0.507292    A  B  演じる    0.234533                                      ……  

関係名-­‐関係名対応パタンDB

関係名-­‐関係インスタンスDB

関係名:  Film  出演者    アバター,S・ワーシントン  関係名:Film  監督  アバター,J・キャメロン  

Page 18: Wikipedia Template から抽出した意味的関係インスタンスによる質問応答手法

質問応答部の処理  1/2

質問文:アバターに出演している人は誰?

トピック候補: アバター,人,誰,出演  

A  B  出演, A  B  演じる, A  B  出演 人

サム・ワーシントン,…      (Film  出演者)  ジェームズ・キャメロン (Film  監督)  J-­‐POP                                                                (album  ジャンル)  

構文パタン:Aに出演しているB,                                              Aに出演している人はB,…  

関係名-­‐関係インスタンスDB

関係名:  Film  出演者    アバター,S・ワーシントン    アバター,S・ウィーバー  関係名:Film  監督  アバター,J・キャメロン  関係名:album  ジャンル  人,J-­‐POP  

→  質問文パタンの集合

→  回答候補集合,関係名

Page 19: Wikipedia Template から抽出した意味的関係インスタンスによる質問応答手法

質問応答部の処理  2/2

Film  出演者  A  B  出演  0.507292  Film  出演者  A  B  演じる 0.507292  Film  監督    A  B  出演 0.103215  Film  監督          A  B  演じる  0.103215  

Film  出演者 =  0.507292+0.507292=1.014584  Film  監督 =  0.103215+0.103215=0.20643  

関係名ごとに  スコア合計値を計算  

回答:サム・ワーシントン,シガニー・ウィーバー,…

スコアが高い順に回答  候補集合から回答を提示

質問中で共起した関係名,質問文パタンの組み合わせについてスコアを獲得  

関係名:  Film  出演者    A  B  出演 0.507292    A  B  演じる    0.507292                                      ……  

関係名-­‐関係名対応パタンDB

Page 20: Wikipedia Template から抽出した意味的関係インスタンスによる質問応答手法

実験

Page 21: Wikipedia Template から抽出した意味的関係インスタンスによる質問応答手法

実験方法

•  アノテーター3名で,特定の条件を満たす100個の関係名に対し,関係インスタンスを3つずつ選択し,質問回答のペアを作成  – 重複した質問を削除  →  893個の質問回答ペアを作成  

•  893個の質問に対する提案手法の出力を以下の2つの尺度で評価  – 上位N(N=1,  3,  5,  10)件以内に正答を含む確率  – Mean  Average  Precision  (MAP)  ※Wikipedia上で正解とされる結果が複数あった場合,そのうちのどれが出力されても正解と見なす  

•  e.g.  アバターに出演していたのは誰ですか?  –  サム・ワーシントン,シガニー・ウィーバー  

Page 22: Wikipedia Template から抽出した意味的関係インスタンスによる質問応答手法

比較手法

•  提案手法の結果を2つの手法と比較  – 比較手法1  

•  質問文中の名詞と関係インスタンスを成す語(回答候補集合)の中から無作為に回答を提示する手法  –  6億ページのWeb文書から得られたパタンの有効性を確認  – パタンを利用した関係名特定の有効性を確認  

– 比較手法2  •  パタンの抽象化,パタンの換言を行わず,構文パタン

をそのまま用いる手法  – データ過疎性を考慮したパタン抽象化,およびパタン換言の

有効性を確認

Page 23: Wikipedia Template から抽出した意味的関係インスタンスによる質問応答手法

実験結果

比較手法1  (%) 比較手法2  (%) 提案手法  (%) 精度@1 31.3 47.9 53.1 精度@3 45.3 58.3 65.2 精度@5 52.5 64.4 71.2 精度@10 64.3 71.8 76.8 MAP 33.9 52.1 65.7

•  上位10件以内に正答を含む確率(精度@10):  76.8  %  •  Mean  Average  Precision:  65.7  %  •  比較手法1,比較手法2に対して出力精度が向上  –  提案手法の有効性を確認  

Page 24: Wikipedia Template から抽出した意味的関係インスタンスによる質問応答手法

出力結果例

質問: タイタニックで有名な人は誰?     レオナルド・ディカプリオ (Film  出演者)   ケイト・ウィンスレット (Film  出演者)   ジェームズ・キャメロン (Film  監督)   ジェームズ・ホーナー (Film  音楽)   ジョン・ランドー (Film  制作)   ジョン・ランドー (Film  製作総指揮)   コンラッド・パフ (Film  編集)   リチャード・A・ハリス (Film  編集)   アメリカ合衆国 (Film  製作国)   20世紀フォックス (Film  配給)  

質問: 大林組が携わった建物は何?     名古屋市総合体育館 (体育館 施工)   大阪市中央体育館 (体育館 施工)   府立市立総合体育館 (体育館 施工)   ホテルエンパイア (hotel  設計)   上郷ダム (ダム 施工業者)   内村ダム (ダム 施工業者)   美和ダム (ダム 施工業者)   八汐ダム (ダム 施工業者)   七色ダム (ダム 施工業者)   天ヶ瀬ダム (ダム 施工業者)  

※()内は関係名

•  提案手法の出力結果上位10件の例

Page 25: Wikipedia Template から抽出した意味的関係インスタンスによる質問応答手法

まとめ

•  質問文のパタンから質問文が問うている関係名を特定し,対応する回答を提示する質問応答システムを構築  – Wikipedia  Templateを質問応答の知識源として利

用する手法を提案  

•  提案手法は出力結果上位10件以内に正答を含む確率が76.8%,MAP値が65.7%

Page 26: Wikipedia Template から抽出した意味的関係インスタンスによる質問応答手法

関係インスタンスの拡張

•  以下の条件で関係インスタンスの単語を換言し,構文パタン獲得に利用  –  2文字よりも長い末尾の単語で換言  

•  e.g.  NICT,京都府精華町 → NICT,精華町  – Wikipedia上でリダイレクトされている単語で換言  

•  e.g.  ヤマト運輸,航空輸送 → クロネコヤマト,航空輸送  – 高度言語情報融合フォーラム(ALAGIN)の言語資源

を用いて換言  •  日本語異表記データベース中の異表記対で換言  

–  e.g.  ジャパンタイムス,新聞業 → ジャパン・タイムズ,新聞業  •  基本的意味関係の事例ベース中の同義語対で換言  

–  e.g.  マイクロソフト,開発 → MS社,開発  

Page 27: Wikipedia Template から抽出した意味的関係インスタンスによる質問応答手法

構文パタンの獲得結果

•  10,468個の関係名に対し,2,946,385個の構文パタンが得られた.

– 構文パタンが得られなかった例  •  関係インスタンスが疎な関係名  

–  e.g.  関係名: 天体軌道 近日点距離  

•  関係インスタンスの情報が記号で表現されているもの  –  e.g.  関係名: 駅情報 社色       関係インスタンス: 大阪駅,#0072bc  

• Wikipedia  Templateの抽出誤りによるもの  

Page 28: Wikipedia Template から抽出した意味的関係インスタンスによる質問応答手法

言い換えによる関係インスタンスの追加  1/2

•  基本的意味関係の事例ベース(Ver.1.3)の同義語群  – 追加された関係インスタンス:  36,728  

•  追加されたパターン:  351,261  

•  Wikipediaリダイレクト  – 追加された関係インスタンス:  15,648,644  

•  追加されたパターン:  567,671  

•  日本語異表記対データベース(Version1.1)  – 追加された関係インスタンス:  33,329  

•  追加されたパターン:  89,960  

Page 29: Wikipedia Template から抽出した意味的関係インスタンスによる質問応答手法

言い換えによる関係インスタンスの追加  2/2

•  suffixが一致する語を関係インスタンスとして利用  – e.g.  NICT,京都府相楽郡精華町(企業,所在地)  

– 関係インスタンス:  NICT 精華町  

•  日本語異表記対データベース(Version1.1)  – 人手生成対:61,555  – SVMのLinear  kernelで学習した分類器で獲得した

異表記対:1,530,000(Precision:約95%)  – SVMのPolynomial  kernelで学習した分類器で獲

得した異表記対:1,300,000(Precision:約95%)  

Page 30: Wikipedia Template から抽出した意味的関係インスタンスによる質問応答手法

評価実験用データの用意  1/2

•  以下の条件を満たすものは除外  – 関係インスタンスの単語の大半が外国語表記に

なるもの  •  e.g.  関係名: 大統領 各国語表記  

– 関係インスタンスの単語対が同じ単語になるもの  •  e.g.  関係名: モデル モデル名      関係インスタンス: 相沢紗世,相沢紗世  

– 関係インスタンスの単語が一文節を超える固有名であるもの  •  e.g.  ハリーポッターと賢者の石,ダニエル・ラドクリフ

Page 31: Wikipedia Template から抽出した意味的関係インスタンスによる質問応答手法

評価実験用データの用意  2/2

•  質問作成の際に定めた条件  –  質問文中に用いる関係名は一つに限定  

•  e.g.  関係名:  Film  出演者                        関係インスタンス:  アバター,サム・ワーシントン    アバターに出演していて,1976年生まれの人は誰ですか?  

–  1つの関係名について作成される質問は全て言い回しを変え,  •  e.g.  アバターに出演した人は誰ですか?  •  e.g.  アバターで演じているのは誰ですか?

重複した質問を削除 → 893個の評価セットを作成

Page 32: Wikipedia Template から抽出した意味的関係インスタンスによる質問応答手法

結果のエラー解析 •  質問文中の情報を全て扱っていないことによる抽出ミス  

–  e.g.  男女共学で学ぶ幼稚園はどこですか  •  質問パタン:  A  B  学ぶ  •  正答を含む関係名: 日本の幼稚園 共学・別学  •  抽出した関係名 : 日本の中等教育学校 共学・別学  

→ 回答の上位語を推定することで解決できる  •  疑問詞のタイプを区別していないことによる抽出ミス  

–  e.g.  リリアン・J・ブラウンが誕生したのはいつですか.  •  質問パタン:  A  B  誕生  •  正答を含む関係名: 作家 誕生日  •  抽出した関係名 : 作家 誕生地  

→ 回答の属性情報を考慮することで解決できる  •  Web文書中にほとんど関係インスタンスが存在しないため,

有効なパタンが得られない.  –  e.g.  関係名: 商業施設 駐車台数  –  Web文書中で発見された総インスタンス数:  4