47
⽂書要約⼊⾨ ⽂書要約⼊⾨ NISHIKAWA Hitoshi 2011/09/10 1 TokyoNLP #7

Introduction to Automatic Summarization

Embed Size (px)

Citation preview

Page 1: Introduction to Automatic Summarization

⽂書要約⼊⾨⽂書要約⼊⾨

NISHIKAWA Hitoshi

2011/09/10 1TokyoNLP #7

Page 2: Introduction to Automatic Summarization

ばくっとした⽂書要約のお話ばくっとした⽂書要約のお話字義の通り 機械(計算機)に⽂書を要• 字義の通り、機械(計算機)に⽂書を要約させること

• なんで計算機にそんなことさせるのか?みんな忙しいので⻑い⽂書なんざ読んでいら–みんな忙しいので⻑い⽂書なんざ読んでいられない(俗なところでは、「今北産業」)厳 いところでは安全保障上の要請–厳ついところでは安全保障上の要請• アラブ⼈が悪さしてないかアメリカ⼈は知りたい• アラビア語で書かれた新聞記事を機械翻訳、英語

にして⾃動要約 (TIDES program by DARPA)

2011/09/10 TokyoNLP #7 2

Page 3: Introduction to Automatic Summarization

ばくっとした⽂書要約のお話ばくっとした⽂書要約のお話⾃然⾔語処理技術(計算機で⾃然⾔語(• ⾃然⾔語処理技術(計算機で⾃然⾔語(⽇本語や英語)を扱う技術)の⼀種で、機械翻訳などと同様に応⽤側の技術

• 形態素解析など⾃然⾔語処理の様々な基• 形態素解析など⾃然⾔語処理の様々な基礎技術の上に成⽴

2011/09/10 TokyoNLP #7 3

Page 4: Introduction to Automatic Summarization

⽂書要約⽂書要約情報のソ スを受け取り そこから内容を抽出し も• 情報のソースを受け取り、そこから内容を抽出し、もっとも重要な内容をユーザに、簡約した形で、かつ、ユーザやアプリケーションの要求に応じた形で提⽰することザやアプリケ ションの要求に応じた形で提⽰すること(Mani, 2001)

• 単⼀の、あるいは複数のニュース記事の数のニュース記事の要約

• 情報検索システムや質問応答システムの出⼒部

2011/09/10 4TokyoNLP #7

Page 5: Introduction to Automatic Summarization

⽬次⽬次導⼊• 導⼊– ⽂書要約の種類

単 /複数 報知的/指⽰的 抽出的/⽣成的 クエリ⾮依存/クエリ• 単⼀/複数、報知的/指⽰的、抽出的/⽣成的、クエリ⾮依存/クエリ依存

– ⽂書要約の要素技術• ⽂分割、⽂短縮、重要⽂抽出、⽂の順序付け

• 具体的な⼿法(重要⽂抽出を中⼼に)– ⽬的関数の設計、argmax操作の実⾏

• 要約の評価– ROUGE、DUC Linguistic Quality Test

• まとめ

2011/09/10 5TokyoNLP #7

Page 6: Introduction to Automatic Summarization

導⼊

2011/09/10 6TokyoNLP #7

Page 7: Introduction to Automatic Summarization

⽂書要約の種類 1/3⽂書要約の種類 1/31 ⽬的 指⽰的要約/報知的要約1. ⽬的:指⽰的要約/報知的要約–指⽰的:原⽂書を読むべきか判断するための

要約(e.g.新聞の⾒出し)–報知的:原⽂書の代わりとする要約(e.g.報知的:原⽂書の代わりとする要約(e.g.

ニュースの字幕)2 ⼊⼒:単⼀⽂書要約/複数⽂書要約2. ⼊⼒:単⼀⽂書要約/複数⽂書要約–単⼀:⼀つの⽂書を要約–複数:⼀つ以上の⽂書を要約

2011/09/10 7TokyoNLP #7

Page 8: Introduction to Automatic Summarization

⽂書要約の種類 2/3⽂書要約の種類 2/33 内容 クエリ依存/クエリ⾮依存3. 内容:クエリ依存/クエリ⾮依存–クエリ依存:何らかのクエリ(特定の情報へ

の要求)に対する要約(e.g.スニペット)–クエリ⾮依存:特定の情報に依らない要約クエリ⾮依存:特定の情報に依らない要約

4. ⼿法:抽出的要約/⽣成的要約抽出的要約 原⽂書を⽂に分解し 要約とし–抽出的要約:原⽂書を⽂に分解し、要約として相応しい⽂を選び(重要⽂抽出)、それらを繋げ と 作 要約を繋げることで作る要約

–⽣成的要約:原⽂書にない表現を含む(新しい表現を⽣成する)要約

2011/09/10 8TokyoNLP #7

Page 9: Introduction to Automatic Summarization

⽂書要約の種類 3/3⽂書要約の種類 3/3まとめると こんな感じ• まとめると、こんな感じ

1.目的 指示的 報知的

2.入力 単一 複数

3 内容 クエリ依存 クエリ非依存3.内容 クエリ依存 クエリ非依存

4.手法 抽出的 生成的

• 今回は「指⽰的」で「クエリ⾮依存」の「抽出的要約」の ⼊⼒が単 の場合と「抽出的要約」の、⼊⼒が単⼀の場合と複数の場合をざっくりとご紹介

2011/09/10 9TokyoNLP #7

Page 10: Introduction to Automatic Summarization

⽂書要約の要素技術 1/6⽂書要約の要素技術 1/6反政府派と大統領派が2日、激しく衝突し

多数の死傷者が出たエジプト・カイロは、夜明け 双方で散発的に投石が行われムバラク大統領に対する

抗議デモが続くエジプトで、反体制派が4日に大規模デ を実施する 大統領

一夜明け、双方で散発的に投石が行われるなど、緊迫した状態が続いている。エジプトで続く反政府デモは、2日から3日未明にかけて 反政府派と大統領支持派デモを実施する。大統領

に即時退陣を迫る構え。

未明にかけて、反政府派と大統領支持派の衝突に発展し、火炎瓶が建物や車に引火し、至るところで火の手が上がり、黒煙が立ち込めた。が立ち込めた。

2011/09/10 10TokyoNLP #7

Page 11: Introduction to Automatic Summarization

⽂書要約の要素技術:⽂分割 2/6⽂書要約の要素技術:⽂分割 2/6反政府派と大統領派が2日、激しく衝突し多

数の死傷者が出たエジプト・カイロは、一夜

ムバラク大統領に対する抗議デモが続くエジプトで、反体制派が4日に大規模

明け、双方で散発的に投石が行われるなど 、 緊 迫 し た 状 態 が 続 い て い る 。エジプトで続く反政府デモは、2日から3日

反体制派が4日に大規模デモを実施する。大統領に即時退陣を迫る構え。

未明にかけて、反政府派と大統領支持派の衝突に発展し、火炎瓶が建物や車に引火し、至るところで火の手が上がり、黒煙が立ち込めた立ち込めた。

1. ムバラク大統領に対する抗議デモが続くエジプトで、反体制派が4日に大規模

3. 反政府派と大統領派が2日、激しく衝突し多数の

死傷者が出たエジプト・カイロは、一夜明け、双方で散発的に投石が行われるなど、緊迫した状態が続 る反体制派が4日に大規模

デモを実施する。

2. 大統領に即時退陣を迫る構え

続いている。4. エジプトで続く反政府デモは、2日から3日未明に

かけて、反政府派と大統領支持派の衝突に発展し、火炎瓶が建物や車に引火し 至るところで火の手構え。 火炎瓶が建物や車に引火し、至るところで火の手が上がり、黒煙が立ち込めた。

2011/09/10 11TokyoNLP #7

Page 12: Introduction to Automatic Summarization

⽂書要約の要素技術:⽂短縮 3/6⽂書要約の要素技術:⽂短縮 3/6

3. 反政府派と大統領派が 激 く衝

3a.反政府派と大統領派が2日、激しく衝突し

多数の死傷者が出たエジプト・カイロは、一夜明け、双方で散発的に投石が行われ

派が2日、激しく衝

突し多数の死傷者が出たエジプト・カイは 夜明け 双

夜明け、双方で散発的に投石が行われるなど、緊迫した状態が続いている。

3b.多数の死傷者が出たエジプト・カイロは、ロは、一夜明け、双方で散発的に投石が行われるなど、緊迫した状態が続い

多数 死傷者 出 ジ 、

一夜明け、双方で散発的に投石が行われるなど、緊迫した状態が続いている。

迫した状態が続いている。

3c.エジプト・カイロは、一夜明け、双方で散発

的に投石が行われるなど、緊迫した状態が続いている。

2011/09/10 12TokyoNLP #7

Page 13: Introduction to Automatic Summarization

⽂書要約の要素技術:重要⽂抽出 4/6⽂書要約の要素技術:重要⽂抽出 4/61 ムバラク大統領に対する

3. 反政府派と大統領派が2日、激しく衝突し多1. ムバラク大統領に対する

抗議デモが続くエジプトで、反体制派が4日に大規模デモを実施する

数の死傷者が出たエジプト・カイロは、一夜明け、双方で散発的に投石が行われるなど、緊迫した状態が続いている。

デモを実施する。

2. 大統領に即時退陣を迫る構え。

4. エジプトで続く反政府デモは、2日から3日未

明にかけて、反政府派と大統領支持派の衝突に発展し、火炎瓶が建物や車に引火し、至

が が がるところで火の手が上がり、黒煙が立ち込めた。

1. ムバラク大統領に対する抗議デモが続くエジプトで

4. エジプトで続く反政府デモは、2日から3日未

明にかけて 反政府派と大統領支持派の衝抗議デモが続くエジプトで、反体制派が4日に大規模デモを実施する。

明にかけて、反政府派と大統領支持派の衝突に発展し、火炎瓶が建物や車に引火し、至るところで火の手が上がり、黒煙が立ち込めたた。

2011/09/10 13TokyoNLP #7

Page 14: Introduction to Automatic Summarization

⽂書要約の要素技術:⽂の順序付け 5/6⽂書要約の要素技術:⽂の順序付け 5/61 ムバラク大統領に対する 4 エジプトで続く反政府デモは 2日から3日未1. ムバラク大統領に対する

抗議デモが続くエジプトで、反体制派が4日に大規模デモを実施する。

4. エジプトで続く反政府デモは、2日から3日未

明にかけて、反政府派と大統領支持派の衝突に発展し、火炎瓶が建物や車に引火し、至るところで火の手が上がり、黒煙が立ち込めデモを実施する。 るところで火の手が上がり、黒煙が立ち込めた。

4. エジプトで続く反政府デモは、2日から3日未

明にかけて、反政府派と大統領支持派の衝が突に発展し、火炎瓶が建物や車に引火し、至

るところで火の手が上がり、黒煙が立ち込めた。

1 ムバラク大統領に対する抗議デモが続くエジ

※単一文書要約の場合は不要1. ムバラク大統領に対する抗議デモが続くエジ

プトで、反体制派が4日に大規模デモを実施する。

は不要

2011/09/10 14TokyoNLP #7

Page 15: Introduction to Automatic Summarization

⽂書要約の要素技術 6/6⽂書要約の要素技術 6/6まとめ• まとめ1. ⽂分割:⽂書を⽂に分割する2. ⽂短縮:修飾節を削除するなどして、原⽂よ

り短い原⽂の「亜種」を作るり短い原⽂の「亜種」を作る3. 重要⽂抽出:要約に相応しい⽂を選び出す4 ⽂の順序付け 選んだ⽂を適切に並べる4. ⽂の順序付け:選んだ⽂を適切に並べる

• 今回は特に、重要⽂抽出を中⼼に解説

2011/09/10 15TokyoNLP #7

Page 16: Introduction to Automatic Summarization

具体的な⼿法

2011/09/10 16TokyoNLP #7

Page 17: Introduction to Automatic Summarization

⽂分割⽂分割句点などを⼿掛かりに⽂章を⽂に分割する• 句点などを⼿掛かりに⽂章を⽂に分割する

• 「ムバラク⼤統領に対する抗議デモが続くエジプトで、反体制派が4⽇に⼤規模デモを実施する ⼤統領に即時反体制派が4⽇に⼤規模デモを実施する。⼤統領に即時退陣を迫る構え。」

• 切る⽂章の種類によって難しさが変わる• 切る⽂章の種類によって難しさが変わる– 新聞記事は綺麗に書かれているので楽– ⽂体が雑になるにつれて⽂境界がよくわからなくなる

• 真⾯⽬にやると⼤変、抽出的要約の場合、⽂分割の性能が要約の読みやすさに⼤きく影響– 変なところで切ると訳のわからない要約が出来る

2011/09/10 TokyoNLP #7 17

Page 18: Introduction to Automatic Summarization

⽂短縮⽂短縮⽂を短くする(そのまま)• ⽂を短くする(そのまま)–⽂の中には⼤切なところと⼤切でないところ

があるという発想• 以下の2つの基準で⽂を短くする以下の2つの基準で⽂を短くする–重要なところのみを残す

⽂法性を保–⽂法性を保つ• 要約システムに必ず必要というわけでは要約 必 必要

ない

2011/09/10 TokyoNLP #7 18

Page 19: Introduction to Automatic Summarization

⽂短縮⽂短縮基本的なアプロ チ 構⽂⽊を枝刈り• 基本的なアプローチ:構⽂⽊を枝刈り

ムバラク大統領に 対する 抗議デモが 続く エジプトで

反体制派が 4日に 大規模デモを 実施する。

ジプ が デ→○エジプトで反体制派が大規模デモを実施する。

→×ムバラク大統領に続く大規模デモを実施する。中間ノードを落とすと文法性が損なわれたり本来の文意が損なわれたりする

枝刈りされた木に対して言語尤度(文としての良さ)と内容に関するスコア(文が持 ている情報量)を与え良い木を選び出す

2011/09/10 TokyoNLP #7 19

持っている情報量)を与え良い木を選び出す

Page 20: Introduction to Automatic Summarization

重要⽂抽出重要⽂抽出要約なので 原⽂書より短くしたい• 要約なので、原⽂書より短くしたい

• どれくらい短くしたいかは外から与えらどれくらい短くしたいかは外から与えられるものとする基本的には単位はバイト ⽂字数 ⽂数• 基本的には単位はバイト、⽂字数、⽂数

2011/09/10 TokyoNLP #7 20

Page 21: Introduction to Automatic Summarization

重要⽂抽出重要⽂抽出文1:10文字 文2:30文字 文3:25字

100文字

•問題としては単純で、制限サイズにうまく収まる問題 単純 、制限 う 収 るように文を選ぶ•文の選び方によって要約の良し悪しが決まる

2011/09/10 TokyoNLP #7 21

Page 22: Introduction to Automatic Summarization

重要⽂抽出 1/2重要⽂抽出 1/2式を書くと以下のようになる• 式を書くと以下のようになる

{ }KSlengthSfS ≤= )(:)(maxargˆ

• D:原⽂の集合 S:Dの部分集合

{ }KSlengthSfSDS

≤⊆

)(:)(maxarg

D:原⽂の集合 S:Dの部分集合f(S):fに何らかのスコアを与える関数length(S):Sの⻑さ K:要約の最⼤サイズlength(S):Sの⻑さ K:要約の最⼤サイズ

• すなわち、何らかの⽬的関数fを最⼤化する、要約⻑K以内の ⽂の集合Sを探索(argmax)する約⻑K以内の、⽂の集合Sを探索(argmax)する問題として重要⽂抽出は定式化できる

2011/09/10 22TokyoNLP #7

Page 23: Introduction to Automatic Summarization

重要⽂抽出 2/2重要⽂抽出 2/2{ }ˆ { }KSlengthSfS

DS≤=

⊆)(:)(maxargˆ

• そのため、問題は2つ1 ⽬的関数f 設計 かなる⽂ 集合に⾼ 得1. ⽬的関数fの設計:いかなる⽂の集合に⾼い得

点を与えるか?1. モデル2. パラメタ推定

2. argmax操作:⽬的関数fを最⼤化する、要約⻑以内の⽂集合Sをどう⾼速に探索するか?

2011/09/10 23TokyoNLP #7

Page 24: Introduction to Automatic Summarization

⽬的関数の設計⽬的関数の設計まず⾮常に単純に考える• まず⾮常に単純に考える–要約のスコア:要約に含まれている⽂のスコ

アの和–⽂のスコア:⽂が含む内容語のスコア⽂のスコア:⽂が含む内容語のスコア

内容語

ムバラク大統領に対する抗議デモが続くエジプトで、反体制派が4日に大規模

ムバラク

大統領

対する反体制派が4日に大規模デモを実施する。

対する

抗議

2011/09/10 TokyoNLP #7 24

Page 25: Introduction to Automatic Summarization

⽬的関数の設計⽬的関数の設計内容語 tf‐idf

ムバラク 201 ムバラク大統領に対する ムバラク 20

大統領 5

抗議 7

1. ムバラク大統領に対する抗議デモが続くエジプトで、反体制派が4日に大規模デモを実施する。

• ⽂を内容語の集合(bag of words)として表現し、それら

抗議

… …

デモを実施する。

( g )の語それぞれに対してtf-idfなどで重みを定義し、⽂が含む単語の重みを⽂の重要度とする

⎫⎧

⎭⎬⎫

⎩⎨⎧

≤= ∑∑∈ ∈⊆

KSlengthwtfidfSSs swDS

)(:)(maxargˆ⎭⎩

• s: ⽂、w: 内容語、 tfidf(w): 内容語wのtfidf値• 単⼀⽂書要約の場合はこれでよい

2011/09/10 25TokyoNLP #7

単 ⽂書要約の場合はこれでよい

Page 26: Introduction to Automatic Summarization

冗⻑性問題冗⻑性問題複数⽂書要約の場合 「冗⻑性」を考慮• 複数⽂書要約の場合、「冗⻑性」を考慮する必要がある

• 複数⽂書要約の場合、⼊⼒中に類似した⽂が含まれる場合がある⽂が含まれる場合がある

• 類似した⽂は類似した得点を与えられるが 約ため、⼀⽅が要約に含まれた場合もう⼀

⽅も要約に含まれる可能性が⾼い

2011/09/10 TokyoNLP #7 26

Page 27: Introduction to Automatic Summarization

冗⻑性問題冗⻑性問題ムバラク大統領に対する抗議デモが続くエジプトで 反体制派が

エジプトではムバラク政権に対するデモが

ジプトで、反体制派が4日に大規模デモを実施する。

続いている。

実施する。

• 両⽅が要約に含まれた場合、無駄(冗⻑という⾔い⽅をする)い⽅をする)

• この冗⻑性を除去したい

2011/09/10 TokyoNLP #7 27

Page 28: Introduction to Automatic Summarization

単純な解法単純な解法• 選択した⽂間に類似度を定義、これまで

選択した⽂と類似した⽂が選ばれたらス選択した⽂と類似した⽂が選ばれたらスコアが下がるようにする

tssimilaritysscoreS ⎬⎫

⎨⎧

−= ∑∑ )()(maxargˆ

KSlengthts

tssimilaritysscoreSStstsSsDS

≤⎭⎬

⎩⎨= ∑∑

∈≠∈⊆

)(

),()(maxarg):,(

M i M i l R l (MMR)

KSlengthts ≤)(..

• Maximum Marginal Relevance (MMR) という (Carbonell et al., 1998)

2011/09/10 TokyoNLP #7 28

Page 29: Introduction to Automatic Summarization

argmax操作argmax操作{ }ˆ { }KSlengthSfS

DS≤=

⊆)(:)(maxargˆ

• 無事⽬的関数を作ることができたら次は操作に 考えargmax操作について考える

2011/09/10 TokyoNLP #7 29

Page 30: Introduction to Automatic Summarization

argmax操作 1/3argmax操作 1/3文番号 重要度 長さ

1 20 30

• 要約⻑40とする1 20 30

2 15 20

3 10 15

• 貪欲法1 ⽂1を選ぶ(合計スコア20 ⻑さ30)

3 10 15

4 4 6

1. ⽂1を選ぶ(合計スコア20、⻑さ30)2. ⽂4を選ぶ(合計スコア24、⻑さ36)

• しかし最適解に辿り着ける保証はない1. ⽂2を選ぶ(合計スコア15、⻑さ20)1. ⽂2を選ぶ(合計スコア15、⻑さ20)2. ⽂3を選ぶ(合計スコア25、⻑さ35)最適解はどうすれば⾒つかるか?• 最適解はどうすれば⾒つかるか?

2011/09/10 30TokyoNLP #7

Page 31: Introduction to Automatic Summarization

argmax操作 2/3argmax操作 2/3

• ⼀番網羅的な⽅法は「全ての組み合わせを試す」こと

• 4つの⽂から2つ選ぶ問題ならば:4C2で6• 4つの⽂から2つ選ぶ問題ならば:4C2で6通り

⽂から ⽂選ぶ問題なら• 100⽂から10⽂選ぶ問題なら?:100C10で1.73103095 × 1013通り

• 実⽤的な時間で求解不能

2011/09/10 31TokyoNLP #7

Page 32: Introduction to Automatic Summarization

argmax操作 3/3argmax操作 3/3「100⽂から10⽂選ぶ問題なら?」• 「100⽂から10⽂選ぶ問題なら?」

• ある⽬的関数を最⼤化する⽂の組み合わある⽬的関数を最⼤化する⽂の組み合わせを探索する問題となる組み合わせ最適化の 種と⾒なすことが• 組み合わせ最適化の⼀種と⾒なすことができ、組み合わせ最適化問題として解く

がことができる

2011/09/10 32TokyoNLP #7

Page 33: Introduction to Automatic Summarization

いろいろなアルゴリズムいろいろなアルゴリズム貪欲法• 貪欲法–スコアで⽂をソート、スコアが⾼いものから

選んでいく• 性能保証付き貪欲法性能保証付き貪欲法–⽂のスコアを⽂のコスト(⻑さ)で割ったも

ので⽂をソ トので⽂をソート–スコアが⾼いものから選んでいく

2011/09/10 TokyoNLP #7 33

Page 34: Introduction to Automatic Summarization

いろいろなアルゴリズムいろいろなアルゴリズム動的計画法• 動的計画法–冗⻑性を考慮しない場合(スコア関数が単純

な場合)⾼速に最適解を求めることができる• 整数計画法整数計画法• 劣モジュラ最適化–最適化しやすいように⽬的関数を⼯夫する–⽬的関数が劣モジュラ性を持つ(劣モジュラ⽬的関数が劣モジュラ性を持 (劣モジュラ

関数)である場合、性能保証付き貪欲法などで最適解が得られる可能性が⾼いで最適解が得られる可能性が⾼

2011/09/10 TokyoNLP #7 34

Page 35: Introduction to Automatic Summarization

⽂を並べる⽂を並べる無事 要約に⼊れる⽂を選んだら それ• 無事、要約に⼊れる⽂を選んだら、それらを並べる

• 単⼀⽂書要約の場合は、元の⽂書と同じ順序で並べれば良い順序で並べれば良い– 10⽂から3番めと7番⽬の⽂を選んだら、3番

⽬ 7番⽬と並べれば良い⽬→7番⽬と並べれば良い• 問題は複数⽂書要約の場合

2011/09/10 TokyoNLP #7 35

Page 36: Introduction to Automatic Summarization

⽂を並べる⽂を並べるS t d i というタスク• Sentence ordering というタスク

• いくつかのアプローチがあるいく かのアプロ チがある• タイムスタンプ順

⽂を選ん きた元⽂書 タイムスタンプ順に–⽂を選んできた元⽂書のタイムスタンプ順に並べる

–同じ⽂書から選ばれた⽂は⽂番号が⼩さい⽅–新聞が対象の場合は問題ない新聞が対象の場合は問題ない

2011/09/10 TokyoNLP #7 36

Page 37: Introduction to Automatic Summarization

統計モデルの導⼊• 統計モデルの導⼊– ⽂の間に連接コストを導⼊

文22•文1は文2とより繋がりや

すい、といった統計量を計算

文1

文33

•それに従ってコストを最小化するように文を並べる文33 化するように文を並 る

– グラフの探索に帰着(巡回セールスマン問題)– またもや計算量が多いので⼯夫が必要

2011/09/10 TokyoNLP #7 37

Page 38: Introduction to Automatic Summarization

重要⽂抽出重要⽂抽出まとめ• まとめ1. 重要⽂抽出は要約⻑以内の、⽬的関数を最⼤化する

⽂の集合を選ぶ問題とみなせる⽂の集合を選ぶ問題とみなせる2. ⽬的関数は、単純にはtf-idfなどで単語に重みづけ

し その和を⽂の重要度とするなどできるし、その和を⽂の重要度とするなどできる3. ⽬的関数を最⼤化する⽂の集合を効率的に選び出す

ことは難しい(貪欲法などで素早く選べるが ⽬的ことは難しい(貪欲法などで素早く選べるが、⽬的関数を最⼤化するとは限らない)

4. 重要⽂抽出は組み合わせ最適化問題とみなすことが4. 重要⽂抽出は組み合わせ最適化問題とみなすことができる

2011/09/10 38TokyoNLP #7

Page 39: Introduction to Automatic Summarization

要約の評価

2011/09/10 39TokyoNLP #7

Page 40: Introduction to Automatic Summarization

要約の評価要約の評価要約の評価は2種類に分かれる• 要約の評価は2種類に分かれる1. 内容的品質:原⽂書の内容を適切に反映し

た要約になっているか?2. ⾔語的品質:読みやすい要約になっている2. ⾔語的品質:読みやすい要約になっている

か?

2011/09/10 40TokyoNLP #7

Page 41: Introduction to Automatic Summarization

内容的品質内容的品質内容的品質には⾃動評価尺度が存在• 内容的品質には⾃動評価尺度が存在

• ROUGE (Lin, 2004)

4. エジプトで続く反政府デモは、2日から3日未明にかけて 反政

機械による要約ムバラク大統領に対する抗議デモが続くエジプトで 2日から3日未明

人間による要約

日から3日未明にかけて、反政

府派と大統領支持派の衝突に発展し、火炎瓶が建物や車に引火し 至るところで火の手が上

が続くエジプトで、2日から3日未明

にかけて、反政府派と大統領支持派の衝突が発生した。衝突の際には、火炎瓶が建物や車に引火し、火し、至るところで火の手が上

がり、黒煙が立ち込めた。1. ムバラク大統領に対する抗議デ

モが続くエジプトで 反体制派が

は、火炎瓶が建物や車に引火し、至るところで火の手が上がり、黒煙が立ち込めた。更に4日には、反体

制派が大規模デモの実施を計画し

• ⼈間による要約とのn-gram類似度を計算

モが続くエジプトで、反体制派が4日に大規模デモを実施する。

制派 大規模デ 実施を計画ている。

⼈間による要約とのn gram類似度を計算2011/09/10 41TokyoNLP #7

Page 42: Introduction to Automatic Summarization

⾔語的品質⾔語的品質⾃動評価法はまだ確⽴されておらず ホ トな研究トピ• ⾃動評価法はまだ確⽴されておらず、ホットな研究トピック

• ⼈⼿によって以下の5尺度を評価することが⼀般的• ⼈⼿によって以下の5尺度を評価することが⼀般的1. ⽂法性:⽂法的でない⽂が含まれていないか?2. 冗⻑性:全く同じ情報が繰り返されていないか?2. 冗⻑性:全く同じ情報が繰り返されていないか?3. 照応・省略:先⾏詞のない指⽰詞が含まれていないか?4. 焦点:要約全体と無関係な情報が含まれていないか?5. 構造と結束性:接続詞を補ったり削除したりする必要のある箇

所はないか?

2011/09/10 42TokyoNLP #7

Page 43: Introduction to Automatic Summarization

要約の評価要約の評価まとめ• まとめ1. 要約の評価は内容的品質と⾔語的品質に分

かれる2. 内容的品質は⾃動評価尺度が存在する2. 内容的品質は⾃動評価尺度が存在する3. ⾔語的品質には⾃動評価尺度がなく、ホッ

トな研究トピックであるトな研究トピックである

2011/09/10 43TokyoNLP #7

Page 44: Introduction to Automatic Summarization

まとめまとめ• ⽂書要約とは、受け取った情報の最も重要な部

分を簡約した形 ザ 要求に応じ提供する分を簡約した形でユーザの要求に応じ提供することである

• ⽂書要約の中⼼的なアプローチは重要⽂抽出である

• 重要⽂抽出は組み合わせ最適化問題とみなすことができるとができる

• 要約の内容的品質については⾃動評価法が存在するが、⾔語的品質については⾃動評価はまだするが、⾔語的品質については⾃動評価はまだ確⽴されていない

2011/09/10 44TokyoNLP #7

Page 45: Introduction to Automatic Summarization

要約の⾯⽩さ要約の⾯⽩さ⽂より⼤きい単位(⽂章)を扱うこと• ⽂より⼤きい単位(⽂章)を扱うこと– NLP タスクは⽂内に閉じたタスクが多い–⽂より⼤きい単位を扱う⾯⽩さ

• ⽂章が出てくる• ⽂章が出てくる–⾃然⾔語の出⼒が出てくる⾯⽩さ–ただしその分評価は難しくなる

• 計算量との戦い計算量との戦い

2011/09/10 TokyoNLP #7 45

Page 46: Introduction to Automatic Summarization

御清聴ありがとうございました

2011/09/10 46TokyoNLP #7

Page 47: Introduction to Automatic Summarization

参考⽂献参考⽂献C b ll J i d G ld t i J d 1998 Th• Carbonell, Jaime and Goldstein, Jade. 1998. The use of MMR, diversity-based reranking for reordering documents and producing summariesreordering documents and producing summaries. In Proc. Of SIGIR.

• Lin, Chin-Yew. 2004. ROUGE: A Package forLin, Chin Yew. 2004. ROUGE: A Package for Automatic Evaluation of Summaries. In Proc. of ACL Workshop on Text Summarization.

• Mani, Inderjeet. 2001. Automatic Summarization. John Benjamins Publishing Company.

2011/09/10 TokyoNLP #7 47