16
EMNLP 読読読 Graph-based Readability Assessment Method using Word Coupling 2015/10/24 @niam 1 Zhiwei Jiang, Gang Sun, Qing Gu , Tao Bai, Daoxu Chen

EMNLP 2015 yomikai

Embed Size (px)

Citation preview

Page 1: EMNLP 2015 yomikai

1

EMNLP 読み会Graph-based Readability Assessment Method using Word Coupling

2015/10/24@niam

Zhiwei Jiang, Gang Sun, Qing Gu∗, Tao Bai, Daoxu Chen

Page 2: EMNLP 2015 yomikai

2

自己紹介を兼ねて

• 専門:自然言語処理,言語教育, NLP 応用数百語ぐらいの単語テストの結果を用いて,学習者が知っている単語を当てるタスク機械学習的な手法:ラベル伝搬法sklearn.semi_supervised.LabelPropagation/LabelSpreading 関数あたり.

• 去年の EMNLP 2014@ カタールに,ラベル伝搬+言語教育ネタで通しました.

• この論文も,ラベル伝搬+言語教育なので読みます.

Page 3: EMNLP 2015 yomikai

3

タイトルを見るGraph-based Readability Assessment Method using Word Coupling• Graph-based : Gaussian Random Field

(GRF, ICML 2003), scikit-learn でいうところの LabelPropagation 関数使ったよ

• Readability Assessment :昔からあるタスク.例えば,与えられた英文テキストが,英検何級レベルですか?というような識別問題

• Word Coupling :これが新しく,著者らが提案している,単語間関係を考慮して識別するための前処理

Page 4: EMNLP 2015 yomikai

4

ラベル伝搬法 1/2INPUT:枝に重みが付いたグラフノードの一部へのラベル

枝の重みに従ってラベルを伝搬

OUTPUT:全ノードのラベル

大敵:ハブノード

[Zhu+, ICML 2003]

Hub ノードを省く話は日本では,Ikumi Suzuki で検索すると出てくる

Page 5: EMNLP 2015 yomikai

5

ラベル伝搬法 2/2簡単な半教師あり学習法.重要な手法は2つ• Gaussian Random Field

– sklearn とこの論文では Label Propagation という名前

Zhu+, Technical Report CMU-CALD, 2002Zhu+, ICML 2003←GRF . ICML 2013 classic paper prize– 出力を確率値とみなせる(全ノードの値を足すと1)

• Learning with Local and Global Consistency– Zhou+, NIPS 2004– 言語処理では, Komachi+, EMNLP 2008 等で

使用– 出力は確率値とみなせない

Page 6: EMNLP 2015 yomikai

6

この研究の全体像

1. 単語 - 文書関係(TF-IDF)

2. 単語間の難易度の差

3. 単語 - 文書関係各文書に対して,単語次元の素性ベクトルができる

4. グラフを構築

Page 7: EMNLP 2015 yomikai

7

1. 単語 - 文書関係

普通の tf-idf 行列.f(t,d): 語 t が文書 d に出てきた頻度

Page 8: EMNLP 2015 yomikai

8

2. 単語間の難易度の差

語 t に関して i 番目の要素が以下であるような確率ベクトルを作る

語 t が現れる文の数 nt のうち, l(s)=i (難しさが i 程度)であるものの比率

l(s): 文 s に対して,この値が大きいほど難しいとみなせるような素性の値.非負の整数値に丸め.(後述)

p は確率分布なので,下記の式で Jensen-Shanon Divergenceを計算.(ただし, JSD の名前は出てこない)

2 単語間の関係を,下記のように定義

Page 9: EMNLP 2015 yomikai

9

3. 単語間の難易度の差を考慮した単語 - 文書行列

単語 - 文書行列

単語 - 文書行列TF-IDF

単語間の難易度の差を表す行列

Page 10: EMNLP 2015 yomikai

10

4. グラフの構築

単語 - 文書行列

単語 - 文書行列TF-IDF

単語間の難易度の差を表す行列

N(di):di の k 近傍

M: 単語 - 文書行列 .各文書に対して単語次元の素性ベクトル

Page 11: EMNLP 2015 yomikai

11

実際に,どのようなものを文 s の難易度としているか

語 t を含む文 s の難易度分布を通じて,語の難易度差に変換

Page 12: EMNLP 2015 yomikai

12

グラフのマージ* を surface, lexical, syntactic と変えることで,3 種類のグラフが出来る

ラベル伝搬法はハブ(多くのノードと繋がるノード)があると性能が悪化する→ハブがなるべく出来ないようにマージ

1.ノード v に対し, 3 種のどのグラフでもk 近傍になっているノード集合を,v と繋ぐ. Nc(v)=S(v) とする

2. |S(v)|<k の時, v’∈Nsur(v)∪Nlex(v)∪Nsyn(v)\S(v) のうち,Nc(v) との共通 k 近傍が最も小さい v’ から, Nc(v) に足していく( |Nc(v)|=k になるまで)

S(v)=

Page 13: EMNLP 2015 yomikai

13

結果 1/3使用したデータセット中国語と英語の 2 言語で実験( Readability Assessment の研究ではちゃんとやっている方)

CPT: Chinese Primary Textbook中国語文書について 6 段階の難易度を人手でつけたものENCT: English New Concept Textbook英語文書について 4 段階の難易度を人手でつけたもの

Page 14: EMNLP 2015 yomikai

14

結果 2/3 提案手法

Page 15: EMNLP 2015 yomikai

15

結果 3/3

ちゃんと,単語間難易度の差を考慮して分類することには意味があるよ

Page 16: EMNLP 2015 yomikai

16

まとめ• word coupling と言っているが,要するに,単語

間の難易度の差(近さ)を考慮した, Readability Assessment の手法を提案した– これまでの Readability Assessment :教師あり学習

&単語間難易度の差などは未考慮.– 提案:半教師あり+単語間の難易度の差を考慮.

• 単純に教師あり→半教師ありにしたら良いという話でもない事は実験からも分かる.

• ラベル伝搬性能を落とすハブが出来ないように考慮しつつ, surface, lexical, syntactic な情報をすべて入れて,ようやく,性能を上げている印象.