Upload
marujirou
View
200
Download
1
Embed Size (px)
Citation preview
Komachi Lab
B4 宮崎亮輔
EMNLP読み会2014
Combining Distant and Partial Supervision for Relation Extraction (Angeli et al.)
12/03
※このスライド中の図はこの論文及びプレゼンスライド中のものです
Komachi Lab
Relation Extraction
2
入力: [Barack Obama] was born in [Hawaii]
出力: Born in
これ
Relation Extraction用語!
entity: 対象とする名詞!
mention: 名詞がマークされた入力!
pair: entityのペア
Komachi Lab
Agenda
✤ Distant Supervision!
✤ MIML-RE!
✤ Active Learning!
✤ Experiments!
✤ Conclusion
3
Komachi Lab
Distant Supervision
4
Komachi Lab
Distant Supervision✤ 知識ベースに大量に関係のタプルを持っている(e1, y, e2)!
- (Obama, Born in, Hawaii), (Obama, Live in , Hawaii), …!
✤ e1, e2を含むmentionの関係はyだとしてトレーニングする!
- Obama was born in Hawaii → Born in !
- Obama was born in Hawaii → Live in!
- Obama is living in Hawaii → Born in!
- Obama is living in Hawaii → Live in!
✤ 間違いも含むけど、関係を表すリッチな素性ができる!
✤ 教師データを作るコストがない、大量のデータを使える
5
Komachi Lab
MIML-RE
6
Komachi Lab
Multi-Instance Multi-Label Learning for Relation Extraction
✤ 同じpairが複数の関係ラベルを指す問題を解決するためのモデル!
✤ entityのpairは真には1つのラベルしか持たないという
仮定(実際にはmention毎に違う)!
✤ x:同じpairをもつmention!
✤ yは2値分類、zは多値分類
7
Komachi Lab
Active Learning
8
Komachi Lab
Active Learning
✤ アノテーションをするときに、クリティカルに 効きそうな事例を選んでアノテーションできると嬉しい!
✤ 基本的には最も曖昧なデータを選びたい
9
Komachi Lab
Query-By-Committee
✤ 複数分類器の多数決で票が割れた分類器の入力を選ぶ!
✤ 分類器の予測分布それぞれと
それらを平均した分布とのJSダイバージェンスが 一番大きい分類器!
➡ 平均的な分類器の出力分布と一番似ていない分類器の入力を選ぶ
10
Komachi Lab
Sampling✤ ほんとに一番似ていないものを選ぶ?!
✤ 3つで比較!
- 一様分布でサンプリング!
- 一番遠い!
- 遠いところからサンプリング(提案手法)!
✤ 一番遠いものを選ぶのは一番右の分類器を選ぶ!
✤ 平均に近い分類器はたくさんある!
✤ 一様分布だと簡単なものを選びやすい
一番遠いのだとレアなケースを選ぶ(一般的な表現を学習できない) 遠いところからサンプリングすると、難しくてかつ表現力のある(レアじゃない)ものを選べる
11
←平均に近い
平均から遠い分布↓
分類器の分布
Komachi Lab
Learning✤ どこで使うか!
✤ EMで学習してる, 7 iteration!
✤ E-stepでzを推測するときActive Learningの結果を入れる!
✤ 式のp(z|xi(m), wz)の設定によってアノテーターの
曖昧な部分を確率的な解釈として残すことができる
けど、今回は教師がiのときに1になる確率分布になってる!
✤ zi’が前のiterationでの推測値!
✤ z,yどっちの分類器も教師ありで事前トレーニングもする
12
ここ→wz
wy
Komachi Lab
Experiments
13
Komachi Lab
Experiments✤ KBP (Knowledge Base Population) のslot fillingタスク!
✤ 2010~2012をdev, 2013をtest!
✤ 知識ベースはWikipediaのdump(2013 July)!
✤ 325891 positive pair!
✤ 158091 negative pair (意図的に入れたり)!
✤ 1208524mention
14
Komachi Lab
Results
15
Komachi Lab
Results✤ Active Learning有り・なしと比べて
16
Komachi Lab
Results✤ 複数のActive Learningの比較
17
Komachi Lab
Conclusion
✤ MIML-REのdistant supervisionのモデルに
Active Learningの方法を取り入れて精度を上げた!
✤ Active Learningでの事例の選び方は重要!
✤ MIML-REの初期化(プレトレーニング)に敏感!
✤ アノテーション付きのデータを作った
18