Upload
heidi
View
56
Download
0
Embed Size (px)
DESCRIPTION
ウェブ検索ログを用いた ラベル伝播による意味カテゴリ獲得. 小町守 (奈良先端大) 牧本慎平・内海慶・颯々野学( Yahoo! ) 2009-05-21 情報処理学会第 191 回自然言語処理研究会 第 76 回音声言語情報処理研究会. 背景 : 検索ユーザの関心を見つけることが重要. ターゲット広告 クエリ 書き換え ・クエリ 提案 ・クエリ 展開. 男性 既婚 30 代 就職活動中 …. !. ipod. ipot. search. ipot price. アイポット. iPot. i-pot. i-Pot. あいぽっと. 2. - PowerPoint PPT Presentation
Citation preview
ウェブ検索ログを用いたラベル伝播による意味カテゴリ獲
得小町守(奈良先端大)
牧本慎平・内海慶・颯々野学( Yahoo! )2009-05-21
情報処理学会第 191 回自然言語処理研究会第 76 回音声言語情報処理研究会
2
背景 : 検索ユーザの関心を見つけることが重要• ターゲット広告
• クエリ書き換え・クエリ提案・クエリ展開
男性既婚30 代就職活動中…
!
ipot searchipod ipot
priceiPot i-
poti-Potアイポット あいぽっと
2
3
コーパスに基づく意味カテゴリ獲得
Singapore
Hong Kong
___ visa Hong Kong
China
___ history
Australia
Egypt
単語 パターン 新しいクエリ
このステップを繰り返す
入力 出力(コーパスから抽出する)
Singapore visa
Singapore map
3
4
本研究のポイント大規模化・クリックログ・グラフ理論の適用
検索ログDB
before
ブートストラップ100 万検索クエリ 検索クエリログ
after
1,000 万検索クエリ
DB サイズ巨大
検索ログDB
検索ログDB 検索クエリ
+クリックログ グラフ理論
(以前作った)Tchai
Quetchup
5
Quetchup アルゴリズム(QUEry Term CHUnk Processor)
• 情報獲得源としてクリックスルーログを用いる
• グラフ理論による半教師ありアルゴリズム• 並列分散環境を用いたラベル伝播の大規模化
5
アップル クリック
コンピュータ
6
ブートストラップにおいては意味ドリフトが大問題
Singapore
ANA
___ visa UFJ
United___ airlines
ANA
Delta
単語 パターン 新しい単語
次のステップにエラーが伝播してしまう
入力 出力(コーパスから抽出した)
意味カテゴリが変わってしまった
6
7
クリックスルーパターンを使って意味カテゴリを学習
Singapore
新加波
en.wikipedia.org/wiki/Singapore 新加波
Kuala Lumpur
www.singaporeair.com/saa/zh_CN
昭南島
Penan
単語 パターン 新しい単語
大規模に入手可能検索クエリと比較して曖昧性が少ない
入力 出力(クエリからクリックされたアドレス)
同じアドレスをクリックする単語は同じ意味
7
8
グラフ理論に基づく意味カテゴリ学習• ブートストラップアルゴリズムの一部はグラフ上の類
似度計算と見なせる( Komachi et al. EMNLP-2008 )
8
Singapore
Hong Kong___ map
___ visa
UFJ
ANA
___ history
?
China___ airlines
似たパターンと共起するクエリ
は似ている
リンク解析( Google のPageRank 等)の手法を
用いて計算できる
9
クリックスルーによるインスタンス・パターン共起グラフ
• クエリ“ Hong Kong”→http://en.wikipedia.org/wiki/Hong_Kong
9
Singapore
Hong Kong http://en.wikipedia.org/wiki/Hong_Kong
http://www.bk.mufg.jp/
UFJ
ANA
http://www.singaporair.com/hk.jsp
Chinahttp://www.china-airlines.co.jp/
http://www.ana.co.jp/
http://www.acl-ijcnlp-2009.org/
http://www.cikm2009.org/
10
Quetchup アルゴリズム(QUEry Term CHUnk Processor)
• 情報獲得源としてクリックスルーログを用いる• グラフ理論による半教師ありアルゴリズム• 並列分散環境を用いたラベル伝播の大規模化
10
DB サイズ巨大
DB サイズ巨大
DB サイズ巨大
Pierre-Simon Laplace (1749-1827)
11
Zhou et al. (NIPS-2004) によるラベル伝播アルゴリズム
• 類似度行列 W を以下のように定める。 if i != j and Wii = 0.
• 行列 を構築する。 D は要素 (i,i) が W の i 番目の行の和となるような次
数対角行列である。
• 収束するまで を反復する。 α は( 0,1 )の範囲のパラメータである。
• F* を列 {F(t)} の極限とし、各点 xi を
によってラベル付けする。
W ij exp( x i x j2/2 2)
S D 1/ 2WD 1/ 2
F(t 1)SF(t) (1 )Y
y i argmax j Fij*
11
X はインスタンスの集合xi はインスタンス
12
提案手法 : ラプラシアンラベル伝播アルゴリズム
• 類似度行列 W を右のように定める。 ただし、 A はインスタンス・パターン共起行列である。
• 正規化ラプラシアン行列 を構築する。
D は要素 (i,i) が W の i 番目の行の和となるような次数対角行列である。
• 収束するまで を繰り返す。ただし α は (0,1) の範囲のパラメータである。
• F* を列 {F(t)} の極限とし、各点 xi を
によってラベル付けする。
W ATA
LI D 1/ 2WD 1/ 2
F(t 1)( L)F(t) (1 )Y
12
y i argmax j Fij*
並列分散計算が可能なように分解
グラフラプラシアンによって意味ドリフトの影響を抑制
13
列 {F(t)} は F* = (1-α)(I-αS)-1Y に収束する
証明 :• F(0) = Y とする。• 反復的に計算すると、
• 0 < α < 1 かつ (-L) の固有値は [-1, 1] にあるので、
• 従って また、分類タスクでは、これは以下と同値である。
13
F(t)(( L))t 1Y (1 ) (( L))iY .i0
t 1
limt(( L))t 1 0,
limt
(( L))i (I ( L)) 1 (I L) 1i0
t 1
F * limtF(t)(1 )(I L) 1Y,
F * (I L) 1Y .
正則化ラプラシアンカーネル(Smola and Kondor, COLT-2003) と一致する
14
グラフに基づく手法は単純だが、ウェブ文書などの大規模なデータにスケールす
る
利点• 大規模な生データにスケールする(並列分散計算)• 数学的背景が確立している( PageRank のように求める
ことができる)
欠点• 計算効率(→近似することができる)• なにが「よい」グラフか自明ではない• 計算リソースが必要( CPU ・ディスク・メモリ・などなど)
• 扱うために(バッド)ノウハウが必要14
15
検索ログからの意味カテゴリ学習実験
15
16
実験設定検索ログ• 日本語ウェブ検索ログ 2008年 8月分• 頻度上位 1,000 万件(異なり)• 圧縮状態で 60GB (展開すると 300GB )
パターン• 2単語クエリパターン・クリックパターン
使用カテゴリ( Komachi and Suzuki, IJCNLP-2008 )
16
DB サイズ巨大
DB サイズ巨大
DB サイズ巨大
カテゴリ
シード
旅行 jal, ana, jr, じゃらん , his
金融 みずほ銀行 , 三井住友銀行 , jcb, 新生銀行 , 野村證券
17
実験の評価
比較手法• Tchai (クエリ)・ Quetchup (クリック・
クエリ)アノテーション• 複数単語の場合は全ての単語についてドメインを付与
• 1単語について複数のドメインを付与
評価尺度• 精度• 相対再現率( Pantel and Ravichandran, NAACL-
2004 )
RA |B RARB
CA C
CB CCACB
PA| A |PB| B |
RA|B はシステム A の B に対する相対再現率CX はシステム X の出力中の正解の数C は真の正解の数PX はシステム X の精度 |X| はシステム X の入力の数
あるシステムから見た別のシステムのカバー率
18
旅行ドメインでの精度
クリックスルーを用いた手法が一番高い精度
18
19
金融ドメインでの精度
金融ドメインもクリックスルーログを用いた手法が一番高い精度
19
20
旅行ドメインでの相対再現率
クリックスルーログを用いた手法は精度が高いだけではなく相対再現率も高い水準
20
21
金融ドメインでの相対再現率
21
25
抽出したクエリの上位 1万件のランダムサンプル
タイプ(頻度)
例
交通( 54 ) 広島 新幹線 , 東海道線 , jr飯田線 , jr博多 , 京都 新幹線宿泊( 10 ) ホテルビーナス , リーガロイヤルホテル大阪 , www.route-
inn.co.jp, ホテル京阪ユニバーサル・シティ , 札幌全日空ホテル
旅行情報( 10 )
外務省 安全 , チケットショップ 大阪 , 観光 関西 , 高山観光協会 , グーグル ナビ
旅行代理店( 6)
jr おでかけネット , 近畿ツー , タビックス 静岡 , フレックスインターナショナル , オリオンツアー
その他( 2)
プロテカ( Proteca; 旅行かばんのブランド名) , jal紀行倶楽部
無関係( 20)
格安航空チケット 海外 , 新幹線予約状況 , 新幹線 時刻表 , 温泉宿 ,新幹線 停車駅 , 虎 , youtubu 海外ドラマ , 法務部採用 , おくりびと , 社会人野球
25
27
パラメータ α による Quetchupclick の性能の違い
クリックスルーグラフはクエリグラフより密なグラフを作るため、大きな αの値(初期ラベルをあまり信用しない)でも小さな α の値より精度が高かった
27
28
関連研究Pasca et al. (WWW-2007, IJCAI-2007)• 自然言語処理の分野で初めてウェブ検索クエリログの重
要性を説いた• 固有表現の属性を学習することに焦点を当てている
Talukdar et al. (EMNLP-2008), Pasca and Durme (ACL-2008)
• ウェブ文書とウェブ検索クエリログを組み合わせる
Hagiwara and Suzuki (NAACL 2009)• グラフカーネル(ノイマンカーネルと拡散カーネル)を
クエリ書き換えタスクに適用
28
29
まとめ
• クリックスルーログは意味知識抽出に効果が高い情報源である
• グラフ理論に基づく手法はブートストラップよりはるかに少ないパラメータで扱いやすく、理論的背景も確立されている
29
30
今後の予定
• 自然言語処理タスクで有用な情報源についてさらに調査する
•マルコフランダムウォークとラベル伝播手法の関係について考える
• 大規模なカテゴリ・粒度の異なるカテゴリでの実験
30