CICP2007

CICP2007大規模データによる未知語処理を統合し大規模データによる未知語処理を統合した頑健な統計的仮名漢字変換た頑健な統計的仮名漢字変換

CICP リーダー : 自然言語処理学講座 D1 小町守 / 協力 : 京大森信介 , Yahoo! Japan 徳永拓之

関連ソフトウェア

Anthy解析済みコーパスか

ら変換パラメータ推定機械学習とヒューリス

ティックのハイブリッド

メンテナンスに品詞や文節の知識が必要

Sumibi生コーパスから自動的に連接コストを推

定単語分かち書きが必

要辞書にない単語は変

換できないAjaxIME

解析済みコーパスから

変換・連接コスト推定

言語モデルが小さい仮名漢字モデルが貧

弱

課題と今後の予定

未知語に対する洗練されたモデルを検討中

3 グラム以上の言語モデルを使う ( サイズが巨大 )

単語入力履歴（変換ログ）やトピック情報を用いた変換を今後研究

統計的仮名漢字変換P( 仮名漢字 | 入力 ) の降順に変換候補を提示=P( 入力 | 仮名漢字 )P( 仮名漢字 ) の降順に変換候補を提示 (∵ ベイズ則 )

仮名漢字モデル P( 入力 | 仮名漢字 ) の学習解析済みコーパスから頻度を計算して最尤推定

毎日新聞 13 年分を形態素解析器 MeCab で解析

言語モデル P( 仮名漢字 ) の学習文を単語列と見なして文頭から予測する N グラム言語モデル

Google 日本語 N グラムデータ (200 億文 ) から単語の 1,2グラムを計算 ( 異なり 1 グラム数 :250 万 ; 異なり 2 グラム数 :8,000 万 )

仮名漢字モデル言語モデル

€

Mw,n (w) = P(wi |wi−n+1i−1 )

i=1

h+1

∏

今年の流行語 CKY ……

wi

€

Mkk (y |w) = P(y ii=1

h

∏ |wi )

€

P(y i |wi) =f (y i,wi)

f (wi)

克明かつあき？こくめい？

QuickTime˛ Ç∆TIFFÅiîÒà≥èkÅj êLí£ÉvÉçÉOÉâÉÄÇ™Ç±ÇÃÉsÉNÉ`ÉÉÇ å©ÇÈÇΩÇflÇ…ÇÕïKóvÇ≈Ç∑ÅB

QuickTime˛ Ç∆TIFFÅiîÒà≥èkÅj êLí£ÉvÉçÉOÉâÉÄÇ™Ç±ÇÃÉsÉNÉ`ÉÉÇ å©ÇÈÇΩÇflÇ…ÇÕïKóvÇ≈Ç∑ÅB

品詞情報を用いない頑健な仮名漢字変換大規模データから変換確率を推定

一般の開発者向けのフレームワークを提案

大規模コーパスによる統計的自然言語処理の応用できるだけ人手をかけないでメンテナンスGoogle 日本語 N グラム・ Wikipedia ・ etc…

自動的にユーザの手に馴染むテキスト入力環境の構築

Documents

CICP2007