Upload
ray
View
48
Download
0
Embed Size (px)
DESCRIPTION
Web コーパスを活用した レベル別例文検索システムの開発と評価. 川村よし子 クリスティナ・ヒメリャク・寒川 東京国際大学 ルブリャナ大学(スロヴェニア) 共同研究者:トマジュ・エリャヴェッツ ヨセフ・ステファン研究所. Web コーパスを活用した レベル別例文検索システムの開発と評価. はじめに 1. Web コーパスを活用した レベル別例文検索システムの開発 2.レベル別例文検索システムの仕組み 3.レベル別例文検索システムの評価. はじめに. 言語教育において、学習者のレベルにあった例文の提示は不可欠である。 - PowerPoint PPT Presentation
Citation preview
WebWebコーパスを活用したコーパスを活用したレベル別例文検索システムレベル別例文検索システム
の開発と評価の開発と評価 川村よし子 クリスティナ・ヒメリャク川村よし子 クリスティナ・ヒメリャク
・寒川・寒川東京国際大学 ルブリャナ大学(スロヴェ東京国際大学 ルブリャナ大学(スロヴェ
ニア)ニア)
共同研究者:トマジュ・エリャヴェッツ 共同研究者:トマジュ・エリャヴェッツ ヨセフ・ステファン研究所 ヨセフ・ステファン研究所
WebWebコーパスを活用したコーパスを活用したレベル別例文検索システムの開発と評価レベル別例文検索システムの開発と評価
►はじめにはじめに
►1.1.WebWebコーパスを活用したコーパスを活用した レベル別例文検索システムの開発 レベル別例文検索システムの開発
►2.レベル別例文検索システムの仕組み2.レベル別例文検索システムの仕組み
►3.レベル別例文検索システムの評価3.レベル別例文検索システムの評価
はじめにはじめに► 言語教育において、学習者のレベルにあった例文言語教育において、学習者のレベルにあった例文
の提示は不可欠である。の提示は不可欠である。► 例文はできるだけ自然な日本語で書かれているこ例文はできるだけ自然な日本語で書かれているこ
とが望ましい 。とが望ましい 。► 従来の辞書従来の辞書 『外国人のための基本語用例辞典』 『外国人のための基本語用例辞典』 『基礎日本語学習辞典』 『基礎日本語学習辞典』 『例解新国語辞典』 『例解新国語辞典』 作例が多く、品詞分類への配慮も十分ではない 作例が多く、品詞分類への配慮も十分ではない
► チュウ太の日本語辞書多言語化プロジェクトチュウ太の日本語辞書多言語化プロジェクト 1)異なった文化圏の学習者への配慮 1)異なった文化圏の学習者への配慮 2)品詞分類の異なる言語への配慮 2)品詞分類の異なる言語への配慮 3)用法についての言及 3)用法についての言及 4)接尾辞的用法への配慮 4)接尾辞的用法への配慮 5) 5) collocationcollocation ・連語・慣用句等への言及・連語・慣用句等への言及 6)概念ごとに例文を提示 6)概念ごとに例文を提示 ⇒⇒ 学習者のレベルにあった「自然な日本語の例文」学習者のレベルにあった「自然な日本語の例文」
を意味概念ごとに作成するのは容易ではない を意味概念ごとに作成するのは容易ではない
⇒⇒webweb 上の電子情報を活用したレベル別例文検索シ上の電子情報を活用したレベル別例文検索システムを開発 するステムを開発 する
1.1.WebWeb コーパスを活用したコーパスを活用した レベル別例文検索システムの開発 レベル別例文検索システムの開発
► 5万の日本語のウェブページから構築した4億語の5万の日本語のウェブページから構築した4億語のコーパス「コーパス「 JpWaCJpWaC 」 」
► 形態素解析システム形態素解析システム ChaSenChaSen でコーパスの解析 でコーパスの解析 ⇒ 1億語の学習者用コーパスを作成 ⇒ 1億語の学習者用コーパスを作成
► 各例文への情報付与各例文への情報付与 ・コーパス中の各単語に、「出題基準」)をもとに ・コーパス中の各単語に、「出題基準」)をもとに
したした 44 級(級( Level 4Level 4 )~)~ 11 級(級( Level 1Level 1 )のレベル付け)のレベル付け ・級外のものは ・級外のものは Level 0Level 0 ・各文に単語数、レベル別単語数、比率の情報付与 ・各文に単語数、レベル別単語数、比率の情報付与
1.1.WebWeb コーパスを活用したコーパスを活用した レベル別例文検索システムの開発 レベル別例文検索システムの開発
►日本語学習者用例文日本語学習者用例文 の抽出 の抽出 1)一文の長さが 1)一文の長さが 55 語以上語以上 2525 語以下のこと語以下のこと 2) 2) 2020 %以上の記号や数字を含まないこと%以上の記号や数字を含まないこと 3)日本語以外の表記を含まないこと 3)日本語以外の表記を含まないこと 4)句点(。)で終わっていること 4)句点(。)で終わっていること 5)少なくとも一つの動詞、形容詞、形容動詞、 5)少なくとも一つの動詞、形容詞、形容動詞、 あるいは助動詞を含むこと あるいは助動詞を含むこと⇒⇒ 学習者用例文コーパス(「 学習者用例文コーパス(「 JpWac-L2JpWac-L2 」) 」) 859,416859,416 文(単語総数文(単語総数 13,395,66713,395,667 語)語)
1.1.WebWeb コーパスを活用したコーパスを活用した レベル別例文検索システムの開発 レベル別例文検索システムの開発
► レベル別コーパス作成 レベル別コーパス作成 1)各レベルの例文には当該レベルより上の語句 1)各レベルの例文には当該レベルより上の語句
を含まないことを含まないこと 2)各レベルの例文には当該レベルの語を 2)各レベルの例文には当該レベルの語を 1010 %%
以上含むこと以上含むこと
⇒⇒ Level 0Level 0 から から Level 4Level 4 までの までの 55 段階の段階の レベル別例文コーパス レベル別例文コーパス
レベル別コーパスに含まれるレベル別コーパスに含まれる例文数例文数
レベル別コーパス 例文数JpWac-L2 に占め
る割合(%)Level 0 351,935 40.95
Level 1 34,777 4.05
Level 2 96,161 11.19
Level 3 26,894 3.13
Level 4 9,830 1.14
計 519,597 60.45
2.レベル別例文検索システムの仕組み2.レベル別例文検索システムの仕組み ► 入力された語句を含む例文を自動で検索する入力された語句を含む例文を自動で検索する キーワード検索システム キーワード検索システム ► インターネット上で利用可能 インターネット上で利用可能 ( ( http://nl.ijs.si/jaslo/cqp/index.http://nl.ijs.si/jaslo/cqp/index.
htmlhtml ) ) ► 検索方法や表示形式に関して細かく設定可能検索方法や表示形式に関して細かく設定可能
► 例文コーパス全体からの例文検索例文コーパス全体からの例文検索
選択可能 選択可能 レベル別コーパスからの例文検索 レベル別コーパスからの例文検索
力
Basic Proficiency Subcorpus ( Level 3 )
慣れる
3.レベル別例文検索システムの評3.レベル別例文検索システムの評価価
► 1)十分な量の例文が提供できているか 1)十分な量の例文が提供できているか ► 2)文として整っているか 2)文として整っているか ► 3)意味が通じるか 3)意味が通じるか ► 4)例文として適切か 4)例文として適切か ► 5)レベルにあっているか 5)レベルにあっているか
1)十分な量の例文が提供できている1)十分な量の例文が提供できているかか
各調査語に対するレベルごとの例文数各調査語に対するレベルごとの例文数
)十分な量の例文が提供できているか)十分な量の例文が提供できているか
2)文として整っているか2)文として整っているか► 例文抽出条件 5)例文抽出条件 5)◎◎ 「少なくとも一つの動詞、形容詞、形容 「少なくとも一つの動詞、形容詞、形容
動詞、 動詞、 あるいは助動詞 あるいは助動詞を含むことを含むこと」 」 ⇒ 体言止めの文を含む ⇒ 体言止めの文を含む○ ○ 「動詞、形容詞、形容動詞、或いは助動詞「動詞、形容詞、形容動詞、或いは助動詞 で終わっていることで終わっていること」 」 ⇒ ⇒ 文のみを抽出 文のみを抽出
2)文として整っているか2)文として整っているか► 単語の「切り出し」の誤り単語の「切り出し」の誤り 例: 割りに 例: 割りに // 割に 割に // わりに わりに 自分を必要以上に良く見せようとしないか 自分を必要以上に良く見せようとしないか
わりにわりに、お世辞やおべっかを使うのが苦手、お世辞やおべっかを使うのが苦手です。です。
► 単漢字の場合単漢字の場合
対応:2)文として整っている対応:2)文として整っているかか
► きちんとした文になっているかきちんとした文になっているか 例文抽出条件 5) 例文抽出条件 5)◎◎ 「少なくとも一つの動詞、形容詞、形容動詞、 「少なくとも一つの動詞、形容詞、形容動詞、
あるいは助動詞 あるいは助動詞を含むことを含むこと」 」 ⇒ 体言止めの文を含む ⇒ 体言止めの文を含む○ ○ 「動詞、形容詞、形容動詞、或いは助動詞「動詞、形容詞、形容動詞、或いは助動詞 で終わっていることで終わっていること」 」 ⇒ ⇒ 文のみを抽出 文のみを抽出
対応:2)文として整っている対応:2)文として整っているかか
► 例文として適格か例文として適格か
問題点 1 単語の切り出しの誤り 問題点 1 単語の切り出しの誤り 例:自分を必要以上に良く見せようとしないか 例:自分を必要以上に良く見せようとしないか
わりにわりに、、 お世辞やおべっかを使うのが苦手です。 お世辞やおべっかを使うのが苦手です。 ☆ ☆ ChaSenChaSen 辞書情報の変更によって修正は可能辞書情報の変更によって修正は可能
問題点 2 同じ表記で読みが複数ある単語 問題点 2 同じ表記で読みが複数ある単語 例:表 例:表 [[ おもて・ひょうおもて・ひょう ]] 入れる 入れる [[ はいれる・はいれる・
いれるいれる ] ] ☆ 形態素解析のみでの区別は不可能 ☆ 形態素解析のみでの区別は不可能
3)意味が通じるか3)意味が通じるか► そう政治力である。そう政治力である。
► 寂しいやつだの。 寂しいやつだの。
4)例文として適切か4)例文として適切か► 誤字脱字のある文 誤字脱字のある文 ・しかし扉の前の男はその唾またって、ドアをふ ・しかし扉の前の男はその唾またって、ドアをふ
さいでいる。 さいでいる。 (ミスタイプの可能性)(ミスタイプの可能性)
・人の話聞く注意力がない。 (助詞 ・人の話聞く注意力がない。 (助詞の脱落) の脱落)
・このように、この国の高層階は解釈している。 ・このように、この国の高層階は解釈している。 ((母語干渉?による誤り)母語干渉?による誤り)
対応:4)例文として適切か対応:4)例文として適切か► 誤字脱字のある文 誤字脱字のある文
► 言語教育には適さない文章 言語教育には適さない文章
► 反社会的な文章反社会的な文章
⇒ 例文の修正・削除の方法を要検討 ⇒ 例文の修正・削除の方法を要検討
ただし。。。 ただし。。。
5)レベルにあっているか 5)レベルにあっているか
► 単語レベルでみる限り学習者のレベルにあっ単語レベルでみる限り学習者のレベルにあった例文をほぼ全てのレベルで提示可能 た例文をほぼ全てのレベルで提示可能
例外:再来年 例外:再来年 ((全体で全体で 1818 文のみ)文のみ) Level Level 0 3文 0 3文 Level Level 2 2 11 文 文
Level 3Level 3 11 文文
►Level 4Level 4 でも有用な例文を提示可能 でも有用な例文を提示可能
・人の話は右耳で聞け。 ・人の話は右耳で聞け。
・一日 ・一日 33回、歯を磨く人にも悪い人はいない。回、歯を磨く人にも悪い人はいない。
人の話は右耳で聞け。人の話は右耳で聞け。
5)レベルにあっているか 5)レベルにあっているか
► 単語レベルでみる限り学習者のレベルにあっ単語レベルでみる限り学習者のレベルにあった例文をほぼ全てのレベルで提示可能 た例文をほぼ全てのレベルで提示可能
例外:再来年 例外:再来年 ((全体で全体で 1818 文のみ)文のみ) Level Level 0 3文 0 3文 Level Level 2 2 11 文 文
Level 3Level 3 11 文文
►Level 4Level 4 でも有用な例文を提示可能 でも有用な例文を提示可能
・人の話は右耳で聞け。 ・人の話は右耳で聞け。
・一日 ・一日 33回、歯を磨く人にも悪い人はいない。回、歯を磨く人にも悪い人はいない。
一日一日 33 回、歯を磨く人にも悪い人はいない。回、歯を磨く人にも悪い人はいない。
5)レベルにあっているか 5)レベルにあっているか
► 単語レベルでみる限り学習者のレベルにあった例文を単語レベルでみる限り学習者のレベルにあった例文をほぼ全てのレベルで提示可能ほぼ全てのレベルで提示可能
► 文法・構文からみると、レベルにあっているとはいえ文法・構文からみると、レベルにあっているとはいえないものも含まれている。ないものも含まれている。
► 例:例: 「全部」( 「全部」( Level 4Level 4 コーパスの例文)コーパスの例文) ・まだ ・まだ全部全部読んでませんが。(「い」の省略、「が」の後が読んでませんが。(「い」の省略、「が」の後が略)略)
「全部」 ( 「全部」 ( Level 3Level 3 コーパスの例文)コーパスの例文) ・「 ・「全部全部できなくたって構わない。」(3級)問題: 「なくできなくたって構わない。」(3級)問題: 「なく
たって」たって」 「出来る」( ( 「出来る」( ( Level 4Level 4 コーパスの例文) )コーパスの例文) ) ・ ・出来る出来る人は、そういないでしょうね。(「出来る」の意味)人は、そういないでしょうね。(「出来る」の意味)
今後の課題今後の課題► レベル別コーパスの例文すべてが、当該レレベル別コーパスの例文すべてが、当該レ
ベルの学習者に適した例文かどうかに関しベルの学習者に適した例文かどうかに関してはより詳しい調査、特に学習者を対象にてはより詳しい調査、特に学習者を対象にした調査を行う必要がある。した調査を行う必要がある。
►評価実験の結果、明らかになった問題点に評価実験の結果、明らかになった問題点に関しては、適宜、改良していく。 関しては、適宜、改良していく。
► 例文検索システムを『リーディング・チュ例文検索システムを『リーディング・チュウ太』に組み入れることを検討中である。ウ太』に組み入れることを検討中である。
参考文献参考文献► 金庭久美子・川村よし子(金庭久美子・川村よし子( 20082008 )「多言語版日本語辞書における用)「多言語版日本語辞書における用
例作成の諸問題」『日本語教育方法研究会誌』例作成の諸問題」『日本語教育方法研究会誌』 vol.15, No.1,14-15vol.15, No.1,14-15 ..
► 川村よし子(川村よし子( 20062006 )「多言語版日本語辞書編集システムの開発と運)「多言語版日本語辞書編集システムの開発と運用実験」『ヨーロッパ日本語教育』用実験」『ヨーロッパ日本語教育』 vol.10, 146-151.vol.10, 146-151.
► 川村よし子・金庭久美子(川村よし子・金庭久美子( 20062006 )「国際共同編集による日本語学習)「国際共同編集による日本語学習者のための多言語版者のための多言語版 webweb 辞書の開発」『日本語教育学会春季大会予稿辞書の開発」『日本語教育学会春季大会予稿集』集』 61-6661-66 ..
► 松本裕治松本裕治 //北内啓北内啓 //山下達雄山下達雄 //平野善隆平野善隆 //松田寛松田寛 //高岡一馬高岡一馬 //浅原 正浅原 正幸幸 , , 形態素解析システム『茶筌』 形態素解析システム『茶筌』 version 2.2.1 version 2.2.1 使用説明書使用説明書 , 2000, f, 2000, from rom http://chasen.naist.jp/hiki/ChaSen/http://chasen.naist.jp/hiki/ChaSen/..
► Srdanovi , I. & Erjavec, T. & Kilgarriff, A. (2008). A Web Corpus and WoćSrdanovi , I. & Erjavec, T. & Kilgarriff, A. (2008). A Web Corpus and Woćrd Sketches for Japanese. Journal of Natural Language Processing, 15/rd Sketches for Japanese. Journal of Natural Language Processing, 15/2, 137-159.2, 137-159.