43
I-JAS 利用マニュアル 簡易版 データの概要と検索システムの使い方 2019年5月 Ver.3

I-JAS 利用の手引き 簡易版 データの概要と検索システム · 8 ベトナム語 vvn 9 ロシア語 rrs 10 英語 eau・eus・egb・enz 11 韓国語 kkr・kkd 12 中国語

  • Upload
    others

  • View
    3

  • Download
    0

Embed Size (px)

Citation preview

Page 1: I-JAS 利用の手引き 簡易版 データの概要と検索システム · 8 ベトナム語 vvn 9 ロシア語 rrs 10 英語 eau・eus・egb・enz 11 韓国語 kkr・kkd 12 中国語

I-JAS 利用マニュアル 簡易版

データの概要と検索システムの使い方

2019年5月 Ver.3

Page 2: I-JAS 利用の手引き 簡易版 データの概要と検索システム · 8 ベトナム語 vvn 9 ロシア語 rrs 10 英語 eau・eus・egb・enz 11 韓国語 kkr・kkd 12 中国語

「利用の手引き簡易版」の主旨

この手引きでは、多言語母語の日本語学習者横断

コーパス(International Corpus of Japanese as a Second

Language: I-JAS)のデータの内容や使い方を簡単に解

説します。

実際にI-JASを利用し、データの分析や研究を行う際には、本マニュアルの「7.I-JASの詳細文献」にある文献を、必ず御一読くださ

い。より詳しい情報が記載されています。

2

Page 3: I-JAS 利用の手引き 簡易版 データの概要と検索システム · 8 ベトナム語 vvn 9 ロシア語 rrs 10 英語 eau・eus・egb・enz 11 韓国語 kkr・kkd 12 中国語

I-JASとは

3

『多言語母語の日本語学習者横断コーパス』(International Corpus of Japanese as a Second Language)

日本語学習者の話し言葉・書き言葉を大量に収集して電子化した言語資料で、I-JAS中納言(検索システム)を備えたコーパスです。

<関連プロジェクト>

科学研究費

・〈基盤研究A〉 H24 -27 海外連携による日本語学習者コーパスの構築-研究と構築の有機的な繋がりに基づいて-

・〈基盤研究A〉 H28 -31 海外連携による日本語学習者コーパスの構築および言語習得と教育への応用研究

国立国語研究所(共同研究プロジェクト)・ H22 - H28 多文化共生社会における日本語教育研究・ H28 - H32 日本語学習者のコミュニケーションの多角的解明

Page 4: I-JAS 利用の手引き 簡易版 データの概要と検索システム · 8 ベトナム語 vvn 9 ロシア語 rrs 10 英語 eau・eus・egb・enz 11 韓国語 kkr・kkd 12 中国語

目次

1.I-JASの主な特徴

2.公開データの種類

3.I-JAS中納言(検索システム)

3-1.文字列検索について

3-2.I-JAS中納言:短単位検索について

4.学習者発話の形態素解析

5.検索結果の見方

6.I-JAS中納言使用の注意点

7.I-JASの詳細文献

4

Page 5: I-JAS 利用の手引き 簡易版 データの概要と検索システム · 8 ベトナム語 vvn 9 ロシア語 rrs 10 英語 eau・eus・egb・enz 11 韓国語 kkr・kkd 12 中国語

5

1.I-JASの主な特徴

(1)大規模なデータ

(2)学習者の詳細な背景情報

(3)日本語能力の客観テスト(2種類)

(4)豊富な課題のバリエーション(7種類)

Page 6: I-JAS 利用の手引き 簡易版 データの概要と検索システム · 8 ベトナム語 vvn 9 ロシア語 rrs 10 英語 eau・eus・egb・enz 11 韓国語 kkr・kkd 12 中国語

環境/母語 完成予定人数

1

外(教室環境)

インドネシア語 502 スペイン語 503 タイ語 504 トルコ語 505 ドイツ語 506 ハンガリー語 507 フランス語 508 ベトナム語 509 ロシア語 5010 英語 10011 韓国語 10012 中国語 20013

国内

教室環境学習者 10014 自然環境学習者 5015 日本語母語話者 50

合計 1050

(1)大規模なデータ

(注)国内:教室環境/自然環境は母語が混合I-JASの学習者情報で確認してください。http://lsaj.ninjal.ac.jp/?page_id=364

男性(人) 女性(人) 合計

20代 10 10 20

30代 6 14 14

40代以上 7 9 16

合計 23 27 50

日本語母語話者の内訳

I-JASが完成すると以下の規模の学習者コーパスとなります。

Page 7: I-JAS 利用の手引き 簡易版 データの概要と検索システム · 8 ベトナム語 vvn 9 ロシア語 rrs 10 英語 eau・eus・egb・enz 11 韓国語 kkr・kkd 12 中国語

環境/母語 ID

1

外(教室環境)

インドネシア語 IID

2 スペイン語 SES

3 タイ語 TTH

4 トルコ語 TTR

5 ドイツ語 GAT・GDE

6 ハンガリー語 HHG

7 フランス語 FFR

8 ベトナム語 VVN

9 ロシア語 RRS

10 英語 EAU・EUS・EGB・ENZ

11 韓国語 KKR・KKD

12 中国語 CCM・CCH・CCT・CCS

13国内

教室環境学習者 JJC・JJE

14 自然環境学習者 JJN

15 日本語母語話者 JJJ

調査協力者のID

(注)複数あるIDは調査地(国・地域)が異なるだけです。

調査協力者のIDは以下の通りです。

Page 8: I-JAS 利用の手引き 簡易版 データの概要と検索システム · 8 ベトナム語 vvn 9 ロシア語 rrs 10 英語 eau・eus・egb・enz 11 韓国語 kkr・kkd 12 中国語

データ公開の計画と予定

8

環境/母語最終公開 第一次 第二次 第三次 第四次 第五次

予定人数 2016.5 2017.5 2018.5 2019.5 2020.3

1

外(教室環境)

インドネシア語 50 15 ― ― 35 ―

2 スペイン語 50 15 ― 35 ― ―

3 タイ語 50 15 ― ― 35 ―

4 トルコ語 50 15 35 ― ― ―

5 ドイツ語 50 15 ― ― 35 ―

6 ハンガリー語 50 15 ― 35 ― ―

7 フランス語 50 15 ― ― 35 ―

8 ベトナム語 50 15 ― 35 ― ―

9 ロシア語 50 15 ― 35 ― ―

10 英語 100 15 35 ― ― 50

11 韓国語 100 15 35 ― ― 50

12 中国語 200 15 35 50 50 50

13国内

教室環境学習者 100 15 25 10 25 25

14 自然環境学習者 50 15 25 10 ― ―

15 日本語母語話者 50 15 35 ― ― ―

合計 1050 225 225 210 215 175

累計 - 225 450 660 875 1050

Page 9: I-JAS 利用の手引き 簡易版 データの概要と検索システム · 8 ベトナム語 vvn 9 ロシア語 rrs 10 英語 eau・eus・egb・enz 11 韓国語 kkr・kkd 12 中国語

統制の取れたデータ

◆第一次データ

学習者(210名)

海外:各母語話者(12言語)×15名

国内:自然環境×15名教室環境×15名

各母語・環境のグループ間で同程度のレベルとなるよう、日本語能力レベルを考慮し、15名ずつサンプリング

※第二次データ以降は、第一次で公開されなかった残りのデータについて、母語および環境ごとに公開。

Page 10: I-JAS 利用の手引き 簡易版 データの概要と検索システム · 8 ベトナム語 vvn 9 ロシア語 rrs 10 英語 eau・eus・egb・enz 11 韓国語 kkr・kkd 12 中国語

(2)詳細な背景情報

Face Sheet:学習者の情報記録

全20項目の質問属性について(言語以外)・・ 7項目

言語環境について・・・・・・・・ 7項目

日本語学習について・・・・・・ 6項目

10

【Face Sheetの確認方法】①検索結果画面の「フェイスシート」をクリック(→スライド36参照)

②直接フェイスシートを確認

https://chunagon.ninjal.ac.jp/ijas/facesheet/CCM02※中納言にログインしたウェブブラウザで、赤字の調査IDの部分を変更して検索

③FS一覧を参照I-JASのHPの「I-JAS関連資料」ページを参照

http://lsaj.ninjal.ac.jp/?page_id=364

I-JAS中納言でのFS画面

I-JASでは調査協力者すべての方の背景情報を収集しています。

Page 11: I-JAS 利用の手引き 簡易版 データの概要と検索システム · 8 ベトナム語 vvn 9 ロシア語 rrs 10 英語 eau・eus・egb・enz 11 韓国語 kkr・kkd 12 中国語

学習者の日本語能力レベルは、以下の2種類のテストで確認しており、結果も公開されています。

11

(3)日本語能力の客観テスト

SPOT

(TTBJ:Tsukuba Test-Battery of Japanese)言語運用力の面から測定 http://ttbj.jp/p1.html

J-CAT

(Japanese Computerized Adaptive Test)日本語能力を判定(聴解・語彙・文法・読解)

http://www.j-cat.org/

Page 12: I-JAS 利用の手引き 簡易版 データの概要と検索システム · 8 ベトナム語 vvn 9 ロシア語 rrs 10 英語 eau・eus・egb・enz 11 韓国語 kkr・kkd 12 中国語

(4)豊富な課題のバリエーション

12

課題名 課題記号 備考

対面調査

発話データ

ストーリーテリング1 ST1

ストーリーテリング2 ST2

② 対話 I

③ロールプレイ1 RP1

ロールプレイ2 RP2

④ 絵描写 D調査途中から追加したため、データのない地域もある。

⑤作文データ

ストーリーライティング1 SW1

ストーリーライティング2 SW2

非対面調査

メール1 m1

任意の調査のため、データがない学習

者もいる。

メール2 m2

メール3 m3

⑦ エッセイ e

調査では各学習者が以下の課題を行っています。

Page 13: I-JAS 利用の手引き 簡易版 データの概要と検索システム · 8 ベトナム語 vvn 9 ロシア語 rrs 10 英語 eau・eus・egb・enz 11 韓国語 kkr・kkd 12 中国語

13

①ストーリーテリング1

「ケン」「マリ」「犬」「バスケット」「地図」は、あらかじめ提示していました。

タイトル、言い出し文を示し、それに続けてストーリーを話してもらいました。「朝、ケンとマリはサンドイッチを作りました。」注意)タイトルと言い出し文は検索対象から削除し

ています。

Page 14: I-JAS 利用の手引き 簡易版 データの概要と検索システム · 8 ベトナム語 vvn 9 ロシア語 rrs 10 英語 eau・eus・egb・enz 11 韓国語 kkr・kkd 12 中国語

14

①ストーリーテリング 2

言い出し文「ケンはうちの鍵を持っていませんでした。」注意)タイトルと言い出し文は検索対象から削除

しています。

「ケン」「マリ」「鍵」「警官」「梯子」は、あらかじめ提示していました。

Page 15: I-JAS 利用の手引き 簡易版 データの概要と検索システム · 8 ベトナム語 vvn 9 ロシア語 rrs 10 英語 eau・eus・egb・enz 11 韓国語 kkr・kkd 12 中国語

15

②対話(30分程度) <話題:全15項目>

以下のような、ある程度決められた流れのもと、調査者(日本語母語話者)とできるだけ自然な会話を行いました。

(1)ウォーミングアップ

(2)現在のことを聞く

日本語学習の動機、好きな本・ドラマ、出身地の産物、

観光スポット など

(3)過去の体験を聞く

誕生日の祝い方、幼少期の体験、恩師の話

怖かった・辛かった体験 など

(4)未来のことを聞く、意見陳述

将来の夢、議論「都会に住むか田舎に住むか」

議論「お金と時間とどちらが大事か」 など

(5)クールダウン

Page 16: I-JAS 利用の手引き 簡易版 データの概要と検索システム · 8 ベトナム語 vvn 9 ロシア語 rrs 10 英語 eau・eus・egb・enz 11 韓国語 kkr・kkd 12 中国語

16

③ロールプレイ状況:学習者:日本料理店でのアルバイト(接客)、週3回勤務

調査者:日本料理店の店長

①依頼:週3日のアルバイトを週2日にしてもらう

あなたは、日本料理店でアルバイトをしています。接客スタッフとして注文を取ったり、

料理を運んだりしています。勤め始めてからずっと接客の仕事をしてきたので、

この仕事にもすっかり慣れ、知り合いのお客さまも増えました。

今は、一週間に三日アルバイトをしています。しかし、忙しくなってきたので、

一週間に二日に変更したいと思っています。そこで、店長に言って三日から二日に

変えてもらうように頼んでください。

②断り:ホールから調理に変わるように依頼され断る

あなたは、日本料理店でアルバイトをしています。接客スタッフとして注文を取ったり、

料理を運んだりしています。

店長さんから、「料理を作る人が一人やめたので、来月から料理を作る仕事を担当

してほしい」と言われました。しかし、あなたは料理は苦手だし、日本人と話せる仕事

がしたいので、この話を断りたいと思いました。

店長に、料理の仕事の話をじょうずに断って、今の仕事を続けられるように話してく

ださい。

(各国語版)

ロールカード

(各国語版)

ロールカード

Page 17: I-JAS 利用の手引き 簡易版 データの概要と検索システム · 8 ベトナム語 vvn 9 ロシア語 rrs 10 英語 eau・eus・egb・enz 11 韓国語 kkr・kkd 12 中国語

17

④絵描写

アスペクト表現の産出がねらいの調査です。

許可を得て 許(1997)の絵を利用しています。

※調査途中から追加したため、データのない地域もあります。

許夏珮(1997)「中・上級台湾人日本語学習者による『テイル』の習得に関する横断研究」『日本語教育』95:37-48.

Page 18: I-JAS 利用の手引き 簡易版 データの概要と検索システム · 8 ベトナム語 vvn 9 ロシア語 rrs 10 英語 eau・eus・egb・enz 11 韓国語 kkr・kkd 12 中国語

【実施条件】

ストーリーテリングと同一課題を書く:PC or 手書き

2課題:「ピクニック」・「鍵」

時 間: 1課題/ 10分~15分

辞書等の使用:不可

実施のタイミング:対面調査の最後

⇒最初の課題(ストーリーテリング)実施から 約40~50分後

18

⑤ストーリーライティング

Page 19: I-JAS 利用の手引き 簡易版 データの概要と検索システム · 8 ベトナム語 vvn 9 ロシア語 rrs 10 英語 eau・eus・egb・enz 11 韓国語 kkr・kkd 12 中国語

【実施条件】辞書、インターネットの使用可能

時間制限なし・監督者なし

19

⑥⑦作文(メール・エッセイ)…任意

課題 内容

メール1 奨学金申請のための推薦状の依頼

メール2 レポート提出期限延長のお願い

メール3 依頼された観光案内を断る

エッセイ 「私たちの食生活:ファーストフードと家庭料理」(600字程度)

作文アンケートの実施:メール、エッセイを書いた後※中納言「関連データ配布」からダウンロードできます。

質問項目

参照の有無 : 使用辞書/インターネットサイト

課題ごとの作業に要した時間

文章構成についての学習の有無(日本語/母語)

作文の有無はI-JASのHPの「I-JAS関連資料」ページ「(3)調査協力者の背景情報」で確認できます。

http://lsaj.ninjal.ac.jp/?page_id=364

Page 20: I-JAS 利用の手引き 簡易版 データの概要と検索システム · 8 ベトナム語 vvn 9 ロシア語 rrs 10 英語 eau・eus・egb・enz 11 韓国語 kkr・kkd 12 中国語

データ記号

I-JAS中納言(検索システム)

プレインテキスト(文字化データ)

PDFファイル(未加工)

音声ファイル(mp3)

対面調査

発話データ

ST1

○ ○データなし

ST2

② I

③RP1

RP2

④ D

⑤作文データ

SW1○ ○ ○

データなし

SW2

非対面調査

m1

不可 ○ ○m2

m3

⑦ e

2.公開データの種類

Page 21: I-JAS 利用の手引き 簡易版 データの概要と検索システム · 8 ベトナム語 vvn 9 ロシア語 rrs 10 英語 eau・eus・egb・enz 11 韓国語 kkr・kkd 12 中国語

検索システムのメリット

・大量のデータから 素早く、一度に検索できること。

→大量のデータから特定の項目を抽出したり、抽出したい項目が大量に出てくる場合、データ全てを手作業で確認するのは大変な作業です。

検索システムのデメリット

・検索システムを正しく使わないと正しく検索できません。

→研究結果を左右します。

➢検索システム・コーパス自体の仕様をきちんと理解して、使用することが重要です。

※詳細は『国語研プロジェクトレビュー』・『報告書』を参照してください。

21

3.I-JAS中納言(検索システム)

Page 22: I-JAS 利用の手引き 簡易版 データの概要と検索システム · 8 ベトナム語 vvn 9 ロシア語 rrs 10 英語 eau・eus・egb・enz 11 韓国語 kkr・kkd 12 中国語

中納言 コーパス選択 画面

対面調査(ST1, ST2, I, RP1, RP2,D,SW1,SW2)・音声ファイル ・ プレインテキスト・PDFファイル

非対面調査(m1, m2, m3, e)・PDFファイル ・プレインテキスト

作文アンケートデータ一覧ファイル

検索システム画面

Page 23: I-JAS 利用の手引き 簡易版 データの概要と検索システム · 8 ベトナム語 vvn 9 ロシア語 rrs 10 英語 eau・eus・egb・enz 11 韓国語 kkr・kkd 12 中国語

3-1. I-JAS中納言の検索画面

中納言のコーパス選択画面に移動します。検索対象などを初期の状態を完全にクリアすることができます。

I-JAS中納言とI-JASのデータのバージョン情報です。論文などには必ず載せてください。

I-JASのHPに移動し、I-JASに関する詳細な情報が確認できます。語数表・FS一覧も掲載されています。

I-JASの関連データ配布サイトに移動し、発話のプレインテキスト・音声ファイルおよび作文などのデータをダウンロードできます。

Page 24: I-JAS 利用の手引き 簡易版 データの概要と検索システム · 8 ベトナム語 vvn 9 ロシア語 rrs 10 英語 eau・eus・egb・enz 11 韓国語 kkr・kkd 12 中国語

I-JAS中納言の画面概要

24

←検索方法(条件指定)

←検索対象の絞り込み(非表示)

←結果表示オプション

←検索結果

Page 25: I-JAS 利用の手引き 簡易版 データの概要と検索システム · 8 ベトナム語 vvn 9 ロシア語 rrs 10 英語 eau・eus・egb・enz 11 韓国語 kkr・kkd 12 中国語

キー(キーワード)に入れた同じ文字列を探す

一部の正規表現は使用可能25

3-2.文字列検索について

文字列検索:検索したい文字列にマッチするものを検索できます。

Page 26: I-JAS 利用の手引き 簡易版 データの概要と検索システム · 8 ベトナム語 vvn 9 ロシア語 rrs 10 英語 eau・eus・egb・enz 11 韓国語 kkr・kkd 12 中国語

26

形態素解析向けに正しく加工した文字列:機械処理のために修正したもの

発話通りの文字列:学習者が発話した通り(修正なし)

検索の対象とする「対象文字列」を選択します。

対象文字列の指定

Page 27: I-JAS 利用の手引き 簡易版 データの概要と検索システム · 8 ベトナム語 vvn 9 ロシア語 rrs 10 英語 eau・eus・egb・enz 11 韓国語 kkr・kkd 12 中国語

文字列検索の事例

検索したい文字列(キー)をいれる

検索の対象となるものを選択する

Page 28: I-JAS 利用の手引き 簡易版 データの概要と検索システム · 8 ベトナム語 vvn 9 ロシア語 rrs 10 英語 eau・eus・egb・enz 11 韓国語 kkr・kkd 12 中国語

28

検索対象を指定する※チェックしないとデータ全てが対象となります。

サーバに負荷がかかるので注意してください。

検索対象の指定

Page 29: I-JAS 利用の手引き 簡易版 データの概要と検索システム · 8 ベトナム語 vvn 9 ロシア語 rrs 10 英語 eau・eus・egb・enz 11 韓国語 kkr・kkd 12 中国語

29

短単位とは?

・言語の形態的側面に着目して規定した言語単位。

例)国立国語研究所 →「国立|国語|研究|所」

行かなければならないので

→ 「行か|なけれ|ば|なら|ない|の|で」

形態素解析とは?

文字列をある単位(I-JASにおいては短単位)に区切って、それぞれに形態論情報を付与する作業。

短単位検索とは?

形態素解析によって付与された形態論情報(品詞や語彙素など)をもとに検索する方法。

3-3.短単位検索について

Page 30: I-JAS 利用の手引き 簡易版 データの概要と検索システム · 8 ベトナム語 vvn 9 ロシア語 rrs 10 英語 eau・eus・egb・enz 11 韓国語 kkr・kkd 12 中国語

30

文字列を短単位に区切って、それぞれに形態論情報(読み・品詞・語彙素など)をつける作業。

⇒I-JAS中納言(検索システム)には、このように形態素解析されたデータが搭載されているため、形態論情報を活用した検索ができます。

形態素解析とは?

出現形 語彙素 語彙素読み 品詞 活用型 活用形 語種

行か 行く イク 動詞-非自立可能 五段-カ行 未然形-一般 和

なけれ ない ナイ 助動詞 助動詞-ナイ 仮定形-一般 和

ば ば バ 助詞-接続助詞 * * 和

なら 成る ナル 動詞-非自立可能 五段-ラ行 未然形-一般 和

ない ない ナイ 助動詞 助動詞-ナイ 連体形-一般 和

の の ノ 助詞-準体助詞 * * 和

で だ ダ 助動詞 助動詞-ダ 連用形-一般 和

出現形:コンピュータに入力した文字列。表層形ともいう。

語彙素:辞書の見出し語のようなもの。

Page 31: I-JAS 利用の手引き 簡易版 データの概要と検索システム · 8 ベトナム語 vvn 9 ロシア語 rrs 10 英語 eau・eus・egb・enz 11 韓国語 kkr・kkd 12 中国語

作ら(ない)作り(ます)作る作れ(ば)作ろ(う)作っ(た)

つくら(ない)つくり(ます)つくるつくれ(ば)つくろ(う)つくっ(た)

語彙素の特徴(1)

語彙素「作る」

31

語彙素「矢張り」

やはり、 矢張りやっぱりやっぱ

表層形が漢字であっても平仮名であっても、形態論情報が正しく付与されていれば、語彙素「作る」で多様な活用、多様な表記が検索できます。

Page 32: I-JAS 利用の手引き 簡易版 データの概要と検索システム · 8 ベトナム語 vvn 9 ロシア語 rrs 10 英語 eau・eus・egb・enz 11 韓国語 kkr・kkd 12 中国語

語彙素の特徴(2)

短単位検索はとても便利ですが、以下の点に注意が必要です。

語彙素で検索をするためには、

①短単位区切り と ②語彙素の表記 を知ることが必要です。

誤った表記で検索すると、正しく検索ができません。

① 短単位区切りの例

「だから」 → 「だ|から」

「どうしても」 → 「どう|し|て|も」

「忘れてしまった」 → 「忘れ|て|しまっ|た」

② 語彙素の表記例

「する」 → 「為る」

「しまった」 → 「仕舞う」と「た」

「まだ」 → 「未だ」

語彙素の表記には、日常生活で使いなれない漢字も用いられるため、注意が必要です。

語彙素の表記は文字列検索で確認することができます。

32

Page 33: I-JAS 利用の手引き 簡易版 データの概要と検索システム · 8 ベトナム語 vvn 9 ロシア語 rrs 10 英語 eau・eus・egb・enz 11 韓国語 kkr・kkd 12 中国語

33

短単位検索の事例(1)

Step1キー(キーワード)を入れる

…調べたい文字列

語彙素 + 作る

●全ての学習者のロールプレイ1、2で使用された動詞「作る」の使用例を検索する。

Page 34: I-JAS 利用の手引き 簡易版 データの概要と検索システム · 8 ベトナム語 vvn 9 ロシア語 rrs 10 英語 eau・eus・egb・enz 11 韓国語 kkr・kkd 12 中国語

34

Step3検索ボタンを押す

↑クリック

Step2検索対象を指定する「ロールプレイ1、2 全部」

※チェックしないとデータ全てが対象となります。

サーバに負荷のかかるので注意してください。

検索対象の指定

Page 35: I-JAS 利用の手引き 簡易版 データの概要と検索システム · 8 ベトナム語 vvn 9 ロシア語 rrs 10 英語 eau・eus・egb・enz 11 韓国語 kkr・kkd 12 中国語

複数の短単位に分割される検索

キー : 「ている」(短単位は「て」と「居る」に分かれる)

検索対象 : 海外 韓国語母語話者 全て

「+後文脈の条件を追加する」ボタンを押し、ボックスを追加する

海外の韓国語母語話者の「ている」の使用例を書き言葉・話し言葉を全て検索したい。 【注意!】

ひらがなだと検索できない。語彙素は漢字で!

短単位検索の事例(2)

「語彙素」を選択し、「て」を入力する。

「語彙素」を選択し、「居る」を入力する。※「居る」は漢字で入力する。

Page 36: I-JAS 利用の手引き 簡易版 データの概要と検索システム · 8 ベトナム語 vvn 9 ロシア語 rrs 10 英語 eau・eus・egb・enz 11 韓国語 kkr・kkd 12 中国語

学習者の発話には多様な誤用や不自然な発音が含まれています。それを書き起こし、そのまま形態素解析すると誤解析が起こってしまいます。

以下の、青いセルは誤解析となった箇所です。

出現形 語彙素 品詞 学習者の意図

いろいろ 色々 形状詞

ろ 櫓 名詞 →の

まし 増し 形状詞 →町

に に 助詞

行っ 行く 動詞

て て 助詞

、 、 補助記号

悪い 悪い 形容詞

の の 助詞

いと 糸 名詞 →人

が が 助詞

4.学習者の発話の形態素解析

36

学習者の意図と異なる解析結果⇒ 誤解析

学習者の発話

Page 37: I-JAS 利用の手引き 簡易版 データの概要と検索システム · 8 ベトナム語 vvn 9 ロシア語 rrs 10 英語 eau・eus・egb・enz 11 韓国語 kkr・kkd 12 中国語

処理 具体的な内容 タグ表記例

①解析用の品詞を指定

フィラーを感動詞に指定 [あー=F]

外国語を名詞に指定 [シジャン=N]

連体詞に指定 [あの=R]

② 解析用の語を指定

語中の長音、ポーズ [マ、リ=T=マリ]

語の活用や発音の誤り [書きて=G=書いて]

PC入力時の変換ミス(作文)※SWだけ

[持ッて=K=持って]

③ 解析から除外 不明語、語の断片 [みつー=X]

④ 曖昧性への対応発音不明瞭(α1かα2) [が/は=H]

複数の読みがある漢字語 [何(なん)=Y] 37

誤解析を減らすために使用するタグ

誤解析を減らすためには、誤解析誘発箇所に対して、学習者の意図を反映した品詞や語(修正語)を指定した上で解析する必要があり、I-JASでは以下のようなタグを使用しています。

※詳細は『国語研プロジェクトレビュー』・『報告書』を参照。

Page 38: I-JAS 利用の手引き 簡易版 データの概要と検索システム · 8 ベトナム語 vvn 9 ロシア語 rrs 10 英語 eau・eus・egb・enz 11 韓国語 kkr・kkd 12 中国語

タグ付けされたデータ

タグを付与しているデータはすべての発話データとストーリーライティング(SW)のみです。

(I-JAS中納言で検索できるものだけ)

データ記号

I-JAS中納言(検索システム)

プレインテキスト(文字化データ)

PDFファイル(未加工)

音声ファイル(mp3)

対面調査

発話データ

ST1

○ ○ なし ○

ST2

② I

③RP1

RP2

④ D

⑤作文データ

SW1○ ○ ○

なし

SW2

非対面調査

m1

不可 ○ ○m2

m3

Page 39: I-JAS 利用の手引き 簡易版 データの概要と検索システム · 8 ベトナム語 vvn 9 ロシア語 rrs 10 英語 eau・eus・egb・enz 11 韓国語 kkr・kkd 12 中国語

39

5.検索結果の見方青:学習者黄:調査者(日本語母語話者)

「F」「G」「X」「T」「R」「H」「Y」「K」はタグ※タグをつけた箇所が複数の短単位にまたがる場合、

先頭以外は小文字が表示される。

「i」マークは補足情報付与箇所です。カーソルを合わせると情報が表示されます。

Page 40: I-JAS 利用の手引き 簡易版 データの概要と検索システム · 8 ベトナム語 vvn 9 ロシア語 rrs 10 英語 eau・eus・egb・enz 11 韓国語 kkr・kkd 12 中国語

40

検索結果の見方

サンプルID:クリックするとキー周辺の文脈が見られます。

フェイスシート:学習者の背景情報が見られます。

音声ファイル・プレインテキスト:クリックすると該当のファイルがDLできます。

Page 41: I-JAS 利用の手引き 簡易版 データの概要と検索システム · 8 ベトナム語 vvn 9 ロシア語 rrs 10 英語 eau・eus・egb・enz 11 韓国語 kkr・kkd 12 中国語

41

検索結果 Excelシート

クリック

検索した結果は、Excelにダウンロードすることができます。

Page 42: I-JAS 利用の手引き 簡易版 データの概要と検索システム · 8 ベトナム語 vvn 9 ロシア語 rrs 10 英語 eau・eus・egb・enz 11 韓国語 kkr・kkd 12 中国語

◆検索システムはとても便利ですが、検索結果の数値だけで安易に結果を出すのはとても危険です。ご自身で「誤解析」や「分析対象外」を取り除く必要があります。

①検索結果をエクセルでダウンロード

②全てに目を通して手作業で取り除く

◆研究に向けて

自分の研究に合わせてデータ分類等を行い、データが整ってから分析

を行ってください。

◆データの更新に伴い検索結果が異なってくる可能性がありますので、

I-JAS中納言を使用される際は、I-JAS中納言上部にあるバージョン情

報を記録し、ダウンロードしたデータを保存しておくことをお薦めします。

<バージョン情報例> コーパス検索アプリケーション「中納言」バージョン 2.4短単位データ 20171124 版 42

6.I-JAS中納言使用の注意点とI-JASの詳細文献

Page 43: I-JAS 利用の手引き 簡易版 データの概要と検索システム · 8 ベトナム語 vvn 9 ロシア語 rrs 10 英語 eau・eus・egb・enz 11 韓国語 kkr・kkd 12 中国語

43

7.I-JASの詳細文献

I-JASご利用の前に、ぜひ以下の資料をご覧ください。

・迫田久美子・小西円・佐々木藍子・須賀和香子・細井陽子(2016)「多言語母語の日本語学習者横断コーパス International Corpus of Japanese as a Second Language」『国語研プロジェクトレビュー』第6巻3号, pp.93‐110, 国立国語研究所

・迫田久美子他(2016)『海外連携による日本語学習者コーパスの構築-研究と構築の有機的な繋がりに基づいて- I-JAS構築に関する最終報告書』

⇒ 調査の詳細やタグ付与の具体例がご覧になれます。

上記の報告書等はHPからダウンロードできます。

『LSAJ 学習者コーパスに基づく第二言語としての日本語の習得研究』http://lsaj.ninjal.ac.jp/