12
Japanese Japanese Linguistics コーパスに基づく日本語研究 (Corpus Based Research on Japanese)

Japanese Linguistics Japanese コーパスに基づく日 …epgp.inflibnet.ac.in/.../ET/1518173215P02M29ET_01.pdfJapanese Japanese Linguistics コーパスに基づく日本語研究

  • Upload
    others

  • View
    31

  • Download
    1

Embed Size (px)

Citation preview

Page 1: Japanese Linguistics Japanese コーパスに基づく日 …epgp.inflibnet.ac.in/.../ET/1518173215P02M29ET_01.pdfJapanese Japanese Linguistics コーパスに基づく日本語研究

Japanese Japanese Linguistics

コーパスに基づく日本語研究 (Corpus Based Research on Japanese)

Page 2: Japanese Linguistics Japanese コーパスに基づく日 …epgp.inflibnet.ac.in/.../ET/1518173215P02M29ET_01.pdfJapanese Japanese Linguistics コーパスに基づく日本語研究

Japanese Japanese Linguistics

コーパスに基づく日本語研究 (Corpus Based Research on Japanese)

Description of Module

Subject Name Japanese

Paper Name 日本語学 (Japanese Linguistics)

Module Title コーパスに基づく日本語研究 (Corpus Based Research on Japanese)

Module ID JPN-P02-M29

Quadrant 1 E-Text

Page 3: Japanese Linguistics Japanese コーパスに基づく日 …epgp.inflibnet.ac.in/.../ET/1518173215P02M29ET_01.pdfJapanese Japanese Linguistics コーパスに基づく日本語研究

Japanese Japanese Linguistics

コーパスに基づく日本語研究 (Corpus Based Research on Japanese)

コーパスに基もと

づく日本語に ほ ん ご

の研究けんきゅう

目的もくてき

:このモジュールの目的もくてき

は,「コーパス言語学げんごがく

」という言語研究げんごけんきゅう

の分野ぶ ん や

について

解説かいせつ

し,コーパス言語学的げんごがくてき

な研究けんきゅう

の事例じ れ い

として日本語に ほ ん ご

の語彙的自他動詞対ご い て き じ た ど う し つ い

に関かん

する

最新さいしん

の研究成果けんきゅうせいか

を紹介しょうかい

することである。

1. コーパスおよびコーパス言語学げんごがく

とは

言語げ ん ご

の研究けんきゅう

を行おこな

う場合ば あ い

は,研究者けんきゅうしゃ

の内省ないせい

に基もと

づいて研究けんきゅう

を行おこな

う方法ほうほう

と実際じっさい

使用し よ う

されている言語げ ん ご

データに基もと

づいて研究けんきゅう

を行おこな

う方法ほうほう

がある。パーソナルコンピュー

ターの時代じ だ い

が到来とうらい

するまでは,言語げ ん ご

の研究けんきゅう

は専もっぱ

ら研究者けんきゅうしゃ

の直感ちょっかん

に基もと

づく作例さくれい

や古ふる

文献ぶんけん

,小説しょうせつ

,新聞しんぶん

などの小規模しょうきぼ

な言語げ ん ご

データに基もと

づいて行おこな

われていた。パーソナルコ

ンピューターの普及ふきゅう

や自然言語処理技術しぜんげんごしょりぎじゅつ

の発達はったつ

に伴ともな

い,大規模だ い き ぼ

な電子化で ん し か

された言語げ ん ご

ータを集積しゅうせき

することや使用し よ う

することが可能か の う

となった。大規模だ い き ぼ

な電子化で ん し か

された言語げ ん ご

デー

タの集積しゅうせき

をコーパス(corpus)という。また,コーパスを利用り よ う

した言語げ ん ご

の使用実態しようじったい

基もと

づいて分析ぶんせき

を行おこな

う研究分野けんきゅうぶんや

をコーパス言語学げんごがく

という。

Page 4: Japanese Linguistics Japanese コーパスに基づく日 …epgp.inflibnet.ac.in/.../ET/1518173215P02M29ET_01.pdfJapanese Japanese Linguistics コーパスに基づく日本語研究

Japanese Japanese Linguistics

コーパスに基づく日本語研究 (Corpus Based Research on Japanese)

コーパスを利用り よ う

して様々さまざま

な言語現象げんごげんしょう

の使用実態しようじったい

を記述きじゅつ

したり,分析ぶんせき

したりするため

には,大規模だ い き ぼ

な言語げ ん ご

データの森もり

から記述きじゅつ

・分析ぶんせき

に必要ひつよう

なデータをピンポイントで抽 出ちゅうしゅつ

する必要ひつよう

がある。そのため,コーパスの言語げ ん ご

データには様々さまざま

なレベルの文法情報ぶんぽうじょうほう

(品詞情報ひんしじょうほう

,係受かかりう

け情報じょうほう

,句構造くこうぞう

,節せつ

・文構造ぶんこうぞう

など)が付与ふ よ

されている。

コーパスの言語げ ん ご

データに文法情報ぶんぽうじょうほう

を付与ふ よ

する作業さぎょう

のことをアノテーション

(annotation)という。アノテショーンの質しつ

および量りょう

はコーパスから抽 出ちゅうしゅつ

できる言語げ ん ご

データの精密せいみつ

さの決き

め手て

となる。例たと

えば,受動文じゅどうぶん

がどのようなジャンルでどのくらい使つか

われているのか,「飛と

び出だ

す」「話はな

し込こ

む」などの複合動詞ふくごうどうし

にどのようなタイプがある

のか,「帽子ぼ う し

をかぶった子こ

ども」のように主語し ゅ ご

(子こ

ども)を修 飾しゅうしょく

する関係節かんけいせつ

と「子こ

もがかぶった帽子ぼ う し

」のように目的語もくてきご

(帽子ぼ う し

)を修 飾しゅうしょく

する関係節かんけいせつ

のどちらが多おお

く使つか

われ

ているのかなどをコーパスで調しら

べたいと思おも

ったときは,アノテーションがどのように

行おこな

われているのかを十分じゅうぶん

に理解り か い

しておくことが重要じゅうよう

である。コーパス言語学げんごがく

は,ま

さに言語学げんごがく

とコンピューター科学か が く

を融合ゆうごう

した学際的がくさいてき

な分野ぶ ん や

であり,近年脚光きんねんきゃっこう

を浴あ

びて

いる。

先さき

にも述の

べたように,コーパスは大規模だ い き ぼ

な電子化で ん し か

された言語げ ん ご

データの集積しゅうせき

である。

コーパスの言語げ ん ご

データの規模き ぼ

は,一般的いっぱんてき

に,コーパスに収録しゅうろく

されている総語数そうごすう

を指さ

す。

Page 5: Japanese Linguistics Japanese コーパスに基づく日 …epgp.inflibnet.ac.in/.../ET/1518173215P02M29ET_01.pdfJapanese Japanese Linguistics コーパスに基づく日本語研究

Japanese Japanese Linguistics

コーパスに基づく日本語研究 (Corpus Based Research on Japanese)

IT 技術ぎじゅつ

の進歩し ん ぽ

と共とも

にコーパスの規模き ぼ

も拡大かくだい

し,その規模き ぼ

は近年きんねん

100 億語お く ご

にも及およ

んでいる。

以下い か

に,日本語に ほ ん ご

の代表的だいひょうてき

なコーパスを簡単かんたん

に紹介しょうかい

する。

2. 日本語に ほ ん ご

のコーパス

日本語に ほ ん ご

のコーパスで代表的だいひょうてき

なものは,国立国語研究所こくりつこくごけんきゅうじょ

が構築こうちく

した『現代日本語書げ ん だ い に ほ ん ご か

言葉均衡ことばきんこう

コーパス』(BCCWJ) である(http://pj.ninjal.ac.jp/corpus_center/bccwj/)。BCCWJ

はその名な

の通とお

り,現代日本語げんだいにほんご

の書か

き言葉こ と ば

のデータを収録しゅうろく

したものであり,その規模き ぼ

1 億おく

430 万語ま ん ご

である。さらに,このコーパスは書か

き言葉こ と ば

の様々さまざま

なジャンル(書籍しょせき

,雑誌ざ っ し

新聞しんぶん

,白書はくしょ

,ブログなど)から無作為む さ く い

にサンプルを抽 出ちゅうしゅつ

し,現代語げんだいご

の全体像ぜんたいぞう

を把握は あ く

きるように構築こうちく

されているため,均衡きんこう

コーパスと呼よ

ばれる。BCCWJ を無料むりょう

・無登録むとうろく

検索けんさく

できる検索けんさく

システムは次つぎ

の二ふた

つである。

(1) 少納言しょうなごん

(http://www.kotonoha.gr.jp/shonagon/)

(2) NINJAL-LWP for BCCWJ (NLB)(http://nlb.ninjal.ac.jp/)

ユーザー登録とうろく

をすれば以下い か

のシステムを使つか

うことができる。

(3) 中納言ちゅうなごん

(https://chunagon.ninjal.ac.jp/)

Page 6: Japanese Linguistics Japanese コーパスに基づく日 …epgp.inflibnet.ac.in/.../ET/1518173215P02M29ET_01.pdfJapanese Japanese Linguistics コーパスに基づく日本語研究

Japanese Japanese Linguistics

コーパスに基づく日本語研究 (Corpus Based Research on Japanese)

また,日本語に ほ ん ご

のウェブサイトから 収 集しゅうしゅう

した 11 億おく

3800 万語ま ん ご

のデータを格納かくのう

した

筑波つ く ば

ウェブコーパスも公開こうかい

されている。このコーパスはウェブサイトというジャンルの

みからデータを収 集しゅうしゅう

しているため BCCWJ と違ちが

って均衡きんこう

コーパスではないが,その

規模き ぼ

は BCCWJ の約やく

10 倍ばい

である。筑波つ く ば

ウェブコーパスは NLB と同おな

じ検索けんさく

システム

(NINJAL-LWP)で次つぎ

のサイトから無料むりょう

で利用り よ う

できる(http://nlt.tsukuba.lagoinst.info/)。

さらに,100 億語規模お く ご き ぼ

の『国語研日本語こ く ご け ん に ほ ん ご

ウェブコーパス』(NWJC)が国立国語研究所こくりつこくごけんきゅうじょ

によって構築こうちく

され,検索けんさく

システム「梵天ぼんてん

」によって検索けんさく

できる。「梵天ぼんてん

」を利用り よ う

するに

は利用申請りようしんせい

が必要ひつよう

である。(http://pj.ninjal.ac.jp/corpus_center/nwjc/subscription.html)

上記じょうき

のコーパスは主おも

に形態論的けいたいろんてき

な情報じょうほう

(品詞情報ひんしじょうほう

,係受かかりう

け情報じょうほう

)を付与ふ よ

したコー

パスである。一方いっぽう

,統語と う ご

・意味解析情報いみかいせきじょうほう

(句構造くこうぞう

,節せつ

・文構造ぶんこうぞう

など)を付与ふ よ

した

『NINJAL Parsed Corpus of Modern Japanese (NPCMJ)』の構築こうちく

が国立国語研究所こくりつこくごけんきゅうじょ

によって

開始か い し

され(http://npcmj.ninjal.ac.jp/),2017 年ねん

4 月現在がつげんざい

で約やく

1 万文まんぶん

(17 万語ま ん ご

)規模き ぼ

のコ

ーパスが公開こうかい

されている。このコーパスを検索けんさく

するために複数ふくすう

の検索けんさく

ツール(インター

フェース)が用意よ う い

され,ユーザー登録とうろく

せずに利用り よ う

することが可能か の う

である

(http://npcmj.ninjal.ac.jp/interfaces/)。その中なか

で一番簡単いちばんかんたん

に利用り よ う

できるインターフェー

スは「パターンブラウザー」である。これを利用り よ う

し,上 述じょうじゅつ

の「帽子ぼ う し

をかぶった子こ

ども」

Page 7: Japanese Linguistics Japanese コーパスに基づく日 …epgp.inflibnet.ac.in/.../ET/1518173215P02M29ET_01.pdfJapanese Japanese Linguistics コーパスに基づく日本語研究

Japanese Japanese Linguistics

コーパスに基づく日本語研究 (Corpus Based Research on Japanese)

のように主語し ゅ ご

(子こ

ども)を 修 飾しゅうしょく

する関係節かんけいせつ

と「子こ

どもがかぶった帽子ぼ う し

」のように

目的語もくてきご

(帽子ぼ う し

)を修 飾しゅうしょく

する関係節かんけいせつ

のどちらが多おお

く使つか

われているのかを簡単かんたん

に調しら

べるこ

とができる。これから 5 年間ねんかん

で毎年まいとし

10,000 文ぶん

ずつ追加つ い か

され,最終的さいしゅうてき

には 60,000 文ぶん

(100万語ま ん ご

)規模き ぼ

のコーパスになる予定よ て い

である。

そのほか,日本語に ほ ん ご

の話はな

し言葉こ と ば

コーパス,歴史れ き し

コーパス,近代語きんだいご

のコーパスについて

の情報じょうほう

が,国立国語研究所こくりつこくごけんきゅうじょ

の「コーパス・データベース」のサイトに掲載けいさい

されている。

(http://www.ninjal.ac.jp/database/)。

以上いじょう

は日本語母語話者に ほ ん ご ぼ ご わ し ゃ

のコーパスであるが,日本語学習者にほんごがくしゅうしゃ

の話はな

し言葉こ と ば

や書か

き言葉こ と ば

集積しゅうせき

した日本語学習者にほんごがくしゅうしゃ

コーパスもある。上記じょうき

の国立国語研究所こくりつこくごけんきゅうじょ

の「コーパス・データ

ベース」のサイトから,以下い か

の学習者がくしゅうしゃ

コーパスについての情報じょうほう

を得え

ることができる。

(1) 『中国語ちゅうごくご

・韓国語母語か ん こ く ご ぼ ご

の日本語学習者縦断発話にほんごがくしゅうしゃじゅうだんはつわ

コーパス』 (C-JAS)

(2) 『多言語母語た げ ん ご ぼ ご

の日本語学習者横断にほんごがくしゅうしゃおうだん

コーパス』 (I-JAS)

(3) 『日本語学習者にほんごがくしゅうしゃ

による日本語に ほ ん ご

・母語対照ぼごたいしょう

データベース』

(4) 『寺村誤用例集てらむらごようれいしゅう

データベース』

上記じょうき

の (2) については利用申請りようしんせい

が必要ひつよう

だが,(1) ,(3) ,(4) については無登録むとうろく

で利用り よ う

きる。学習者がくしゅうしゃ

コーパスは日本語学習者にほんごがくしゅうしゃ

の習得研究しゅうとくけんきゅう

に大おお

きく貢献こうけん

するものであるとと

Page 8: Japanese Linguistics Japanese コーパスに基づく日 …epgp.inflibnet.ac.in/.../ET/1518173215P02M29ET_01.pdfJapanese Japanese Linguistics コーパスに基づく日本語研究

Japanese Japanese Linguistics

コーパスに基づく日本語研究 (Corpus Based Research on Japanese)

もに,学習者がくしゅうしゃ

の日本語使用に ほ ん ご し よ う

を日本語母語話者に ほ ん ご ぼ ご わ し ゃ

の日本語使用に ほ ん ご し よ う

と比較ひ か く

することにより,

日本語に ほ ん ご

の分析ぶんせき

にも活用かつよう

することができる。

3. コーパスに基もと

づく研究けんきゅう

の事例じ れ い

:日本語に ほ ん ご

の自動詞じ ど う し

と他動詞た ど う し

日本語に ほ ん ご

を含ふく

む世界せ か い

の多おお

くの言語げ ん ご

には,「立た

つ (tat-u):立た

てる (tate-ru)」,「裂さ

ける

(sake-ru):裂さ

く(sak-u)」,「移うつ

る(utur-u):移うつ

す(utus-u)」,「死し

ぬ (sin-u):殺ころ

す(koros-u)」

のような語彙的自他動詞対ご い て き じ た ど う し つ い

が存在そんざい

する。特とく

に日本語に ほ ん ご

には語彙的自他動詞対ご い て き じ た ど う し つ い

が豊富ほ う ふ

にある。

日本語に ほ ん ご

の自動詞じ ど う し

と他動詞た ど う し

の間あいだ

の形式的けいしきてき

な関係かんけい

は表ひょう

1 に示しめ

すように分類ぶんるい

できる。この

表ひょう

に挙あ

げたもののほかに,「死し

ぬ (sin-u):殺ころ

す(koros-u)」のように形式的けいしきてき

な関係かんけい

がない

対つい

もある。

形態的な関係 例 サイズの大小

他動化型開く → 開ける立つ → 立てる

自動詞(無標) → 他動詞(有標) 自動詞 < 他動詞

自動化型焼ける ← 焼く裂ける ← 裂く

自動詞(有標) ← 他動詞(無標) 自動詞 > 他動詞

均衡型直る : 直す移る : 移す

自動詞 : 他動詞 自動詞 = 他動詞

自他同形型開く = 開く

終わる = 終わる自動詞 = 他動詞 自動詞 = 他動詞

表1 自他動詞の形態的な関係による分類

派生の方向の有無

方向あり

方向なし

Page 9: Japanese Linguistics Japanese コーパスに基づく日 …epgp.inflibnet.ac.in/.../ET/1518173215P02M29ET_01.pdfJapanese Japanese Linguistics コーパスに基づく日本語研究

Japanese Japanese Linguistics

コーパスに基づく日本語研究 (Corpus Based Research on Japanese)

自然言語し ぜ ん げ ん ご

の様々さまざま

なレベルの言語単位げ ん ご た ん い

(音おと

,語ご

,句く

,文ぶん

など)には形態上けいたいじょう

の非対称性ひたいしょうせい

がある。一方いっぽう

は形式的けいしきてき

に単純たんじゅん

で,そこから派生は せ い

されたもう一方いっぽう

は,形式的けいしきてき

に複雑ふくざつ

にな

る。例たと

えば,能動形のうどうけい

の「建た

てる」と受動形じゅどうけい

の「建た

てられる」を比くら

べると,能動形のうどうけい

には何なん

の標識ひょうしき

も付つ

いていないが,受動形じゅどうけい

には受動じゅどう

の標識ひょうしき

である「られる」が付つ

いている。

標識論ひょうしきろん

(markedness theory)では,特定とくてい

の標識ひょうしき

を用もち

いて示しめ

される形態けいたい

を有標ゆうひょう

(marked),標識ひょうしき

を用もち

いないで示しめ

される形態けいたい

を無標むひょう

(unmarked)と呼よ

んでいる。上うえ

表ひょう

1 では,他動化型た ど う か が た

においては,自動詞じ ど う し

のほうが他動詞た ど う し

より短みじか

い(自動詞じ ど う し

<他動詞た ど う し

ため自動詞じ ど う し

は無標むひょう

,他動詞た ど う し

は有標ゆうひょう

となる。一方いっぽう

,自動化型じ ど う か が た

においては,他動詞た ど う し

のほう

が自動詞じ ど う し

より短みじか

い(自動詞じ ど う し

>他動詞た ど う し

)ため他動詞た ど う し

は無標むひょう

,自動詞じ ど う し

は有標ゆうひょう

となる。つま

り,方向性ほうこうせい

のある自他対じ た つ い

において,自動詞じ ど う し

あるいは他動詞た ど う し

は無標むひょう

(単純たんじゅん

・短みじか

い)にな

る場合ば あ い

もあれば,有標ゆうひょう

(複雑ふくざつ

・長なが

い)になる場合ば あ い

もある。このような形式的けいしきてき

な無標むひょう

有標ゆうひょう

の違ちが

いはどのような理由り ゆ う

(動機付ど う き づ

け)で決き

まるだろうか。言語類型論げんごるいけいろん

の分野ぶ ん や

では,

このような疑問ぎ も ん

を解明かいめい

するために多おお

くの言語げ ん ご

データに基もと

づいた研究けんきゅう

が行おこな

われ,以下い か

2 つの動機ど う き

づけが提案ていあん

されている。

(1) 意味的い み て き

な動機ど う き

づけ:形式的けいしきてき

な単純たんじゅん

さ・複雑ふくざつ

さ(すなわち形式的けいしきてき

な短みじか

さ・長なが

さ)

は意味的い み て き

な単純たんじゅん

さ・複雑ふくざつ

さを反映はんえい

しているものである。認知に ん ち

,意味い み

の面めん

において

Page 10: Japanese Linguistics Japanese コーパスに基づく日 …epgp.inflibnet.ac.in/.../ET/1518173215P02M29ET_01.pdfJapanese Japanese Linguistics コーパスに基づく日本語研究

Japanese Japanese Linguistics

コーパスに基づく日本語研究 (Corpus Based Research on Japanese)

無標むひょう

・単純たんじゅん

な出来事で き ご と

のほうが,形態けいたい

の面めん

においても無標むひょう

・単純たんじゅん

である(すなわち短みじか

い)。逆ぎゃく

に,認知に ん ち

,意味い み

の面めん

において有標ゆうひょう

・複雑ふくざつ

な出来事で き ご と

のほうが,形態けいたい

の面めん

におい

ても有標ゆうひょう

・複雑ふくざつ

である(すなわち長なが

い)。この立場た ち ば

は意味い み

と形態けいたい

の 間あいだ

の類似性るいじせい

(iconicity)を主張しゅちょう

する。

(2) 経済的けいざいてき

な動機ど う き

づけ:使用頻度し よ う ひ ん ど

が高たか

いものは形態上けいたいじょう

コンパクトに短みじか

く表現ひょうげん

され,

使用頻度し よ う ひ ん ど

の低ひく

いものは形態上長けいたいうえなが

くなる傾向けいこう

がある。この立場た ち ば

は形態けいたい

の長なが

さが使用頻度し よ う ひ ん ど

よって決き

まるという考かんが

え方かた

である。

このモジュールでは,コーパスに基もと

づく研究けんきゅう

の事例じ れ い

として (2) の経済的けいざいてき

な動機ど う き

づけ

を主張しゅちょう

するナロック・パルデシ・赤瀬川あかせがわ

(2015) の統語的派生とうごてきはせい

に関かん

する研究けんきゅう

を紹介しょうかい

る。

4. コーパスに基もと

づく研究けんきゅう

の事例じ れ い

:ナロック・パルデシ・赤瀬川あかせがわ

(2015)

表ひょう

1 に示しめ

した形式的けいしきてき

な関係かんけい

による分類ぶんるい

の中なか

で,対つい

をなす動詞ど う し

の間あいだ

にサイズの違ちが

いが

あるのは他動化型た ど う か が た

と自動化型じ ど う か が た

の 2 つのみである。他動化型た ど う か が た

,例たと

えば「開ひら

く→開あ

ける」の

場合ば あ い

は,自動詞じ ど う し

「(ドアが)開ひら

く」では動作主どうさしゅ

がなく,それに,動作主どうさしゅ

を加くわ

えて,

他動詞た ど う し

「(だれかがドアを)開あ

ける」を派生は せ い

している。一方いっぽう

,自動化型じ ど う か が た

,例たと

えば「裂さ

→裂さ

ける」の場合ば あ い

は,他動詞た ど う し

のほうにある動作主どうさしゅ

「(だれかがなにかを)裂さ

く」を省はぶ

Page 11: Japanese Linguistics Japanese コーパスに基づく日 …epgp.inflibnet.ac.in/.../ET/1518173215P02M29ET_01.pdfJapanese Japanese Linguistics コーパスに基づく日本語研究

Japanese Japanese Linguistics

コーパスに基づく日本語研究 (Corpus Based Research on Japanese)

て自動詞じ ど う し

「(なにかが)裂さ

ける」が派生は せ い

されている。ナロック・パルデシ・赤瀬川あかせがわ

はこ

のような派生は せ い

を統語論的派生とうごろんてきはせい

と名付な づ

け,次つぎ

の仮説か せ つ

を立た

てている。

仮説か せ つ

:どのような統語論的派生とうごろんてきはせい

パターンにおいても,形式的けいしきてき

に派生は せ い

された動詞ど う し

のほ

うが頻度ひ ん ど

が低ひく

く,形式的けいしきてき

な派生元はせいもと

となる動詞ど う し

のほうが頻度ひ ん ど

が高たか

い。

この仮説か せ つ

を検証けんしょう

するために,現代日本語げんだいにほんご

の語彙的自他動詞対ご い て き じ た ど う し つ い

の包括的ほうかつてき

なリスト

「現代語自他対一覧表げんだいごじたついいちらんひょう

」を作成さくせい

し(この表ひょう

は http://watp.ninjal.ac.jp/resources/からダウ

ンロードできる),そのリストの他動化型た ど う か が た

,自動化型じ ど う か が た

に属ぞく

する動詞ど う し

について,BCCWJ

を用もち

いた頻度調査ひんどちょうさ

を行おこな

った。その結果け っ か

を示しめ

したのが表ひょう

2 である。

表ひょう

2 に見み

られるように,派生元はせいもと

の動詞ど う し

は,他動化型た ど う か が た

が 82%,自動化型じ ど う か が た

が 74%と,ど

ちらも派生は せ い

された動詞ど う し

よりも頻度ひ ん ど

が高たか

い。すなわち,他動化型た ど う か が た

も自動化型じ ど う か が た

も形式的けいしきてき

短みじか

い動詞ど う し

のほうが形式的けいしきてき

に長なが

い動詞ど う し

よりも高たか

い頻度ひ ん ど

で使用し よ う

されていることが分わ

かる。

さらに,その比率ひ り つ

は自動化型じ ど う か が た

より他動化型た ど う か が た

のほうが高たか

いことから,他動化型た ど う か が た

の方ほう

が仮説か せ つ

頻度 % 頻度 %他動化型 182 82% 38 17%自動化型 103 74% 36 26%合計 285 79% 74 21%

派生元の動詞(形態的に短い)

派生された動詞(形態的に長い)統語論的派生パターン

表2 他動詞型と自動詞型の頻度と%

Page 12: Japanese Linguistics Japanese コーパスに基づく日 …epgp.inflibnet.ac.in/.../ET/1518173215P02M29ET_01.pdfJapanese Japanese Linguistics コーパスに基づく日本語研究

Japanese Japanese Linguistics

コーパスに基づく日本語研究 (Corpus Based Research on Japanese)

に合致が っ ち

する傾向けいこう

が強つよ

いと言い

える。これは,他動化型た ど う か が た

の派生元はせいもと

の動詞ど う し

,すなわち自動詞じ ど う し

頻度ひ ん ど

が高たか

いことを示しめ

すものである。このことは,日本語に ほ ん ご

の言語使用げ ん ご し よ う

において,

自動的表現法じどうてきひょうげんほう

のほうが好この

まれることを示しめ

すものであると 考かんが

えられる。また,形態けいたい

複雑ふくざつ

さの度合ど あ

いに差さ

がない「直なお

す:直なお

る」のような対つい

の調査ちょうさ

においては,自動詞じ ど う し

の頻度ひ ん ど

のほうが高たか

いという結果け っ か

が得え

られている(74% 対たい

26%)。この結果け っ か

も自動詞じ ど う し

がベース

となっている日本語に ほ ん ご

の特質とくしつ

によるものであると考かんが

えられる。

以上いじょう

のような議論ぎ ろ ん

を展開てんかい

し,ナロック・パルデシ・赤瀬川あかせがわ

(2015) は,現代日本語げんだいにほんご

大量たいりょう

のコーパスデータを用もち

いて,形式的けいしきてき

に短みじか

い動詞ど う し

のほうが頻度ひ ん ど

が高たか

く,形式的けいしきてき

に長なが

い動詞ど う し

のほうが頻度ひ ん ど

が低ひく

いという仮説か せ つ

を概おおむ

ね裏付う ら づ

けている。

このように,コーパスを利用り よ う

すれば,使用頻度し よ う ひ ん ど

という客観的きゃっかんてき

な指標しひょう

を用もち

いて様々さまざま

言語現象げんごげんしょう

を説明せつめい

することが可能か の う

となる。

キーワード:

コーパス言語学げんごがく

アノテーション BCCWJ コーパス 筑波つ く ば

ウェブコーパス

NPCMJ コーパス NLB NLT

*******