31
慶應義塾大学理工学部2008 1 共出現パターンによる歌ことばの分析 山元啓史 Hilofumi Yamamoto June 4, 2008

Keio slide

Embed Size (px)

Citation preview

Page 1: Keio slide

慶應義塾大学理工学部2008 1

共出現パターンによる歌ことばの分析

山 元 啓 史Hilofumi Yamamoto

June 4, 2008

Page 2: Keio slide

慶應義塾大学理工学部2008 2

はじめる前に

• 日本語とはどんな言語か。– 日本語は系統として孤立。どの語族にも属さない。

– 使用人口世界第8ないし9位。

– 1億人以上の人々によって話される。

– 1000年以上前から大筋において言語の形態は同じ。

世界でもきわめてめずらしい言語

• ただし、意味は変化しており (Goodenough, 1981)、言語の変遷の観察可能 (特に和歌では比喩など様々な言語現象が含まれる)。

Page 3: Keio slide

慶應義塾大学理工学部2008 3

はじめに

• 八代集—貴重な古典の資料、そして言語学の資料

• 歌集間の語彙変遷の研究

• 従来、索引による分析では語の認定単位がまちまち。

• 実例にあたる研究方法では追試や再現、再検討ができない。

• データの共有と資料の整備が必要。

Page 4: Keio slide

慶應義塾大学理工学部2008 4

電子化テキスト資源の公開

• 国文学研究資料館の二十一代集データベース

• ヴァージニア大学日本語テキストイニシアティブ

• 関西大学図書館「八代集の世界」印影本画像公開

• 高千穂大、渋谷栄一氏翻刻、電子テキスト配布

データの共有や追試が実施しやすくなってきた。

Page 5: Keio slide

慶應義塾大学理工学部2008 5

歌ことばのモデリング

• 山元 (2005)—歌枕のモデリング

• 山元 (2006)—歌ことばのモデリング

• 体系と詳細の可視化

• しかし、データは古今集に限られていた。

• 他の歌集による検討はまだ。

• たとえば、「桜と吉野」の関係

Page 6: Keio slide

慶應義塾大学理工学部2008 6

「桜と吉野」の関係

• 「花といえば桜」「桜の吉野」はいつごろか。

• 古今集ではまだ成立していない。

• 新古今集では西行の時代から (片桐, 1983; 小林, 1989)。

→ p.2の注釈参照。

• 新古今集でも検証する必要がある。

Page 7: Keio slide

慶應義塾大学理工学部2008 7

八代集の成立

900

古今集

(•90

5)

46

950

後撰集

(•95

1)

56

1000

拾遺集

(•10

07)

79

1050

後拾遺集

(108

6)

38

1100

金葉集

(•11

24)

20

詞花集

(•11

44)

44

1150

千載集

(118

8)

17

1200

新古今集

(120

5)

1250

八代集の語彙の転換期

拾遺集説、◎後拾遺集説、千載集説

Page 8: Keio slide

慶應義塾大学理工学部2008 8

八代集の語彙の転換期

1. 一般的には古今撰者の歌の排除された後拾遺集。

2. 上野 (1976)

• 古今・後撰→〈褻の歌〉の時代• 拾遺集以降→〈晴の歌〉の時代

3. 川村 (1991)

→後拾遺集以降の変化はすでに拾遺集に見られる。

4. 辻 (1998) 語彙的には千載集。

Page 9: Keio slide

慶應義塾大学理工学部2008 9

いつが転換期か

• 全体的な傾向はあったとしてもすべての語彙が急激に変わるわけではない。

• 当時の流行や文化、撰者によるか。

• 転換期は語によって違うのではないか。

• 均一な条件によって語彙調査を行う必要があるのでは。

→ 八代集を通して「吉野」のモデルを作り、変遷をみる。

Page 10: Keio slide

慶應義塾大学理工学部2008 10

方法:材料

• 国文学研究資料館開発正保版本「二十一代集」

• 長歌を除く 9484首の和歌テキスト

(シソーラスの作成はすべての和歌に対して)

• kh で単位分割 (β単位)し、

• 異形同語 (立田/竜田/龍田)の問題→ t2c でシソーラスコードをつける。

• 八代集シソーラスの開発→分類語彙表を利用

• 一般語 (48732)、地名 (1408)、人名 (49)

Page 11: Keio slide

慶應義塾大学理工学部2008 11

方法:共出現パターン

雪/の/ 内/に / 春/は/ 来/ に/ けり/ 鴬/の/ 凍れ/ る/ 涙/ 今/や/ 解く/ らむ

• 雪–内、雪–春、雪–来、...

モデル化に必要なテキスト処理とは..

Page 12: Keio slide

慶應義塾大学理工学部2008 12

歌ことばの語用特性を示すモデル

テキストを

• 文脈を損なわない

• 最小の単位に分割

• 代表的な単位を選ぶ

処理方法が必要。

Page 13: Keio slide

慶應義塾大学理工学部2008 13

用語の採り方

• 一般的に計量研究は、低頻度語が無視される。

• 高頻度語は意外とキーワードとしての情報量に乏しい。(水谷, 1983)

• 低頻度語は文章の性格に規定されて使われている。(石井, 1996)

情報量によっては低頻度語を取り上げる方法が必要。

→ idf (inverse document frequency) を利用し、

→ 語のキーワード性 (重要度)をモデルを作る。

Page 14: Keio slide

慶應義塾大学理工学部2008 14

idf (Sparck Jones, 1972)

idf(t, N) = logN

df(t)

idf(ari,N) = logN

df(ari)(1)

= log9484

1201(2)

= log 7.89.. (3)

= 2.07.. (4)

Page 15: Keio slide

慶應義塾大学理工学部2008 15

idf (Sparck Jones, 1972)

idf(t, N) = logN

df(t)

idf(uguisu, N) = logN

df(uguisu)(5)

= log9484

101(6)

= log 93.90.. (7)

= 4.54.. (8)

Page 16: Keio slide

慶應義塾大学理工学部2008 16

語の頻度の分布

0

500

1000

1500

2000

2500

3000

3500

0 200 400 600 800 1000 1200 1400 1600 1800 2000

number of type

frequency

L-Shape Freq-Type

低頻度語が圧倒的に多い。頻度重視の計量では分析できない。

L字型分布

Page 17: Keio slide

慶應義塾大学理工学部2008 17

idf値の分布

0

200

400

600

800

1000

1200

1 2 3 4 5 6 7 8 9

number of type

inverse document frequency (idf)

J-Shape IDF-Type

J字型分布

idf で語の重要度を計算すると低頻度語は高い idf となる。idf を利用して、共出現パターンを計算する。

Page 18: Keio slide

慶應義塾大学理工学部2008 18

共出現パターンの特徴と計算方法

• 共出現パターンには最小単位 (2語)で文脈が含まれる。

月+宿 → 月が宿る(池などに月影が映る)

頭+雪 → 頭の雪(白髪)

• すべてのパターンを描画すると「真っ黒の塊」になる。→重要なパターンのみを選び出す必要がある。

• tfidfを2語の重要度へ拡張する。

w(t,K,N)=(1 + log tf(t,K)) idf(t, N)

Page 19: Keio slide

慶應義塾大学理工学部2008 19

共出現ウエイト (cw)の計算

w(t,K, N) = (1 + log tf(t,K)) idf(t, N) (9)

cidf(t1, t2, N) =√

idf(t1, N) idf(t2, N) (10)

ctf(t1, t2, K) = 1 + log |{k : t1, t2 ∈ k}| (11)

• K は条件により抽出されたテキスト。

• (10)は2語の重要度の幾何平均【単語重要度】

→ cidf の分布、次のスライド参照。

• (11)はK に出現したパターンの頻度【実出現頻度】

• ◎パターンの「珍しさ」の情報がない!

Page 20: Keio slide

慶應義塾大学理工学部2008 20

cidf値の分布

0

200

400

600

800

1000

0 1 2 3 4 5 6 7 8 9

frequency of patterns

cidf

梅桜鶯時鳥立田吉野

Page 21: Keio slide

慶應義塾大学理工学部2008 21

共出現ウエイト (cw)の計算

ictf(t1, t2, N) = 1 + log|N |

|{n : t1, t2 ∈ n}|(12)

cw(t1, t2) = ctf(t1, t2, K) ictf(t1, t2, N) cidf(t1, t2, N) (13)

• K は条件抽出されたテキスト。N はすべてのテキスト。

• 【単語重要度】は2語の重要度の幾何平均

• 【実出現頻度】はK に出現したパターンの頻度

• 【組合重要度】はN に出現したパターンの頻度

Page 22: Keio slide

慶應義塾大学理工学部2008 22

cw値の累積パターン数

0

100

200

300

400

500

600

700

800

900

0 10 20 30 40 50 60 70 80 90 100

cumulative frequency of patterns

co-occurrence weight (cw)

吉野

1

2

3

4

56

7

8古今 1後撰 2拾遺 3後拾遺 4金葉 5詞花 6千載 7新古今 8

このままだと収束する点に若干ずれが見られる。cw に z 変換を施し正規化する。

Page 23: Keio slide

慶應義塾大学理工学部2008 23

1σと変曲点

下方向カーブから

右方向カーブへ

右裾野の 16%が自動的に選択される。(人為的に収束点を選ばなくてもよい)

Page 24: Keio slide

慶應義塾大学理工学部2008 24

古今集

吉野 (24/92/97, 4.63) cw > 0 .0 0 K :1-1 U :2 L:0 .0 0 M :16 Z:1.0 0

縦しや

吉野

2早し

1

妹背1

辛し

1

1唐土

1

2

8

3

立つ3

1

2

誤つ

2

雪 2

山4

咲く

2

桜2

1

3降る7

10

5

寒し2

3

浮ぶ

2

3

1

岩3

2

通す

1

伐る

1

水2

平す

1

2

11

衣手2

去ぬ

1

3

2

踏む

2

訪る

1

51

1死ぬ1

1

1

何処

2

33

2

1

1

1

1

14

2

彼方

1

かくれる 1

1

1

1

1

後る

1

白 4

4

1

1

1

1

2

増さる

2

籠る

1

1

霞 2

野辺

11

音2

2

2

古里2

2

消ゆ2

憂し2

落つ

11

一日

11

近し1

出づ2

流る

1 1

2

朝ぼらけ

1

有明

1

恋ふ

2

2

2

行き

2

1

Page 25: Keio slide

慶應義塾大学理工学部2008 25

後拾遺集

吉野 (3/92/97, 4.63) cw > 0 .0 0 K :4-4 U :2 L:0 .0 0 M :16 Z:1.0 0

棚引く1

吉野1

1

1

八重

重ぬ

1

1

峰 1

1

景色

霞む

1

1

結ぶ1

1

1

1

1

1

1

1

Page 26: Keio slide

慶應義塾大学理工学部2008 26

新古今集

吉野 (24/92/97, 4.63) cw > 0 .0 0 K :8-8 U :2 L:0 .0 0 M :16 Z:1.0 0

吉野3

厭ふ2

厭はし

1

喚子鳥

1

1戸

1

心2

夏実

1

4

2

古柳

1

2

2

2

1

1

1

染む 1

1

1

2

1

芝草1

踏む1

白し

1

2

1

1

長く

1寂ぶ

1

1

松風1

散る6

14

6

3

33

43

春7

2

2

1

古里

3

1

2

1 3

11

1

1

1

1

分く

1

2

遅げなり1

嵐22

2

1

1

11

去年

枝折

1

変ふ 1

まだ1

1

11

尋ぬ

1

3

1

1

花11

1

11

1 11

打つ2

1

今宵

1

1

11

1

1

尽す 1

哀れ

1

1

1

桜3

3

1

野辺

1

4

2 2

袖2

1

来3

3

1

影1

1

吹く 2

3

有り3

1

3

1

Page 27: Keio slide

慶應義塾大学理工学部2008 27

金葉集

吉野 (5/92/97, 4.63) cw > 0 .0 0 K :5-5 U :2 L:0 .0 0 M :16 Z:1.0 0

吉野4

埋もれる

1

集む

1

咲く2

峰2

3

2 麓

1

上る1

雲 2

3

2

1

1

1

1

1 11

1

1

掻く

1

1

11

2

掛かる

1

山4

5

花4

1

匂ふ1

1

梢寄る

1

2

1

時1

今日1

Page 28: Keio slide

慶應義塾大学理工学部2008 28

雪あるいは桜を含むパターン (1)

表2 各集の「吉野」のモデルから抽出した雪あるいは桜を含むパターン

t1–t2 cw z ctf idf(t1) idf(t2)古今集 (24) 雪–吉野 86.06 3.33 10 3.18 4.63

雪–降る 65.15 1.76 5 3.18 3.26桜–辺 64.32 1.70 2 3.43 4.69雪–寒し 63.36 1.62 2 3.18 4.92雪–辺 61.87 1.51 2 3.18 4.69雪–白 60.36 1.40 4 3.18 3.18雪–古里 55.34 1.02 2 3.18 4.37

後撰集 (11) 雪–吉野 54.69 1.33 3 3.18 4.63雪–降る 52.40 1.12 3 3.18 3.26雪–崩る 51.40 1.03 1 3.18 8.06桜–吉野 51.28 1.02 2 3.43 4.63

拾遺集 (15) 雪–吉野 80.25 3.74 8 3.18 4.63雪–消ゆ 55.90 1.54 2 3.18 3.83雪–山 54.92 1.46 8 3.18 2.08雪–峰 54.35 1.40 2 3.18 3.95雪–宿 52.42 1.23 2 3.18 3.37雪–古道 50.48 1.05 1 3.18 7.77

後拾遺集 (3) N/A

Page 29: Keio slide

慶應義塾大学理工学部2008 29

雪あるいは桜を含むパターン (2)

表2 各集の「吉野」のモデルから抽出した雪あるいは桜を含むパターン

t1–t2 cw z ctf idf(t1) idf(t2)金葉集 (5) 桜–吉野 72.27 3.34 4 3.43 4.63

桜–峰 52.17 1.44 2 3.43 3.95桜–咲く 51.68 1.40 2 3.43 3.71桜–雲 51.00 1.33 2 3.43 3.43桜–山 49.48 1.19 4 3.43 2.08桜–集む 48.33 1.08 1 3.43 6.59桜–埋もれる 47.56 1.01 1 3.43 6.38

詞花集 (6) N/A千載集 (9) N/A新古今集 (24) 桜–吉野 63.56 1.64 3 3.43 4.63

桜–散る 62.38 1.55 3 3.43 3.14雪–吉野 62.18 1.53 4 3.18 4.63桜–遅げなり 56.96 1.14 1 3.43 9.16

Page 30: Keio slide

慶應義塾大学理工学部2008 30

考察

• 前回は古今集だけだったが、今回は八代集のデータをもとにモデル化を行った。

• 重み (cw)は z変換により正規化を行った上で、1σ以上を取り出すと一律に決められ、歌集間の比較が可能。→なぜ 1σ(16%)で文脈がうまく見えるのか。

• 「雪の吉野」から「桜の吉野」へは金葉集が転換期である。→定着期であるかどうかは不明

• 千載集、新古今集では「桜」より「花」という言い方が多い。→定着してきた証拠か

Page 31: Keio slide

慶應義塾大学理工学部2008 31

まとめ

• モデリングによる「体系」の構築とその可能性

• 実例を示す研究方法→「体系」が示しにくい。

• 語彙リスト、一覧表による方法→実例に戻らなくてはならない「もどかしさ」がある。

• モデルからテキストへ参照→モデリングシステムhttp://etymology.jp/waka/poem.cgi

XML(SVG)フォーマットの採用。

• 八代集シソーラスの公開