26
_`)<胃が痛い 20150508#klisLT n+2

Klis LT nozawa

Embed Size (px)

Citation preview

Page 1: Klis LT nozawa

(´・_・`)<胃が痛い

20150508#klisLT n+2

Page 2: Klis LT nozawa

名前: nzw ( @nozawa0301)

所属: klis12(システム主専攻)

興味: 機械学習,自然言語処理,グラフ

寿司食べに行きましょう!

Page 3: Klis LT nozawa

最近悲しいことがありました(´・_・`)

Page 4: Klis LT nozawa

最近悲しいことがありました(´・_・`)

SHIROBAKOが終わったのです

Page 5: Klis LT nozawa

SHIROBAKO

● P.A.WORKSが贈る働く女の子シリーズ

第2弾

● アニメ制作の現場を描いた名作

● 全24話

● 3月末に放送終了

Page 6: Klis LT nozawa

安原絵麻(敬称略)

● 主要人物の一人

● 原画担当○ 貧乏な設定○ おさげ○ 途中からお笑い要素

● かわいくないですか><??

http://shirobako-anime.com/character.html (2015/05/05取得)から画像を引用しています.

Page 7: Klis LT nozawa

悲しいこと

24話で終わってしまったため,会えない(´・_・`)

Page 8: Klis LT nozawa

悲しいこと

24話で終わってしまったため,会えない(´・_・`)↓

2期制作を頼むほどの財力もない(´・_・`)(´・_・`)

Page 9: Klis LT nozawa

悲しいこと

24話で終わってしまったため,会えない(´・_・`)↓

2期制作を頼むほどの財力もない(´・_・`)(´・_・`)↓

せめて似ているキャラはいないのか??

Page 10: Klis LT nozawa

悲しいこと

24話で終わってしまったため,会えない(´・_・`)↓

2期制作を頼むほどの財力もない(´・_・`)(´・_・`)↓

せめて似ているキャラはいないのか??

↓私は,NLPerだ!!??!11

Page 11: Klis LT nozawa

自然言語処理(NLP)

計算機で自然言語(英語など)を処理する分野

例えば

● 類似文書抽出● キーワード抽出● 翻訳● 言語理解

これらを駆使すれば解決できるはず

Page 12: Klis LT nozawa

疑問点

1. 似ているってなに?a. 安原絵麻の何と似ていれば(私は)満足できるのかb. 突き詰めると一番 難しい

2. なにを使って似ているキャラを獲得する?a. データがないとなにもできないb. 存在しないデータは使えない

i. DNAとか

Page 13: Klis LT nozawa

似ているとは?

● 見た目○ アニメ画像,Pixivのイラスト...

● セリフ● 声

○ おとなしい声○ 佳村はるか

● 世間からの評価○ 「かわいい」,「うおおおおぉ!!!??」...

● 属性○ 貧乏,原画,おさげ...

Page 14: Klis LT nozawa

似ているとは?

● 見た目○ アニメ画像,Pixivのイラスト...

● セリフ● 声

○ おとなしい声○ 佳村はるか

● 世間からの評価○ 「かわいい」,「うおおおおぉ!!!??」...

● 属性○ 貧乏,原画,おさげ...

Page 15: Klis LT nozawa

データの整理

● セリフと世間からの評価は,文

● 属性は,タグ

Page 16: Klis LT nozawa

文をどう計算機で表現するか

形態素に分割し,ベクトルや集合として扱うことが多い

「ドンドン、ドーナツどーんといこう!」

↓形態素解析

「ドン_ドン_、_ドーナツ_どー_ん_と_いこう_!」

↓bag of words表記

[1,1,1,1,1,1,1,1,...]

Page 17: Klis LT nozawa

ベクトル化したら?

内積を類似度と定義して,類似人物を算出

安原絵麻ベクトル

押水菜子ベクトル

宮森あおいベクトル

Page 18: Klis LT nozawa

タグはどうする?

● 形態素にする必要がない

● 形態素をタグとみなしてもよい

例えば,タグを集合としJaccard係数を計算

Page 19: Klis LT nozawa

Jaccard係数

集合対の類似度

安原集合={原画,かわいい,ドーナツ,武蔵野}宮森集合={制作,ドーナツ,武蔵野,万策尽きた}

Jaccard(安原,宮森)= |安原∩宮森| / |安原∪宮森| = 2 / 6

Page 20: Klis LT nozawa

実験

Page 21: Klis LT nozawa

データ

● ニコニコ大百科のキャラページをwgetで取得

● 以下の7名で検証

{安原絵麻,宮森あおい,坂木しずか,

藤堂美沙,今井みどり,井口祐未,杉江茂}

Page 22: Klis LT nozawa
Page 23: Klis LT nozawa

類似度計算法

● 内積を使った類似度○ bag-of-wordsの値はTF-IDF

● Jaccard係数を使った類似度○ 集合の要素は,ページに現れる単語

Page 24: Klis LT nozawa

内積類似度結果

1. 井口 0.7749739197828607

2. 宮森 0.7746392639617066

3. 杉江 0.7551078734536215

4. 今井 0.7060488668393344

5. 藤堂 0.669264556820518

6. 坂木 0.6589109771783567

Page 25: Klis LT nozawa

Jaccard係数結果

1. 今井 0.1940700808625337

2. 藤堂 0.16065573770491803

3. 宮森 0.15780730897009967

4. 坂木 0.1558073654390935

5. 杉江 0.14285714285714285

6. 井口 0.12682215743440234

Page 26: Klis LT nozawa

まとめ

● 似ているをちゃんと考えよう○ 今回はだいぶ失敗したデータのとり方

● SHIROBAKO明日明後日一挙放送!!