Upload
nzw-nozawa
View
207
Download
0
Embed Size (px)
Citation preview
(´・_・`)<胃が痛い
20150508#klisLT n+2
名前: nzw ( @nozawa0301)
所属: klis12(システム主専攻)
興味: 機械学習,自然言語処理,グラフ
寿司食べに行きましょう!
最近悲しいことがありました(´・_・`)
最近悲しいことがありました(´・_・`)
SHIROBAKOが終わったのです
SHIROBAKO
● P.A.WORKSが贈る働く女の子シリーズ
第2弾
● アニメ制作の現場を描いた名作
● 全24話
● 3月末に放送終了
安原絵麻(敬称略)
● 主要人物の一人
● 原画担当○ 貧乏な設定○ おさげ○ 途中からお笑い要素
● かわいくないですか><??
http://shirobako-anime.com/character.html (2015/05/05取得)から画像を引用しています.
悲しいこと
24話で終わってしまったため,会えない(´・_・`)
悲しいこと
24話で終わってしまったため,会えない(´・_・`)↓
2期制作を頼むほどの財力もない(´・_・`)(´・_・`)
悲しいこと
24話で終わってしまったため,会えない(´・_・`)↓
2期制作を頼むほどの財力もない(´・_・`)(´・_・`)↓
せめて似ているキャラはいないのか??
悲しいこと
24話で終わってしまったため,会えない(´・_・`)↓
2期制作を頼むほどの財力もない(´・_・`)(´・_・`)↓
せめて似ているキャラはいないのか??
↓私は,NLPerだ!!??!11
自然言語処理(NLP)
計算機で自然言語(英語など)を処理する分野
例えば
● 類似文書抽出● キーワード抽出● 翻訳● 言語理解
これらを駆使すれば解決できるはず
疑問点
1. 似ているってなに?a. 安原絵麻の何と似ていれば(私は)満足できるのかb. 突き詰めると一番 難しい
2. なにを使って似ているキャラを獲得する?a. データがないとなにもできないb. 存在しないデータは使えない
i. DNAとか
似ているとは?
● 見た目○ アニメ画像,Pixivのイラスト...
● セリフ● 声
○ おとなしい声○ 佳村はるか
● 世間からの評価○ 「かわいい」,「うおおおおぉ!!!??」...
● 属性○ 貧乏,原画,おさげ...
似ているとは?
● 見た目○ アニメ画像,Pixivのイラスト...
● セリフ● 声
○ おとなしい声○ 佳村はるか
● 世間からの評価○ 「かわいい」,「うおおおおぉ!!!??」...
● 属性○ 貧乏,原画,おさげ...
データの整理
● セリフと世間からの評価は,文
● 属性は,タグ
文をどう計算機で表現するか
形態素に分割し,ベクトルや集合として扱うことが多い
「ドンドン、ドーナツどーんといこう!」
↓形態素解析
「ドン_ドン_、_ドーナツ_どー_ん_と_いこう_!」
↓bag of words表記
[1,1,1,1,1,1,1,1,...]
ベクトル化したら?
内積を類似度と定義して,類似人物を算出
安原絵麻ベクトル
押水菜子ベクトル
宮森あおいベクトル
タグはどうする?
● 形態素にする必要がない
● 形態素をタグとみなしてもよい
例えば,タグを集合としJaccard係数を計算
Jaccard係数
集合対の類似度
安原集合={原画,かわいい,ドーナツ,武蔵野}宮森集合={制作,ドーナツ,武蔵野,万策尽きた}
Jaccard(安原,宮森)= |安原∩宮森| / |安原∪宮森| = 2 / 6
実験
データ
● ニコニコ大百科のキャラページをwgetで取得
● 以下の7名で検証
{安原絵麻,宮森あおい,坂木しずか,
藤堂美沙,今井みどり,井口祐未,杉江茂}
類似度計算法
● 内積を使った類似度○ bag-of-wordsの値はTF-IDF
● Jaccard係数を使った類似度○ 集合の要素は,ページに現れる単語
内積類似度結果
1. 井口 0.7749739197828607
2. 宮森 0.7746392639617066
3. 杉江 0.7551078734536215
4. 今井 0.7060488668393344
5. 藤堂 0.669264556820518
6. 坂木 0.6589109771783567
Jaccard係数結果
1. 今井 0.1940700808625337
2. 藤堂 0.16065573770491803
3. 宮森 0.15780730897009967
4. 坂木 0.1558073654390935
5. 杉江 0.14285714285714285
6. 井口 0.12682215743440234
まとめ
● 似ているをちゃんと考えよう○ 今回はだいぶ失敗したデータのとり方
● SHIROBAKO明日明後日一挙放送!!