27
ニコニコデータ分析環境 芝尾幸一郎 @shibacow

ニコニコ動画データセット分析環境作ってみたその後

Embed Size (px)

Citation preview

ニコニコデータ分析環境芝尾幸一郎 @shibacow

自己紹介芝尾幸一郎@shibacowゲーム会社でデータ分析しています

こんなことをしてますニコニコ動画のランキングサイト作ってますhttp://nico-ran.jp/

こんなのを書きましたCGMは儲からない

VOCALO CRITIQUEvol 62012/10

こんなことを書きました88888の多い動画は!? ニコニコ動画のデータを分析してみよう

ななか+INSIDEvol 32013/08

こんなことをやりました世界のYoutube

ニコニコ学会データ分析研究会発表(2013/01,2013/07)

こんなことをやりましたニコニコ動画データ分析ワークショップ

@Cygames 2013/10

ニコニコ動画データ分析環境

ニコニコ動画データ公開ニコニコ動画データ公開2013/05動画 800万タグ 4000万コメント24億適度に巨大で、面白いデータ

問題点

投げっぱ

初心者困惑好きに分析しろと言ったが

どうやって?

環境構築S3データ整形 HadoopFS

Hive取り込み

Jsonデータ取り出し

データ分析

初心者には荷が重い

閃いた皆がやりたいのは分析環境「構築」ではな

く「分析」そのもの

Webで

データ解析環境(Web)データ解析をWebで手軽に

http://nicodata.info/

(土日だけ開けてます)

内部構造

Shib by tagomoris

Hive

Hadoop(AmazonEMR)

Amazon EC2

Web

Nodejs

やってみた

88888の発生8888はいつくらいから使われ始めたか?88888を含むコメントを抽出し、コメント投稿月で集約後カウントせよ。

SELECT substr(from_unixtime(`date`),1,7) as ymd,count(*) FROM nicodata.comment_data_sampling100 WHERE `comment_string` LIKE "%88888888%" GROUP BY substr(from_unixtime(`date`),1,7)

88888の流行

8888カテゴリごとの伝播888888は、2011年以降使われるようになった。カテゴリ単位ではどうか?

select substr(from_unixtime(cdate),1,7),cat,count(*) from comment_density_with_cat where comment_string like "%8888888%" group by substr(from_unixtime(cdate),1,7),cat;

エンターテイメント

ゲーム

歌ってみた

ボカロ

8888カテゴリ伝播最初はエンタメから後盛り上がらず。2011年に再燃ゲーム、歌ってみた、ボカロの順歌ってみた、踊ってみた等、やって見たに拍手。意外と政治に、888が多い(東方、アニメより上)アニメ、東方にあまり888はつかない。8888はニコ動の文化として定着若者言葉の伝播

作ってみて分かった事

作ってみて分かった事

SQLの共有は便利

ほかの人のSQLを参考にする

再度土日立ち上げてます。http://nicodata.info/お金が掛かるので、若干CPUのグレードを落としました。

終わりに

お手伝いさん募集。@shibacowまで