75
173万ツイートを調査して分かった Twitterの利用動向 @teapipin 2012.08.01 Twitter 勉強会 #twtr_hack

ツイッター調査:約173万ツイートを調査して分かったTwitterの利用動向 #twtr_hack

  • Upload
    teapipin

  • View
    381.584

  • Download
    0

Embed Size (px)

DESCRIPTION

2012年8月1日のTwitter勉強会の発表スライドです。 http://www.zusaar.com/event/331056 スライドの最後にツイッターでの質問( #twtr_hack #q)と回答、時間の都合上発表できなかった内容を追加しました。 発表の録画ビデオ http://www.youtube.com/watch?v=v94k3bjfemM ブログ(creativi.tea) http://teapipin.blog10.fc2.com/blog-entry-298.html 当日のブログ記事 「8月1日(水)のTwitter勉強会で発表してきました! by Twitter4J 番外編」 http://teapipin.blog10.fc2.com/blog-entry-316.html

Citation preview

Page 1: ツイッター調査:約173万ツイートを調査して分かったTwitterの利用動向 #twtr_hack

約173万ツイートを調査して分かった Twitterの利用動向

@teapipin

2012.08.01

Twitter 勉強会 #twtr_hack

Page 2: ツイッター調査:約173万ツイートを調査して分かったTwitterの利用動向 #twtr_hack

自己紹介

• HN :てぃー

• ID:@teapipin

• 本名:Shigeo Okada

• ブログ:creativi.tea (クリエイティビティ)

• 趣味でアプリ開発

Page 3: ツイッター調査:約173万ツイートを調査して分かったTwitterの利用動向 #twtr_hack

自己紹介

• HN :てぃー

• ID:@teapipin

• 本名:Shigeo Okada

• ブログ:creativi.tea (クリエイティビティ)

• 趣味でアプリ開発

Page 5: ツイッター調査:約173万ツイートを調査して分かったTwitterの利用動向 #twtr_hack

• iPhoneアプリ

• Macアプリ (Vectorにて)

年齢計算★

学歴欄作成 (公開停止中)

e-スペル (暗記用アプリ)

Interval Timer EX (インターバルタイマーEX)

デジカメ撮影日を 一括変更 for Mac

デジカメ変更日を撮影日に 一括変更 for Mac

Page 6: ツイッター調査:約173万ツイートを調査して分かったTwitterの利用動向 #twtr_hack

自己紹介

• 学生時代:コンピュータによる遺伝子解析

–使用言語:Perl

• PG/SE時代:集計システムの開発

–使用言語:Visual Basic、VBA

• 現在:経済系の大学

Page 7: ツイッター調査:約173万ツイートを調査して分かったTwitterの利用動向 #twtr_hack

今日のテーマ

• Twitterの利用動向を知るために 約173万ツイートを調査したので報告

• ブログで13の記事に分けて紹介したものを補足 – ツイート数、はてブ数、いいね数、検索数が多かった記事の内容をピックアップ

– ブログでは省略した説明も

– ブログに未掲載の情報も(後日ブログに追記予定)

• クライアントの開発に活用

Page 8: ツイッター調査:約173万ツイートを調査して分かったTwitterの利用動向 #twtr_hack

事の発端

• Twitterのアプリやサービスを作ってみたいなぁ

• 特に位置情報を使った情報の広がりをテーマにしてみたいなぁ

じゃあ、

– どんなTwitterクライアントが人気あるんだろう?

– 位置情報からどの地域のツイートが多いんだろう?

など全体を調査したものを検索して探してみたら・・・

Page 9: ツイッター調査:約173万ツイートを調査して分かったTwitterの利用動向 #twtr_hack

ない!?

Page 10: ツイッター調査:約173万ツイートを調査して分かったTwitterの利用動向 #twtr_hack

ちょっとはあったけど、

いい情報がない!

Page 11: ツイッター調査:約173万ツイートを調査して分かったTwitterの利用動向 #twtr_hack

あったのは、 • 海外の調査

– 日本の動向とは違うはず

• ユーザへのアンケート集計 – 偏りあり。無意識で行っていることは分からない

• 指定ユーザの統計(ウェブサービス) – 全体の動向が分からない

• 古いデータ(~2010年頃) – 今の動向とは違うはず

• サンプル数が少ない – 一般化できない

• 細かく分類されていない – 調べたい組み合わせがなかったりする

Page 13: ツイッター調査:約173万ツイートを調査して分かったTwitterの利用動向 #twtr_hack

ツイートの取得について

Page 14: ツイッター調査:約173万ツイートを調査して分かったTwitterの利用動向 #twtr_hack

ツイートの取得方法

• Twitter4JでStreaming APIのsampleを使用 – 公開ツイートのうち約1%データが取得できる – 注意:複数接続しても同じデータしか取得できない

• 次の情報を取得 – タイムゾーン :getTimeZone() – 位置情報 :getGeoLocation() – 日時 :getCreatedAt() – クライアント :getSource() – ユーザID :getScreenName() – ツイート :getText() – 公式リツイートか否か :isRetweet()

Page 15: ツイッター調査:約173万ツイートを調査して分かったTwitterの利用動向 #twtr_hack

日本語のみのツイートを選別

• タイムゾーンからでは判断できない – nullや(なぜか)Hawaii、 Irkutsk(イルクーツク:ロシア領)が多い

• getLang(言語設定の取得)でも判断できない – 例) ”en”でも日本語のツイート、”jp”でも英語のツイートあり

• ツイートが日本語かで判断した – 1文字ごとにCharacter.UnicodeBlockで判定 – 詳細は http://teapipin.blog10.fc2.com/blog-entry-281.html

– 実際はこれでも中国語やアラビア語?などがあった

– 情報処理学会などの論文では「ひらがな・カタカナ」を含むもののみを取得していることが多い。しかしこれでは記号のみ、顔文字のみが取得できない

– 結局最後は手作業で判断(約2万ツイート除去)

Page 16: ツイッター調査:約173万ツイートを調査して分かったTwitterの利用動向 #twtr_hack

重複データを除去

• なぜか全く同じデータが一部含まれていた

• 理由は不明だが除去

Page 17: ツイッター調査:約173万ツイートを調査して分かったTwitterの利用動向 #twtr_hack

取得データ

• 期間: 2012/05/17(木)0:00 ~ 20(日)23:59 の4日間

• ツイート数: 172万5212 ツイート(日本語のみ)

• ユーザ数: 92万6150 ユーザ

Page 18: ツイッター調査:約173万ツイートを調査して分かったTwitterの利用動向 #twtr_hack
Page 19: ツイッター調査:約173万ツイートを調査して分かったTwitterの利用動向 #twtr_hack
Page 20: ツイッター調査:約173万ツイートを調査して分かったTwitterの利用動向 #twtr_hack

ビッグイベント

• 21(月)金環日食

• 22(火)東京スカイツリー開業

• ビッグイベントでは通常とは傾向が異なるため除外

• 月~水曜の傾向は木曜で代替できると仮定

Page 21: ツイッター調査:約173万ツイートを調査して分かったTwitterの利用動向 #twtr_hack

紹介する調査結果

• Twitterクライアント(アプリ、サービス)

• 曜日別・時間帯別

• ツイートの種類別

• 機器別

• 位置情報

• 他はブログに

Page 22: ツイッター調査:約173万ツイートを調査して分かったTwitterの利用動向 #twtr_hack

紹介する調査結果

• Twitterクライアント(アプリ、サービス)

• 曜日別・時間帯別

• ツイートの種類別

• 機器別

• 位置情報

Page 23: ツイッター調査:約173万ツイートを調査して分かったTwitterの利用動向 #twtr_hack

Twitterクライアント(アプリ、サービス) 順位 利用アプリ名 個数 割合(%) 順位 利用アプリ名 個数 割合(%)

1位 Twitter for iPhone 251,414 14.57% 31位 TweetCaster for Android 6,062 0.35%

2位 Twitter for Android 209,290 12.13% 32位 HootSuite 5,930 0.34%

3位 web 180,538 10.46% 33位 ShootingStar 5,771 0.33%

4位 Keitai Web 131,918 7.65% 34位 OpenTween 5,516 0.32%

5位 twittbot.net 100,952 5.85% 35位 Tweet ATOK 5,341 0.31%

6位 twicca 93,542 5.42% 36位 ついっぷる Pro for iPhone 5,005 0.29%

7位 ついっぷる/twipple 63,854 3.70% 37位 TwitBird 4,962 0.29%

8位 Janetter 47,559 2.76% 38位 ツイ助。 4,772 0.28%

9位 SOICHA 43,759 2.54% 39位 Twitter for iPad 4,749 0.28%

10位 Echofon 39,672 2.30% 40位 mixi ボイス 4,093 0.24%

11位 Tween 33,583 1.95% 41位 Twil2 3,860 0.22%

12位 ついっぷる for iPhone 24,391 1.41% 42位 Tweetlogix 3,630 0.21%

13位 TweetDeck 22,597 1.31% 43位 Seesmic 3,626 0.21%

14位 jigtwi 21,987 1.27% 44位 Instagram 3,622 0.21%

15位 モバツイ / www.movatwi.jp 18,030 1.05% 45位 ニコニコ動画 3,565 0.21%

16位 Twipple for Android 17,759 1.03% 46位 BotMaker 3,503 0.20%

17位 ついっぷる for iPhone 16,749 0.97% 47位 jigtwi for Android 3,425 0.20%

18位 Mobile Web 16,175 0.94% 48位 Krile2 3,379 0.20%

19位 Tweet Button 16,001 0.93% 49位 Twitter for BlackBerry 3,232 0.19%

20位 Tweetbot for iOS 15,535 0.90% 50位 foursquare 2,951 0.17%

21位 Saezuri 12,412 0.72% 51位 TwitCasting 2,776 0.16%

22位 モバツイ / www.movatwi.jp .12,360 0.72% 52位 Teewee 2,522 0.15%

23位 yubitter 11,590 0.67% 53位 Ustream.TV 2,337 0.14%

24位 Twipple for Android 10,154 0.59% 54位 Twitter for Mac 2,323 0.13%

25位 YoruFukurou 10,056 0.58% 55位 TweetList Pro 2,300 0.13%

26位 ツイタマ 9,419 0.55% 56位 twitbeam[ツイットビーム] 2,240 0.13%

27位 TweetList! 8,920 0.52% 57位 Twipple Pro for Android 2,164 0.13%

28位 EasyBotter 8,893 0.52% 58位 PlayStation Vita 2,030 0.12%

29位 twitterfeed 6,590 0.38% 59位 Google 1,983 0.11%

30位 dlvr.it 6,283 0.36%

• すべてで 1万5108種類

• 上位4位は公式

• それぞれ機能が異なる

• JavaのものはTwitter4Jを使っているものが多い

Page 24: ツイッター調査:約173万ツイートを調査して分かったTwitterの利用動向 #twtr_hack

0%

10%

20%

30%

40%

50%

60%

70%

80%

90%

100%

0

50,000

100,000

150,000

200,000

250,000

300,000

1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 33 35 37 39 41 43 45 47 49 51 53 55 57 59

累積(%)

個数

順位

Twitterクライアント別のツイート数

個数

累積(%)

Page 25: ツイッター調査:約173万ツイートを調査して分かったTwitterの利用動向 #twtr_hack

0%

10%

20%

30%

40%

50%

60%

70%

80%

90%

100%

0

50,000

100,000

150,000

200,000

250,000

300,000

1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 33 35 37 39 41 43 45 47 49 51 53 55 57 59

累積(%)

個数

順位

Twitterクライアント別のツイート数

個数

累積(%)

• 上位5位で約50%を占める寡占市場 • 60位以下が約10%を1万5049種類が占める長いロングテール

Page 26: ツイッター調査:約173万ツイートを調査して分かったTwitterの利用動向 #twtr_hack

ここまでのまとめ

• 上位1~4位は公式が占めている

• 上位5位で約50%を占める寡占市場

• 長いロングテール(文字どおりの意味での)

• ユーザは用途別に複数のTwitterクライアントを使い分けている

• 新規参入は容易で、ユーザのニーズを捉えれば必ず使ってもらえる

Page 27: ツイッター調査:約173万ツイートを調査して分かったTwitterの利用動向 #twtr_hack

紹介する調査結果

• Twitterクライアント(アプリ、サービス)

• 曜日別・時間帯別

• ツイートの種類別

• 機器別

• 位置情報

Page 28: ツイッター調査:約173万ツイートを調査して分かったTwitterの利用動向 #twtr_hack

• 平日よりも週末の方が多く、特に日曜は多い

Page 29: ツイッター調査:約173万ツイートを調査して分かったTwitterの利用動向 #twtr_hack

海外との比較

出典:Sysomos Inc. http://www.sysomos.com/insidetwitter/

月 火 水 木 金 土 日

• 2009年 全世界の2000万ツイート

Page 30: ツイッター調査:約173万ツイートを調査して分かったTwitterの利用動向 #twtr_hack

• 8、12時台にピーク、夕方以降は増加傾向 • 夜は金曜の方が少ない

Page 31: ツイッター調査:約173万ツイートを調査して分かったTwitterの利用動向 #twtr_hack

• 朝からゆるやかに増加、19時台以降増加、大きなピークなし • 日曜は他の曜日よりも深夜も多い

Page 32: ツイッター調査:約173万ツイートを調査して分かったTwitterの利用動向 #twtr_hack

海外との比較

出典:Sysomos Inc. http://www.sysomos.com/insidetwitter/

Page 33: ツイッター調査:約173万ツイートを調査して分かったTwitterの利用動向 #twtr_hack

ここまでのまとめ

• 海外と日本とは異なる傾向を持つ

• 平均的な日本人のライフスタイルの 空いた時間と密接に関係している

Page 34: ツイッター調査:約173万ツイートを調査して分かったTwitterの利用動向 #twtr_hack

紹介する調査結果

• Twitterクライアント(アプリ、サービス)

• 曜日別・時間帯別

• ツイートの種類別

• 機器別

• 位置情報

Page 35: ツイッター調査:約173万ツイートを調査して分かったTwitterの利用動向 #twtr_hack

ツイートの種類別

• リツイート(公式RT、非公式RT)

• リプライ・メンション(宛先(@~)を含むもの)

• ハッシュシュタグ・リンク入りつぶやき (RT、リプライ・メンションを除く)

• 純粋なつぶやき

Page 36: ツイッター調査:約173万ツイートを調査して分かったTwitterの利用動向 #twtr_hack

ツイートの種類別 公式RT 7.92%

非公式RT 2.30%

リプライ・メン

ション 37.00%

純粋なつぶ

やき 35.77%

ハッシュタグ・

リンク入りつ

ぶやき 17.01%

リプライ・メンションは宛先(@~)を含むもの ハッシュタグ・リンク入りはRT、リプライ・メンションを除く

• リツイートは公式・非公式合わせて10.23%

Page 37: ツイッター調査:約173万ツイートを調査して分かったTwitterの利用動向 #twtr_hack

ツイートの種類別 公式RT 7.92%

非公式RT 2.30%

リプライ・メン

ション 37.00%

純粋なつぶ

やき 35.77%

ハッシュタグ・

リンク入りつ

ぶやき 17.01%

リプライ・メンションは宛先(@~)を含むもの ハッシュタグ・リンク入りはRT、リプライ・メンションを除く

• 純粋なつぶやき以外はコミュニケーションとしてのやりとりであり、64.23%を占める

Page 38: ツイッター調査:約173万ツイートを調査して分かったTwitterの利用動向 #twtr_hack

ここまでのまとめ

• ツイッターは人とのコミュニケーションのツール

• ツイッター本来の目的である純粋なつぶやきは35.77%

Page 39: ツイッター調査:約173万ツイートを調査して分かったTwitterの利用動向 #twtr_hack

紹介する調査結果

• Twitterクライアント(アプリ、サービス)

• 曜日別・時間帯別

• ツイートの種類別

• 機器別

• 位置情報

Page 40: ツイッター調査:約173万ツイートを調査して分かったTwitterの利用動向 #twtr_hack

機器別

• Twitterクライアントでの上位59位(90.98%)を 5つに分類

携帯, 61.9%

PC, 23.9%

bot, 8.0%

PC/携帯, 4.0%

WEB, 2.3%

Page 41: ツイッター調査:約173万ツイートを調査して分かったTwitterの利用動向 #twtr_hack

• 木~土曜は似た傾向 • 携帯機器、PCは変動。botはどの時間帯もほぼ一定数 • 朝と昼は携帯機器が重要。夜はPCも

Page 42: ツイッター調査:約173万ツイートを調査して分かったTwitterの利用動向 #twtr_hack

• 他の曜日とは異なり、朝にPCが見られる • 他は同様の傾向

Page 43: ツイッター調査:約173万ツイートを調査して分かったTwitterの利用動向 #twtr_hack

紹介する調査結果

• Twitterクライアント(アプリ、サービス)

• 曜日別・時間帯別

• ツイートの種類別

• 機器別

• 位置情報

Page 44: ツイッター調査:約173万ツイートを調査して分かったTwitterの利用動向 #twtr_hack

位置情報(Geo Location)

• 全体でたったの0.18%しか付与されていない

• 日本のものは3047ツイート、外国のものは144ツイート

• 次のスライドからはすべて日本のもののみの結果

※位置情報の付いたもののみ (地図へのリンクのみは除く)

位置情報付き うち日本 うち外国 位置情報なし

木 0.16% 0.15% 0.01% 99.84%

金 0.16% 0.16% 0.01% 99.84%

土 0.22% 0.21% 0.01% 99.78%

日 0.19% 0.18% 0.01% 99.81%

計 0.18% 0.18% 0.01% 99.82%

Page 45: ツイッター調査:約173万ツイートを調査して分かったTwitterの利用動向 #twtr_hack

位置情報付きTwitterクライアント

• すべてで140種類

• 位置情報サービスが約47%以上

• 2、3位は公式

• 店舗情報、天気などその地点の情報を知らせるものもある

順位 全体 名称 個数 割合(%)

1位 50位 foursquare 1086 39.49%

2位 1位 Twitter for iPhone 651 23.67%

3位 2位 Twitter for Android 359 13.05%

4位 44位 Instagram 171 6.22%

5位 97位 ロケタッチ(loctouch) 163 5.93%

6位 18位 Mobile Web 54 1.96%

7位 173位 Path 2.0 33 1.20%

8位 641位 RADIO WAVE API 26 0.95%

9位 768位 FU-TOWN 25 0.91%

10位 430位 今ココなう!iPhone 23 0.84%

11位 6位 twicca 20 0.73%

11位 1002位 AgenaStar 20 0.73%

13位 1062位 FutownNewsVer5 19 0.69%

13位 314位 今ココなう!Android 19 0.69%

15位 458位 モバイルフォースクエア 16 0.58%

16位 1218位 SyougaSuite 15 0.55%

16位 1371位 FutownEvent 15 0.55%

18位 86位 Photos on iOS 12 0.44%

18位 1736位 cpSTYLE(クーポンスタイル) 12 0.44%

20位 31位 TweetCaster for Android 11 0.40%

Page 46: ツイッター調査:約173万ツイートを調査して分かったTwitterの利用動向 #twtr_hack

0

10

20

30

40

50

60

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23

時間帯

木曜 位置情報付きTwitterクライアント別

その他

ロケタッチ

(loctouch)

Instagram

Twitter for Android

Twitter for iPhone

foursquare

• どの曜日も似た傾向 • 朝~夕方はfoursquareの増減が全体に影響 • 夜は公式とその他が影響

Page 47: ツイッター調査:約173万ツイートを調査して分かったTwitterの利用動向 #twtr_hack

都道府県別

• 大都市やその隣接地域で多い

• 人口と関係が ありそう

Page 48: ツイッター調査:約173万ツイートを調査して分かったTwitterの利用動向 #twtr_hack

• 正の相関

人口との相関

Page 49: ツイッター調査:約173万ツイートを調査して分かったTwitterの利用動向 #twtr_hack

ここまでのまとめ

• 人口が多い地域ほど、 位置情報の付いたツイート数も多い

• 人口が多いのだからツイート数が多いのは当たり前と考えてよいのか?

• それは違う!

• わざわざ位置情報を付けているのは普通のツイートとは異なる何か特別な意味があると考えるべき

• にもかかわらず、人口と相関が強いのはなぜか?

位置情報付きのツイートの内容を見る必要がある

Page 50: ツイッター調査:約173万ツイートを調査して分かったTwitterの利用動向 #twtr_hack

位置情報とツイート内容の関係

• 位置情報付きツイートの内容からツイート自体が位置を意識したものかで分類

• (例)

位置情報 ツイート 分類

レストラン おいしい → 飲食店

レストラン あらら → 関係なし

レストラン (店舗情報) → 地点

Page 51: ツイッター調査:約173万ツイートを調査して分かったTwitterの利用動向 #twtr_hack

位置情報とツイート内容の関係 順位 場所 個数 割合

1位 関係なし 1021 33.51%

2位 駅 379 12.44%

3位 飲食店 347 11.39%

4位 商業施設 344 11.29%

5位 地点 212 6.96%

6位 道路 155 5.09%

7位 イベント会場 69 2.26%

8位 コンビニ 53 1.74%

9位 学校 52 1.71%

10位 スポーツ施設 45 1.48%

11位 自宅 42 1.38%

12位 公園 40 1.31%

13位 オフィス 36 1.18%

14位 空港 24 0.79%

15位 テーマパーク 23 0.75%

16位 宿泊施設 20 0.66%

17位 寺社 19 0.62%

17位 公共施設 19 0.62%

19位 バス停 16 0.53%

20位 博物館・美術館 15 0.49%

• 関係なしが33.51%を占める

• 駅、飲食店、商業施設など日常使う場所からのツイートが多い

• イベント会場、テーマパークなどイベント、観光地からもある

Page 52: ツイッター調査:約173万ツイートを調査して分かったTwitterの利用動向 #twtr_hack

0

50

100

150

200

250

関係なし

駅 飲食店

商業施設

地点

道路

イベント会場

コンビニ

学校

スポーツ施設

自宅

公園

オフィス

空港

テーマパーク

宿泊施設

寺社

公共施設

バス停

博物館・美術館

都道府県(上位)別 位置情報とツイート内容の関係

東京都

神奈川県

大阪府

愛知県

埼玉県

千葉県

Page 53: ツイッター調査:約173万ツイートを調査して分かったTwitterの利用動向 #twtr_hack

• 木曜・金曜は似た傾向 • 上位のものが大部分を占める • 朝は駅、昼は飲食店、夜は関係なし、深夜は地点が多い

0

10

20

30

40

50

60

70

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23

時間帯

木曜 位置情報とツイート内容の関係

その他

その他イベント関係

スポーツ施設

学校

コンビニ

イベント会場

道路

地点

商業施設

飲食店

関係なし

Page 54: ツイッター調査:約173万ツイートを調査して分かったTwitterの利用動向 #twtr_hack

0

10

20

30

40

50

60

70

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23

時間帯

日曜 位置情報とツイート内容の関係

その他

その他イベント関係

スポーツ施設

学校

コンビニ

イベント会場

道路

地点

商業施設

飲食店

関係なし

• 土曜・日曜は似た傾向 • 駅は9時以降増加、商業施設・道路が多い • イベント関係は午前に多い

Page 55: ツイッター調査:約173万ツイートを調査して分かったTwitterの利用動向 #twtr_hack

ここまでのまとめ

• 位置情報と関係のない内容のツイートが1位 – ユーザはツイートに位置情報が付いていることに気付いてない?

– 特別な時に位置情報を付けるのではなく、ふだんから付けている

• 駅 、飲食店、商業施設など日常使う場所からのツイートが多く、ライフログ・ポイント取得としての性格が強い

• 位置情報付きでも人口の多い都市圏のツイートが多くなる

• イベントや観光地からのツイートはあるが、少ないため埋もれている

Page 56: ツイッター調査:約173万ツイートを調査して分かったTwitterの利用動向 #twtr_hack

参考

書籍 • 「Twitter API ポケットリファレンス」 • 「Rによるデータサイエンス - データ解析の基礎から最新手法まで」

フリーソフト、サービス • Twitter4J • Pleiades All in One (Eclipse + Java) • R (統計ソフト) • MANDARA (地図ソフト) • usoinfo reverse geocoder (緯度経度→住所変換) • Google マップ

Page 57: ツイッター調査:約173万ツイートを調査して分かったTwitterの利用動向 #twtr_hack

(質問と回答) #twtr_hack #qに対して

• sampleでデータとり続けて、1日でだいたいどれくらいのデータ量(ディスクに保存して何MBとか)になるんですか? – TSV(タブ区切り)形式で、木・金曜:約74MB、土曜:約76MB、日曜:約84MB

• botとそうでないのは "from" を見て区別? • botの区別は確かにどうやるのでしょう

– 取得データのSource(クライアント)から判断しました。 "from"と同義です

• 場所についてはツイート内容から判断?実際の場所にどんなものがあるか(地図とか)は調べてない? – GeoLocationの緯度経度から地図を見て実際に何があるかを調べました

Page 58: ツイッター調査:約173万ツイートを調査して分かったTwitterの利用動向 #twtr_hack

(付録)

• 以下のスライドは当初の案では発表予定だったけど時間の都合上使わなかったもの

Page 59: ツイッター調査:約173万ツイートを調査して分かったTwitterの利用動向 #twtr_hack

Twitter APIの仕様上の限界

• 閲覧数(ROM数)は分からない

• リンク先に移動したかどうか分からない

• sampleで取得できる約1%の意味が曖昧

など

Page 60: ツイッター調査:約173万ツイートを調査して分かったTwitterの利用動向 #twtr_hack

海外との比較 • 2009年 全世界の2000万ツイート

出典:Sysomos Inc. http://www.sysomos.com/insidetwitter/

当時は、

• アメリカ 62.14%

• 日本 11位(0.71%)

• 事実上、欧米の調査

Page 61: ツイッター調査:約173万ツイートを調査して分かったTwitterの利用動向 #twtr_hack

62.45%

62.22%

61.60%

61.29%

23.04%

23.07%

24.05%

25.10%

3.97%

3.99%

3.99%

3.92%

2.29%

2.27%

2.25%

2.26%

8.25%

8.45%

8.12%

7.43%

0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100%

機器別・曜日別のツイート数の割合(%)

携帯

PC

PC/携帯

WEB

bot

• どの曜日もほぼ同じ割合

Page 62: ツイッター調査:約173万ツイートを調査して分かったTwitterの利用動向 #twtr_hack

寄与度(%)とは

• GDP(国内総生産)などの経済分野での時系列分析でよく使われる手法

• あるデータ全体の変化に対してその構成要素である個々のデータの変化がどのように貢献しているかを示す指標

• HPやブログのアクセス解析でも有効な手法

• ここでは基準を木曜に <日曜の携帯機器の場合>

(日曜の携帯機器-木曜の携帯機器)

木曜の計 × 100

Page 63: ツイッター調査:約173万ツイートを調査して分かったTwitterの利用動向 #twtr_hack

• ツイート全体の増減には携帯機器が大きく関係している

Page 64: ツイッター調査:約173万ツイートを調査して分かったTwitterの利用動向 #twtr_hack

紹介する調査結果

• Twitterクライアント(アプリ、サービス)

• 曜日別・時間帯別

• ツイートの種類別

• 機器別

• 文字数

• 位置情報

Page 65: ツイッター調査:約173万ツイートを調査して分かったTwitterの利用動向 #twtr_hack

多い文字(本文のみ)

• 挨拶と感情が大半を占める • 状況を表すものも多い

順位 ツイート 個数 順位 ツイート 個数

1位 おはようございます 289 16位 おはようございます! 85

2位 おはよー 261 17位 おはよ 83

3位 ただいまー 251 18位 離脱 77

4位 おはよう 214 19位 むくり 76

5位 ただいま 189 20位 おなかすいた 75

6位 おやすみ 176 21位 ほかいまー 73

7位 おやすみなさい 174 22位 あー 69

8位 眠い 161 23位 (´へωへ`*) 68

9位 ねむい 152 24位 ただいま! 61

10位 おはようございます。 147 24位 ただいまー! 61

11位 あ 129 26位 !? 60

12位 よるほー 125 27位 はい 59

13位 帰宅 116 28位 寝る 56

14位 おやすみー 90 29位 疲れた 54

15位 ねむ 87 30位 おやすみなさい。 53

Page 66: ツイッター調査:約173万ツイートを調査して分かったTwitterの利用動向 #twtr_hack
Page 67: ツイッター調査:約173万ツイートを調査して分かったTwitterの利用動向 #twtr_hack

• 平均43.5文字 • 140文字が最も多い (うち、公式RT:80.0%、非公式RT:5.0%) • 20~57文字が50%を占める

25% 25% 50%

Page 68: ツイッター調査:約173万ツイートを調査して分かったTwitterの利用動向 #twtr_hack

• 平均43.5文字 • 140文字が最も多い (うち、公式RT:80.0%、非公式RT:5.0%) • 20~57文字が50%を占める

25% 25% 50%

Page 69: ツイッター調査:約173万ツイートを調査して分かったTwitterの利用動向 #twtr_hack

0 10 20 30 40 50 60 70 80 90 100 110 120 130 140

twitterfeed Twitter for BlackBerry

ツイ助。 Tweet Button

Google dlvr.it

ニコニコ動画 Ustream.TV

HootSuite foursquare BotMaker

TwitCasting EasyBotter

Twitter for Mac Twitter for iPad

web Twipple for Android

ついっぷる Pro for iPhone ついっぷる/twipple

TweetCaster for Android ついっぷる for iPhone

TwitBird Twipple for Android

Seesmic Twipple Pro for Android ついっぷる for iPhone

twittbot.net Instagram

Mobile Web モバツイ / www.movatwi.jp

Twitterクライアント別の平均文字数(上位30位)

Page 70: ツイッター調査:約173万ツイートを調査して分かったTwitterの利用動向 #twtr_hack

25% 25% 50%

中央値(平均値ではない)

箱ひげ図とは

外れ値(異常値)

Page 71: ツイッター調査:約173万ツイートを調査して分かったTwitterの利用動向 #twtr_hack

箱ひげ図とは

ヒストグラムと対応

中央値(平均値ではない) 外れ値(異常値)

25% 25% 50%

Page 72: ツイッター調査:約173万ツイートを調査して分かったTwitterの利用動向 #twtr_hack

文字数

Page 73: ツイッター調査:約173万ツイートを調査して分かったTwitterの利用動向 #twtr_hack

ここまでのまとめ

• PC、携帯機器からとも20~60文字ほどが最も多く50%を占める

• PC 、携帯機器からで文字数に差は見られない

• 昔のように「ケータイのメールは短く、詳細はPCで」ということはない

• botからは定型文が多いため、文字数の幅は少ない

Page 74: ツイッター調査:約173万ツイートを調査して分かったTwitterの利用動向 #twtr_hack

木曜 位置情報付きツイート

• 木曜・金曜では朝から夕方までは全体の増減に伴って増減、夜からは全体の増減に伴わない

位置情報

全体

Page 75: ツイッター調査:約173万ツイートを調査して分かったTwitterの利用動向 #twtr_hack

日曜 位置情報付きツイート

• 土曜・日曜では朝から昼くらいまでは全体の増減に伴って増減、他の時間帯ではそうでもない

位置情報

全体