Upload
itoyan110
View
169.979
Download
3
Embed Size (px)
Citation preview
絶対に描いてはいけないグラフ入りスライド24枚
@ito_yan
1mail2itoh3 [at] gmail.com
2014.12.06
Japan.R 2014
はじめに
•所属する組織の意見・見解ではありません
•つまらないなら睡眠学習、復習に当てましょう
•掲載にあたって、スライドの内容を一部差し替えております
2
自己紹介
•Twitter ID:@ito_yan
•Rに初めて触れてから8年目
•統計検定1級 合格(2012年)
•最近は統計から離れがち…
•サーバ管理者見習い
• JavaでWebアプリ書いたり、サーバ管理したり
• 「まずはスモールデータより始めよ」派
•スモールデータを経由せずビッグデータを薦めない
3
さて、年末ですね。
•年末の風物詩といえば、紅白歌合戦…ではなく、「絶対に笑ってはいけない○○24時」ですよね!
•企画に参加するお笑い芸人が無理やり笑わされる
•笑うとOUTとコールされ、ペナルティを課される
•データを正しく伝えたい人から見て、全員OUTと言いたくなるグラフを紹介していきます
4
3D円グラフ
• 2つの15%は同じ15%に見えますか???
5
Rで3D円グラフ
• 3D円グラフに対する考えは?という質問
•意外と円グラフが好きな人が多い模様
6
さきほどのグラフの正体
7
値(pieval)とそれに対応するラベル(pielabels)をベクトルで指定すればグラフが描ける
• plotrix::pie3Dを使えば描ける
• example関数の出力
カテゴリの多すぎる円グラフ
•アメリカの州ごとの人口のグラフ
•色が多すぎて見づらい
•一部まとめましょう
8
分割しすぎた円グラフ
•注目すべき点が分からなくなる
•全体に占める割合も書いた方がよい
9
割合を書かないドーナツグラフ
•扇形円グラフであれば、数量の読み取り精度は棒グラフと変わらないらしいが…
•中心に文字がある場合は割合を表示すべき
•右図は2014年度の
理研の予算
10
デフォルトでExcelが出すヒストグラム
•データ分析アドインを利用してヒストグラムを書く
•元はirisデータのSepal.length
•デフォルトの設定のままでは危険
11
0
5
10
15
20
25
頻度
データ区間
ヒストグラム
頻度
文字の書換が必要
(軸タイトルなども)
次の級とは?
区切り幅の妥当性は?
ヒストグラムは隙間を作らない
色の見やすさを考慮していないグラフ
•日本人男性の5%強は色盲と言われている
•暖色系だけの色だけ、明度が近い色だけのグラフは見づらいとされる
•緑色錐体が反応しないと右のように見える
12
複数カテゴリのある3D棒グラフ
•那覇の雨量(緑色)の値は見えますか?
13
3D棒グラフはどう表現するべきか?
•データが隠れないよう、2D折れ線グラフを使う
•地域ごとに点を変えることを検討する
•×、○、■などを利用する
•複数種類の線を用意することを検討する
•実線、破線を組み合わせる
14
意図的によく見せようとするグラフ(1)
•Web系R社
•そもそも主要国の選定基準は???
15
さも0に近い印象を見せている
意図的によく見せようとするグラフ(2)
•携帯キャリアS社
•せめて途中を省略したことを示しましょう
•企業のイメージカラーを使う点はGood
•電車の路線図のようにイメージしやすい
16
意図的によく見せようとするグラフ(3)
•Wアカデミーの合格実績
•実際の合格者数は11年で約2倍になっているが、縦棒の長さと印象は異なる
17
中心がずれた円グラフ
•テレビ局F社
• 50代と10~20代はほぼ同じ面積になるはずだが…
•人数ではなく割合で世代間を比較すべき
18
正確な数値が読めないグラフ
•不動産会社 L社
•縦の目盛が大雑把なので、グラフ中かグラフのそばに表を用意し数値を記載しないとダメ
19
意味のない単回帰直線
•新聞社 N
•出典 2014年10月29日
N経新聞朝刊総合1
地方創生「東京集中是正論」 の裏側
• 「市況かぶ全力2階建」に
記事が組まれた程のグラフ
•回帰直線を引くために仮定
すべきことは無視しない!
20
擬似相関のグラフ
•アイスクリームが売れると溺死者数が増える
•気温が擬似相関を作りだしている
21
注意:ダミーデータです
擬似相関のグラフの正しい解釈
•アイスが溺死者を増やしているのではない
•暑くなって冷たい水の中に入ろうとする人が増えていることが原因
22
2軸グラフ
•グラフ中のデータがどちらの軸に属している値か別表を見ないですぐ分からないグラフはダメ
•軸に異なる単位を設定できれば回避できる
23
左:人数
右:売上(億円)はコミケに近く、
左:売上(万円)、右:人数
は普通の小売
本スライド24枚のまとめ
•ソフトウェアでできることと、するべきことは別物
•今回紹介したグラフは、あくまで私の考え方なので、ご自身でも意見を持ってください
•ソフトウェアでグラフを描く場合、自由にカスタマイズできるからといって、理解しづらい可視化をしてしまわないよう注意する必要がある
• Drawing graph with software is like running a
chain saw with all the safety guards removed. –
@ito_yan
(ソフトウェアを使ってグラフを描くことは安全装置なしのチェンソーを動かすようなものだ)
24
当日掲載しなかった資料等
25
参考資料(1)
• 3D円グラフ
• http://office.microsoft.com/ja-jp/outlook-
help/HA010211848.aspx
•カテゴリの多すぎる円グラフ
• http://eagereyes.org/techniques/pie-charts
•分割しすぎた円グラフ
• http://retec1.com/glaph.html
•複数カテゴリのある3D棒グラフ
• http://www3.u-
toyama.ac.jp/kihara/lecture/iip/excel-ex3/
26
参考資料(2)
•円グラフの条件付き復権
• http://d.hatena.ne.jp/masudako/20120812/1344
750020
• 2014年度理研の予算
• http://www.riken.jp/~/media/riken/about/facts/bu
dget2014-j.jpg
•楽天モバイルの価格
• http://japanese.engadget.com/2014/10/29/1280-
mvno-lte/
27
参考資料(3)
•早稲田アカデミーの合格実績
• http://sci.tea-nifty.com/blog/2012/03/2012-
19f4.html
•正確な数値が読めないグラフ
• URLがhighlightにならないのが気になる…
• http://www.land.jp/ir/hilite.html
28
参考資料(4)
• 2軸グラフ
• http://www.hello-pc.net/howto-
excel/excel213_comgraph/
•意味のない単回帰直線
• http://matome.naver.jp/odai/2141467575952251
401
29
ダミーデータ生成コード
•アイスクリーム消費量と溺死者のグラフ
30
描いたグラフの程度について
•データサイエンティスト協会が提示したスキルレベルによると、今回のようなグラフを描くと、グラフ・チャートの使い方が不適切なので、「Data
Scientist 以前の方」に該当するそうです。
•スキルレベルに関する詳細は以下参照http://www.datascientist.or.jp/news/2014/pdf/1
210.pdf
31