26
第5回  Zansa 勉強会 データ マイニング 2012327日火曜日

20120326 zansa勉強会発表資料 (公開用) 02 04-38

Embed Size (px)

Citation preview

Page 1: 20120326 zansa勉強会発表資料 (公開用) 02 04-38

第5回 Zansa勉強会

データマイニング

2012年3月27日火曜日

Page 2: 20120326 zansa勉強会発表資料 (公開用) 02 04-38

名前           バックボーン伊藤 徹郎       経済・ファイナンスtwitter ID Age@tetsuroito 26歳

所属株式会社ALBERT データ分析部

データマイニングの理想と現実の間で悩み、2ヶ月前に金融系の会社から転職しました。データアナリスト見習いです。

2012年3月27日火曜日

Page 3: 20120326 zansa勉強会発表資料 (公開用) 02 04-38

株式会社ALBERTについて私たちは「分析力をコアとする情報最適化企業」です!

ALBERTの事業領域

CRMソリューションの開発・提供

レコメンドエンジンの開発・提供

行動ターゲティング広告システムの開発・提供

2012年3月27日火曜日

Page 4: 20120326 zansa勉強会発表資料 (公開用) 02 04-38

アジェンダ

1、なぜデータ分析が必要なのか?

2、データマイニングの理想と現実

3、分析事例紹介

2012年3月27日火曜日

Page 5: 20120326 zansa勉強会発表資料 (公開用) 02 04-38

なぜデータ分析が必要なのか?

2012年3月27日火曜日

Page 6: 20120326 zansa勉強会発表資料 (公開用) 02 04-38

なぜデータ分析が必要なのか? 

A社 B社

平均年齢 30.8歳平均年収 807万円

平均年齢 31.8歳平均年収 620万円

Q.どちらの会社で働きたい?

2012年3月27日火曜日

Page 7: 20120326 zansa勉強会発表資料 (公開用) 02 04-38

こういう分布があったらどうでしょう?

なぜデータ分析が必要なのか? 

2012年3月27日火曜日

Page 8: 20120326 zansa勉強会発表資料 (公開用) 02 04-38

平均に騙されてはいけない

2012年3月27日火曜日

Page 9: 20120326 zansa勉強会発表資料 (公開用) 02 04-38

基本統計量をしっかり確認しましょう

平均

分散

中央値

最頻値

標準偏差

尖度

歪度

範囲

最大

最小

分析対象の標本数の確認散布図やヒストグラムの確認も重要!

2012年3月27日火曜日

Page 10: 20120326 zansa勉強会発表資料 (公開用) 02 04-38

なぜデータ分析が必要なのか? 

きちんとしたビジネス上の意思決定を行うために、データの分析が必要です。

2012年3月27日火曜日

Page 11: 20120326 zansa勉強会発表資料 (公開用) 02 04-38

データ分析の心構え

1、分析する対象についての理解

2、分析手法についての理解

3、分析結果に対する的確な判断

2012年3月27日火曜日

Page 12: 20120326 zansa勉強会発表資料 (公開用) 02 04-38

分析力の高い組織とは

出典:http://www.albert2005.co.jp/blog/archives/201203/05_140501.html

2012年3月27日火曜日

Page 13: 20120326 zansa勉強会発表資料 (公開用) 02 04-38

データマイニング理想と現実

2012年3月27日火曜日

Page 14: 20120326 zansa勉強会発表資料 (公開用) 02 04-38

データマイニングの理想

購買データを用いてバスケット分析を用いたら

おむつとビールの併売傾向がわかった!

売り場を併設して、売上UP!2012年3月27日火曜日

Page 15: 20120326 zansa勉強会発表資料 (公開用) 02 04-38

データマイニングの現実

購買データを用いてバスケット分析を用いたら

おむつとビールの併売傾向がわかった!

売り場を併設して、売上UP!

そんなに簡単にパターン発見などできません!

2012年3月27日火曜日

Page 16: 20120326 zansa勉強会発表資料 (公開用) 02 04-38

データマイニングあるあるケース1コンビニの売上データを分析

思考錯誤の結果天気データを用いて重回帰分析を行ったところ

雨の日に傘が売れていると判明した!

普通に考えて当たり前ですね。

2012年3月27日火曜日

Page 17: 20120326 zansa勉強会発表資料 (公開用) 02 04-38

データマイニングあるあるケース2家電量販店の売上データと顧客データを分析

ABC分析で顧客を分類し、アソシエーション分析を行った結果、10代、20代→非優良顧客30代以上→優良顧客となることがわかった!

なんとなく予想つきますよね。2012年3月27日火曜日

Page 18: 20120326 zansa勉強会発表資料 (公開用) 02 04-38

データマイニングの現実

データマイニングは試行錯誤の連続です。

2012年3月27日火曜日

Page 19: 20120326 zansa勉強会発表資料 (公開用) 02 04-38

実務で重要なデータクレンジング

そのまま統計解析できるデータは皆無

データの前処理の有無が結果に大きく左右

2012年3月27日火曜日

Page 20: 20120326 zansa勉強会発表資料 (公開用) 02 04-38

データクレンジングの5ステップ

1、データ形式を統一する

2、欠損値を補う(補完する)

3、データの値を揃える(正規化)

4、異常値を処理する

5、特徴選択(変数の数を決定する)

2012年3月27日火曜日

Page 21: 20120326 zansa勉強会発表資料 (公開用) 02 04-38

分析事例紹介

2012年3月27日火曜日

Page 22: 20120326 zansa勉強会発表資料 (公開用) 02 04-38

顧客の分類手法 顧客のセグメント

顧客を10グループに等分(売上額の順位など)

顧客を3つの指標ごとに数グループに分ける

類似した顧客を数グループに分ける

顧客ごとの売上合計R:最新購入日

F:購入頻度M:購入合計額

各クラスタリング手法によって様々

現状の把握が大まかにわかる 小売業では効果的な手法自由度が高い反面分類の意味づけなどを行う必要がある

デシル分析 RFM分析 クラスター分析

難易度低 高2012年3月27日火曜日

Page 23: 20120326 zansa勉強会発表資料 (公開用) 02 04-38

K-means法

1.各点にランダムにクラスタを割り当てる2.クラスタの重心を計算する。3.点のクラスタを、一番近い重心のクラスタに変更する4.変化がなければ終了。変化がある限りは 2に戻る。

2012年3月27日火曜日

Page 24: 20120326 zansa勉強会発表資料 (公開用) 02 04-38

クラスタリング事例

出典:http://www.slideshare.net/hamadakoichi/mahout-canopy-clustering-tokyowebmining-9

2012年3月27日火曜日

Page 25: 20120326 zansa勉強会発表資料 (公開用) 02 04-38

クラスタリング事例

出典:http://www.slideshare.net/hamadakoichi/mahout-canopy-clustering-tokyowebmining-9

2012年3月27日火曜日

Page 26: 20120326 zansa勉強会発表資料 (公開用) 02 04-38

分析事例紹介(会場のみ)

2012年3月27日火曜日