Upload
-
View
736
Download
1
Embed Size (px)
Citation preview
WEB解析と意思決定 ―統計的有意差の観点から―
株式会社アパマンショップネットワーク
太田 博三
2013/03/10
Agenda
1. 自己紹介
2.WEB解析への問題意識
3.WEB解析と統計的有意差の適用
-Teassly社のStatistical Calculatorを用いて
4.参考・引用文献一覧
5.さいごに
2
第7回 データマイニング+WEB 勉強会@東京
1.自己紹介 Hiromitsu OTA (1/3)
1.長年、文理融合を目指して、環境問題(廃棄物問題)を研究
・ 廃棄物の最終処分場の跡地利用に関する研究
・ 産業廃棄物の不法投棄の実証分析
・ 用いた手法:多変量解析(OD表を用いた重回帰分析)、
ゲーム理論(Game theory)、
契約理論(Contract theory)、
・場所: マレーシア: Kuala Lumper(KL)、Penang州、
タイ: Bangkok, Cooperated with Asian Institute of
Technology(AIT)
・ 用いたデータ:OD表(Origin-Destination Table)、
フィールド調査データ(面接調査、紙面調査)
3
1.自己紹介 Hiromitsu OTA (2/3)
2.統計解析は文理の融合の共通の学問/分野として格別
しかし、日本には統計学部がない。
3.2008年大学院後期博士課程を修了し、コンサルタントへ
・Business Intelligence(BI)の導入支援、
・Data Miningによるモデル構築
4.現在、専修大学大学院 商学研究科 大学院研究生として在籍
・江原先生、生田目先生に従事、
・OR学会のデータ解析コンペティションに参加
4
1.自己紹介 Hiromitsu OTA (3/3)
5.現在、株式会社アパマンショップネットワ-ク システム部WEBチームにて、ログ解析等に従事。
5
2.WEB解析への問題意識(1/2)
・問題意識: 学問領域ではWEB解析はどこに属するのか?
1.統計解析 ⇒統計学(R.A フィッシャーからT. ベイズへ)
→実務では医薬品開発、品質管理で。
2.データマイニング ⇒情報工学(機械学習など電通大など)、
一部、統計解析(統数研)
→実務では、通信販売業、金融業で。
3.テキストマイニング ⇒多変量解析(林知己夫先生、
大隅先生の取り組み)
→実務では、コールセンターやWiki・ブログの解析(集合知)で。
6
2.WEB解析への問題意識(2/2)
1.の統計解析も、2.のデータマイニングも、3. のテキストマイニングも、確たる「学問的背景」を持ち合わせている。
・「学問的背景とは、理論がありそれなりに堅確である」 と言える。 では、アクセスログ解析は? ⇒マーケティング・サイエンス? ←データマイニング 計量経済学(時系列分析)? ←統計解析 ・解(私の考え):間接的に関係があり、複合的な学問領域にまたが る分野と捉える事ができそうだ・・・。 その正体を確かめたい。 →統計的有意差の事例(「Webアナリスト養成講座」 アビナッシュ・
コーシック著、衣袋宏美監訳、内藤貴志訳,翔泳社, 2007,PP420-422)の事例を検討してみる。
7
WEB解析と統計的有意差の適用事例の検討(1/6) ・検討事例1: メールによるキャンペーンの責任者とする。 最新のキャンペーンの潜在顧客に2種類のメールを 送った。結果は以下の2種類になった。
ここで、提案2より、提案1の方がよいと言えるだろうか? 統計的有意差からシミュレーションしてみよう。
8
提案1: サイト訪問者が5,300,購入者が46,コンバージョン率は0.87%
提案2 : サイト訪問者が5,200,購入者が55,コンバージョン率が1.06%
※1 統計的有意差: 医薬品など生物統計学の分野では、統計的有意性は認可される際の重要な指標となっている。
※2 有意差とは統計データに基づいて観測された“差異”が誤差の範囲を超えている場合の差の事である。1%とか5%といった小さな値の有意水準を定めて、観測結果が「差がない」という帰無仮説の棄却領域に入るときに「有意差がある」と表現する。
しかし、有意差が認められたとしても、差の具体的な解釈は別個の問題であり、統計以外の知識を用いて解決すべきものである。
*引用先:PP235-236,「現代統計学小辞典」鈴木義一郎著,講談社,1998
WEB解析と統計的有意差の適用事例の検討(2/6)
・両提案のコンバージョン率の差異は0.19ポイント(=1.06-0.87)である。
・0.19ポイントの差が出ていることから、提案2は提案1に比べて、
サイト訪問者数も100多く、購入者数も9多い。
・では、統計的有意差の観点から、次のようにシミュレーションし検証してみる。
※ Teassly社のStatistical Calculatorを用いる。翻訳本と同じ条件である。
・提案2: サイト訪問者が5,100,購入者が64,としてシミュレートしてみ
ると・・・、
9 ※ Teassly社のStatistical Calculator URL: http://www.teasley.net/free_stuff.htm
提案1: サイト訪問者が5,300,購入者が46,コンバージョン率は0.87%
提案2 : サイト訪問者が5,200,購入者が55,コンバージョン率が1.06%
WEB解析と統計的有意差の適用事例の検討(3/6)
提案1: サイト訪問者が5,300,購入者が46,コンバージョン率は0.87%
提案2 : サイト訪問者が5,200,購入者が55,コンバージョン率が1.06%
10
・画面: Teassly社のStatistical Calculator(Excelで単に入力するだけで有意差が求められる)
提案1 提案2
有意差は80%
WEB解析と統計的有意差の適用事例の検討(4/6)
ここから、有意差は0.995(5%の信頼区間にある)と言える。 つまり、0.87 < 1.06 < 1.25 の不等式が成立する。 提案1と提案2ののコンバージョン率は誤差の範囲にあると言える。 11
提案1: サイト訪問者が5,300,購入者が46,コンバージョン率は0.87%
提案2 : サイト訪問者が5,200,購入者が55,コンバージョン率が1.06%
提案1: サイト訪問者が5,300,購入者が46,コンバージョン率は0.87%
提案2 : サイト訪問者が5,100,購入者が64,コンバージョン率が1.25%
ここで、提案2のみ、サイト訪問者数を100減らして5100に、購入者数を9人分多くして64にしてみると・・・
WEB解析と統計的有意差の適用事例の検討(5/6)
・結論:提案2の数値を変えてシミュレーションしてみた結果 、有意差は0.995%で95%の信頼区間内にある。つまり、統計的には提案1も提案2も、誤差の範囲でしかない。どちらも優劣付けがたいと言える。
12 ※引用先:PP235-236,「現代統計学小辞典」鈴木義一郎著,講談社,1998
・ここで、再度、有意差の定義を確認してみると、 有意差とは、統計データに基づいて観測された“差異”が誤差の範囲
を超えている場合の差の事である。(中略)…しかし、有意差が認められたとしても差の具体的な解釈は別個の問題であり、統計以外の知識を用いて解決すべきものである。
・では、どう考えたらよいのか?
WEB解析と統計的有意差の適用事例の検討(6/6)
<結論>
・統計的有意差は一つの目安であり、どちらがより良いか否かは断言はできない。しかしシミュレーションできるのは悪くない。
・また別の要因とは、例えば、サイト訪問者数(サンプルサイズ)や、その分布(アクセスログのデータはロングテールになりやすいことなど)も考慮して総合的に判断する必要があると言える。
・有意差はPDCAを実践する際の一つの意思決定の基準や目安として、注意して用いる事が必要と思われる。
⇒今後は、統計的有意差以外も、意思決定の一つの目安となるか検証してゆきたい。
13
参考・引用文献一覧
1. 「Webアナリスト養成講座」アビナッシュ・コーシック著、衣袋宏美監訳、内藤貴志訳,翔泳社, 2007,PP420-422
2. Teassly社のStatistical Calculator http://www.teasley.net/free_stuff.htm
3 . 「現代統計学小辞典」 鈴木義一郎著,講談社,1998, PP235-236
4. 「WEB解析士 検定テキスト」 弊社編纂,6章, JWDA出版,2010年11月(予定)
5 . 「WEB解析士 問題集」 弊社編纂,6章, JWDA出版,2010年11月(予定)
6.「生物学を学ぶ人のための統計のはなし―きみにも出せる有意差」 粕谷英一著,文一総合出版,1998
14
さいごに
• ご拝聴ありがとうございます。
• 今後もWEB解析を軸に研究を行ってゆきたいと考えております。
• 弊社のポリシーは、データ解析を行い、PDCAサイクルによる改善を行うことです。
• アクセスログ解析のソフトウェア(Sibulla)等にご興味がありましたら、気軽にお声掛けください。
⇒ http://www.kan-net.com/
15
MEMO
16