33
Wekaのインストールと データ分析導入 2015年5月1日

Wekaのインストールと データ分析導入 · Wekaのダウンロード • しばらくするとダウンロードが始まります (始まらない場合はdirect linkかmirrorをクリックします)

  • Upload
    others

  • View
    4

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Wekaのインストールと データ分析導入 · Wekaのダウンロード • しばらくするとダウンロードが始まります (始まらない場合はdirect linkかmirrorをクリックします)

Wekaのインストールと データ分析導入

2015年5月1日

Page 2: Wekaのインストールと データ分析導入 · Wekaのダウンロード • しばらくするとダウンロードが始まります (始まらない場合はdirect linkかmirrorをクリックします)

とその前に、レポート等ファイル名について

提出レポートのファイル名は以下の規則に従ってつけてください。

学籍番号氏名_プロジェクト#番号.docx 例)13T9001佐藤温_プロジェクト#03.docx

Page 3: Wekaのインストールと データ分析導入 · Wekaのダウンロード • しばらくするとダウンロードが始まります (始まらない場合はdirect linkかmirrorをクリックします)

プロジェクトで扱うデータマイニングツール

• プロジェクトでは、Wekaというワイカト大学で開発されたJavaで書かれたデータマイニングライブラリを使用してデータマイニングについて学んでいきます

• 初めはダウンロードとインストールから解説し、Wekaの使い方やデータマイニングの手法について学習していきます

http://www.cs.waikato.ac.nz/ml/weka/,

Page 4: Wekaのインストールと データ分析導入 · Wekaのダウンロード • しばらくするとダウンロードが始まります (始まらない場合はdirect linkかmirrorをクリックします)

Wekaのダウンロード

• 公式サイトのダウンロードページにアクセスします http://www.cs.waikato.ac.nz/ml/weka/downloading.html

PCにJavaが入っていない人、Windows以外のOSを使ってる人は違うものを選択 ※去年は文字コードの都合で開発版を使っていましたが今回は安定版を使います

Page 5: Wekaのインストールと データ分析導入 · Wekaのダウンロード • しばらくするとダウンロードが始まります (始まらない場合はdirect linkかmirrorをクリックします)

Wekaのダウンロード

• しばらくするとダウンロードが始まります (始まらない場合はdirect linkかmirrorをクリックします)

Page 6: Wekaのインストールと データ分析導入 · Wekaのダウンロード • しばらくするとダウンロードが始まります (始まらない場合はdirect linkかmirrorをクリックします)

Wekaのダウンロード

• うまく行かなかったらここからダウンロードしてください

Page 7: Wekaのインストールと データ分析導入 · Wekaのダウンロード • しばらくするとダウンロードが始まります (始まらない場合はdirect linkかmirrorをクリックします)

Wekaのインストール

• ダウンロードが済んだらexeファイルを実行します

Page 8: Wekaのインストールと データ分析導入 · Wekaのダウンロード • しばらくするとダウンロードが始まります (始まらない場合はdirect linkかmirrorをクリックします)

Wekaのインストール

• ライセンスに同意します

Page 9: Wekaのインストールと データ分析導入 · Wekaのダウンロード • しばらくするとダウンロードが始まります (始まらない場合はdirect linkかmirrorをクリックします)

Wekaのインストール

• “全てインストール”にして先に進みます

Page 10: Wekaのインストールと データ分析導入 · Wekaのダウンロード • しばらくするとダウンロードが始まります (始まらない場合はdirect linkかmirrorをクリックします)

Wekaのインストール

• インストール場所を設定します

Page 11: Wekaのインストールと データ分析導入 · Wekaのダウンロード • しばらくするとダウンロードが始まります (始まらない場合はdirect linkかmirrorをクリックします)

Wekaのインストール

• スタートメニュー・ショートカットの設定をします

Page 12: Wekaのインストールと データ分析導入 · Wekaのダウンロード • しばらくするとダウンロードが始まります (始まらない場合はdirect linkかmirrorをクリックします)

Wekaのインストール

• インストールが終わったらNextを押して先に進みます

Page 13: Wekaのインストールと データ分析導入 · Wekaのダウンロード • しばらくするとダウンロードが始まります (始まらない場合はdirect linkかmirrorをクリックします)

Wekaのインストール

• Start Wekaにチェックを入れてFinishを押します。うっかり閉じた場合は(C:¥Program Files¥Weka-3-6にあるWeka3.6を実行します)

Page 14: Wekaのインストールと データ分析導入 · Wekaのダウンロード • しばらくするとダウンロードが始まります (始まらない場合はdirect linkかmirrorをクリックします)

Wekaの実行

• これがWekaの起動画面です。 • エクスプローラーを押します

Page 15: Wekaのインストールと データ分析導入 · Wekaのダウンロード • しばらくするとダウンロードが始まります (始まらない場合はdirect linkかmirrorをクリックします)

データセットの読み込み

• 前処理タブを開き、ファイルを開くを押します

Page 16: Wekaのインストールと データ分析導入 · Wekaのダウンロード • しばらくするとダウンロードが始まります (始まらない場合はdirect linkかmirrorをクリックします)

データセットの読み込み

• C:¥Program Files¥Weka-3-6¥data にあるweather.nominal.arffを選択します

Page 17: Wekaのインストールと データ分析導入 · Wekaのダウンロード • しばらくするとダウンロードが始まります (始まらない場合はdirect linkかmirrorをクリックします)

データセットの読み込み

• 赤と青のバーなどが表示されました • 右側上方の編集をクリックしてみましょう

Page 18: Wekaのインストールと データ分析導入 · Wekaのダウンロード • しばらくするとダウンロードが始まります (始まらない場合はdirect linkかmirrorをクリックします)

データの表示

読み込んだデータセットの詳細を見ることができます

Page 19: Wekaのインストールと データ分析導入 · Wekaのダウンロード • しばらくするとダウンロードが始まります (始まらない場合はdirect linkかmirrorをクリックします)

データの表示

今回読み込んだデータセットは以下の様なデータです • 天気 Outlook

• 晴れ sunny • 曇 overcast • 雨 rainy

• 気温 Temperature • 高い hot • 普通 mild • 涼しい cool

• 湿度 Humidity • 高い high • 普通 normal

• 風 Windy • ある true • なし false

• スポーツをするか Play • する yes • しない no

晴れていて気温と湿度が高く、風がない日にはスポーツをし

なかった

Page 20: Wekaのインストールと データ分析導入 · Wekaのダウンロード • しばらくするとダウンロードが始まります (始まらない場合はdirect linkかmirrorをクリックします)

データセットの構成

• 属性名+属性型+インスタンス • 本プロジェクトではCSVとARFFの2つのファイル形式を扱う 属性名と型

インスタンス

属性型: 数値 numeric 定性的データ nominal 文字列 string

Page 21: Wekaのインストールと データ分析導入 · Wekaのダウンロード • しばらくするとダウンロードが始まります (始まらない場合はdirect linkかmirrorをクリックします)

CSV形式 age,sex,region,income,married,children,car,save_act,current_act,mortgage,pep 48,FEMALE,INNER_CITY,17546,NO,1,NO,NO,NO,NO,YES 40,MALE,TOWN,30085.1,YES,3,YES,NO,YES,YES,NO

先頭に属性名

2行目から↑で定義した属性にそって値をカンマ区切りで書く

年齢 性別 地域 収入 既婚 子供 車 普通口座 当座 住宅ローン 案内メール後に 小口投資をしたか

48 FEMALE INNER_

CITY 17546 NO 1 NO NO NO NO YES

40 MALE TOWN 30085.1 YES 3 YES NO YES YES NO

演習:実際に「bank-data.csv」というファイルを作成して、Wekaで読み込めるか確認しましょう

Page 22: Wekaのインストールと データ分析導入 · Wekaのダウンロード • しばらくするとダウンロードが始まります (始まらない場合はdirect linkかmirrorをクリックします)

ARFF形式 % account data on a bank. @RELATION bank-data @ATTRIBUTE age numeric @ATTRIBUTE sex {MALE,FEMALE} @ATTRIBUTE region string : @ATTRIBUTE pep {YES,NO} @DATA 48,FEMALE,INNER_CITY,17546,NO,1,NO,NO,NO,NO,YES 40,MALE,TOWN,30085.1,YES,3,YES,NO,YES,YES,NO

%の行はコメント

データセット名 できればファイル名と同じで

属性名と型の設定 REAL:実数 定性的データは{}でくくる

↑で定義した属性にそって値をカンマ区切りで書く

演習:「bank-data.csv」を「bank-data.arff」に書き換えて、Wekaで読み込めるか確認しましょう

Page 23: Wekaのインストールと データ分析導入 · Wekaのダウンロード • しばらくするとダウンロードが始まります (始まらない場合はdirect linkかmirrorをクリックします)

bank-data.csv

• インスタンスが600あるデー

タセットをここからダウンロードしてください

• このデータセットから何がわかりますか?

Page 24: Wekaのインストールと データ分析導入 · Wekaのダウンロード • しばらくするとダウンロードが始まります (始まらない場合はdirect linkかmirrorをクリックします)

データをビジュアライズする • データを読み込んでみたものの、何をしたらよいかわからない • わからない時は“観察”する 観察するために図にする • データに偏りはあるか?属性(変数)間に比例関係などはあるか?

属性についての情報が計算される 欠損数:値が不明”?”の数 識別数:値の種類の数 一意数:一回しか現れない値の数 標準偏差値:値のばらつきの大きさ

横軸 :属性の値 縦軸 :該当インスタンスの数 色 :Class変数のインスタンス数

Page 25: Wekaのインストールと データ分析導入 · Wekaのダウンロード • しばらくするとダウンロードが始まります (始まらない場合はdirect linkかmirrorをクリックします)

Class変数とは

多変量(複数の変数を扱う)解析を行う際、1つの目的変数に対していくつかの説明変数がどのような値をとる傾向があるか探る

• Wekaでは目的変数をClass変数(属性)と呼び、必ずNominalの属性をとる

• 分析を行う目的の一つはClass変数の値

を他の変数の値から予測できるようなルールを見つけることといえる

• この例では、「pep:案内メール後に 小口投資をしたか否か」に注目している

Page 26: Wekaのインストールと データ分析導入 · Wekaのダウンロード • しばらくするとダウンロードが始まります (始まらない場合はdirect linkかmirrorをクリックします)

2変数間の相関関係を探る

• 「ビジュアル化」タブを選択 • 全属性の2変数の関係(グラフ)+クラス変数の分布(色)で表現

Page 27: Wekaのインストールと データ分析導入 · Wekaのダウンロード • しばらくするとダウンロードが始まります (始まらない場合はdirect linkかmirrorをクリックします)

Visualize画面の操作 見づらい場合は下の設定を変更し更新を押す

図全体の大きさ データ(○)の大きさ

色分けする属性 ジッター(ズラす)

更新ボタン

表示する属性

演習:実際にビジュアライズ機能を用いてデータを観察し、どのような仮説が立てられるかグループで話し合ってください。仮説と根拠を教えて下さい。

年齢 性別 地域 収入 既婚 子供 車 普通口座 当座 住宅ローン 案内メール後に 小口投資をしたか

age sex region income married children car save_act current_act mortgage pep

Page 28: Wekaのインストールと データ分析導入 · Wekaのダウンロード • しばらくするとダウンロードが始まります (始まらない場合はdirect linkかmirrorをクリックします)

データセットの入手 • オープンデータ • パブリックデータ • 企業のデータセットAPI • データセットレポジトリー • データ分析コンペティション などデータ提供が盛んにおこなわれています。自分の興味のあるデータセットを探してみましょう。 ただし、日本ではデータセット提供は少ない(統計情報のオープンデータはある)ため、英語で検索したほうが良いかもしれません。

演習:面白い・研究に使えそうなデータセットが手に入りそうなサイトを探してリストアップしましょう。

Page 29: Wekaのインストールと データ分析導入 · Wekaのダウンロード • しばらくするとダウンロードが始まります (始まらない場合はdirect linkかmirrorをクリックします)

第4回レポート

• Top 10 データマイニングツールを調べて一覧にする • その中から3つ選択し、以下のような観点から比較する

– 有料/無料 – プログラミングに使うのかGUIで使うのか – 企業で使われているのか – データ分析コンペティション等で使われるか など

• 締切:5月8日

Page 30: Wekaのインストールと データ分析導入 · Wekaのダウンロード • しばらくするとダウンロードが始まります (始まらない場合はdirect linkかmirrorをクリックします)

付録

Page 31: Wekaのインストールと データ分析導入 · Wekaのダウンロード • しばらくするとダウンロードが始まります (始まらない場合はdirect linkかmirrorをクリックします)

• 1週間で1章ずつ全員で読み進める – 第1章~第5章について5つのグループで担当する章の内容をまとめて発表する

– 残りの4グループの人はペンで理解できな

かった点や議論したい点などマーク・メモしておく

• 発表後にその章について議論 – マーク・メモしておいた内容についてみんなで話す

「データサイエンス講義」の輪講について

Page 32: Wekaのインストールと データ分析導入 · Wekaのダウンロード • しばらくするとダウンロードが始まります (始まらない場合はdirect linkかmirrorをクリックします)

2年生:1グループ 3年生:4グループ (3名、3名、4名、4名)

グループ

2-1: 岡田 矢代 向田 第1章

3-1: 土屋 吉川 中山 第2章

3-2: 関根 山岸 寺澤 第3章

3-3: 伊東 今野 堀川 仲山 第4章

3-4: 大内 西野 山口 天野 第5章

Page 33: Wekaのインストールと データ分析導入 · Wekaのダウンロード • しばらくするとダウンロードが始まります (始まらない場合はdirect linkかmirrorをクリックします)

研究室:西館4階 A1 メールを送る際には2人両方を宛先にいれること メールアドレス:

黄 潤和 教授 [email protected] TA 佐藤 温 [email protected]

質問、レポート提出など