Wekaのインストールとデータ分析導入 · Wekaのダウンロード • しばらくするとダウンロードが始まります（始まらない場合はdirect linkかmirrorをクリックします）

Wekaのインストールとデータ分析導入

２０１５年５月１日

とその前に、レポート等ファイル名について

提出レポートのファイル名は以下の規則に従ってつけてください。

学籍番号氏名_プロジェクト#番号.docx 例）13T9001佐藤温_プロジェクト#03.docx

プロジェクトで扱うデータマイニングツール

• プロジェクトでは、Wekaというワイカト大学で開発されたJavaで書かれたデータマイニングライブラリを使用してデータマイニングについて学んでいきます

• 初めはダウンロードとインストールから解説し、Wekaの使い方やデータマイニングの手法について学習していきます

http://www.cs.waikato.ac.nz/ml/weka/,

http://www.cs.waikato.ac.nz/ml/weka/

Wekaのダウンロード

• 公式サイトのダウンロードページにアクセスします http://www.cs.waikato.ac.nz/ml/weka/downloading.html

PCにJavaが入っていない人、Windows以外のOSを使ってる人は違うものを選択 ※去年は文字コードの都合で開発版を使っていましたが今回は安定版を使います

http://www.cs.waikato.ac.nz/ml/weka/downloading.html


• しばらくするとダウンロードが始まります（始まらない場合はdirect linkかmirrorをクリックします）


• うまく行かなかったらここからダウンロードしてください

https://dl.dropboxusercontent.com/u/11572763/weka-3-6-12.exe

Wekaのインストール

• ダウンロードが済んだらexeファイルを実行します


• ライセンスに同意します


• “全てインストール”にして先に進みます


• インストール場所を設定します


• スタートメニュー・ショートカットの設定をします


• インストールが終わったらNextを押して先に進みます


• Start Wekaにチェックを入れてFinishを押します。うっかり閉じた場合は（C:¥Program Files¥Weka-3-6にあるWeka3.6を実行します）

Wekaの実行

• これがWekaの起動画面です。 • エクスプローラーを押します

データセットの読み込み

• 前処理タブを開き、ファイルを開くを押します


• C:¥Program Files¥Weka-3-6¥data にあるweather.nominal.arffを選択します


• 赤と青のバーなどが表示されました • 右側上方の編集をクリックしてみましょう

データの表示

読み込んだデータセットの詳細を見ることができます

データの表示

今回読み込んだデータセットは以下の様なデータです • 天気 Outlook

• 晴れ sunny • 曇 overcast • 雨 rainy

• 気温 Temperature • 高い hot • 普通 mild • 涼しい cool

• 湿度 Humidity • 高い high • 普通 normal

• 風 Windy • ある true • なし false

• スポーツをするか Play • する yes • しない no

晴れていて気温と湿度が高く、風がない日にはスポーツをし

なかった

データセットの構成

• 属性名＋属性型＋インスタンス • 本プロジェクトではCSVとARFFの2つのファイル形式を扱う属性名と型

インスタンス

属性型：数値 numeric 定性的データ nominal 文字列 string

CSV形式 age,sex,region,income,married,children,car,save_act,current_act,mortgage,pep 48,FEMALE,INNER_CITY,17546,NO,1,NO,NO,NO,NO,YES 40,MALE,TOWN,30085.1,YES,3,YES,NO,YES,YES,NO

先頭に属性名

２行目から↑で定義した属性にそって値をカンマ区切りで書く

年齢性別地域収入既婚子供車普通口座当座住宅ローン案内メール後に小口投資をしたか

48 FEMALE INNER_

CITY 17546 NO 1 NO NO NO NO YES

40 MALE TOWN 30085.1 YES 3 YES NO YES YES NO

演習：実際に「bank-data.csv」というファイルを作成して、Wekaで読み込めるか確認しましょう

ARFF形式 % account data on a bank. @RELATION bank-data @ATTRIBUTE age numeric @ATTRIBUTE sex {MALE,FEMALE} @ATTRIBUTE region string ： @ATTRIBUTE pep {YES,NO} @DATA 48,FEMALE,INNER_CITY,17546,NO,1,NO,NO,NO,NO,YES 40,MALE,TOWN,30085.1,YES,3,YES,NO,YES,YES,NO

%の行はコメント

データセット名できればファイル名と同じで

属性名と型の設定 REAL:実数定性的データは{}でくくる

↑で定義した属性にそって値をカンマ区切りで書く

演習：「bank-data.csv」を「bank-data.arff」に書き換えて、Wekaで読み込めるか確認しましょう

bank-data.csv

• インスタンスが600あるデー

タセットをここからダウンロードしてください

• このデータセットから何がわかりますか？

https://dl.dropboxusercontent.com/u/11572763/bank-data.csv

データをビジュアライズする • データを読み込んでみたものの、何をしたらよいかわからない • わからない時は“観察”する観察するために図にする • データに偏りはあるか？属性（変数）間に比例関係などはあるか？

属性についての情報が計算される欠損数：値が不明”?”の数識別数：値の種類の数一意数：一回しか現れない値の数標準偏差値：値のばらつきの大きさ

横軸：属性の値縦軸：該当インスタンスの数色：Class変数のインスタンス数

Class変数とは

多変量（複数の変数を扱う）解析を行う際、1つの目的変数に対していくつかの説明変数がどのような値をとる傾向があるか探る

• Wekaでは目的変数をClass変数（属性）と呼び、必ずNominalの属性をとる

• 分析を行う目的の一つはClass変数の値

を他の変数の値から予測できるようなルールを見つけることといえる

• この例では、「pep：案内メール後に小口投資をしたか否か」に注目している

2変数間の相関関係を探る

• 「ビジュアル化」タブを選択 • 全属性の2変数の関係（グラフ）＋クラス変数の分布（色）で表現

Visualize画面の操作見づらい場合は下の設定を変更し更新を押す

図全体の大きさデータ(○)の大きさ

色分けする属性ジッター(ズラす)

更新ボタン

表示する属性

演習：実際にビジュアライズ機能を用いてデータを観察し、どのような仮説が立てられるかグループで話し合ってください。仮説と根拠を教えて下さい。

年齢性別地域収入既婚子供車普通口座当座住宅ローン案内メール後に小口投資をしたか

age sex region income married children car save_act current_act mortgage pep

データセットの入手 • オープンデータ • パブリックデータ • 企業のデータセットAPI • データセットレポジトリー • データ分析コンペティションなどデータ提供が盛んにおこなわれています。自分の興味のあるデータセットを探してみましょう。ただし、日本ではデータセット提供は少ない（統計情報のオープンデータはある）ため、英語で検索したほうが良いかもしれません。

演習：面白い・研究に使えそうなデータセットが手に入りそうなサイトを探してリストアップしましょう。

第４回レポート

• Top 10 データマイニングツールを調べて一覧にする • その中から3つ選択し、以下のような観点から比較する

– 有料/無料 – プログラミングに使うのかGUIで使うのか – 企業で使われているのか – データ分析コンペティション等で使われるかなど

• 締切：5月8日

付録

• 1週間で1章ずつ全員で読み進める – 第1章～第5章について５つのグループで担当する章の内容をまとめて発表する

– 残りの4グループの人はペンで理解できな

かった点や議論したい点などマーク・メモしておく

• 発表後にその章について議論 – マーク・メモしておいた内容についてみんなで話す

「データサイエンス講義」の輪講について

2年生：1グループ 3年生：4グループ (3名、3名、4名、4名)

グループ

2-1: 岡田矢代向田第1章

3-1: 土屋吉川中山第2章

3-2: 関根山岸寺澤第3章

3-3: 伊東今野堀川仲山第4章

3-4: 大内西野山口天野第5章

研究室：西館4階 A1 メールを送る際には2人両方を宛先にいれることメールアドレス：

黄潤和教授 [email protected] TA 佐藤温 [email protected]

質問、レポート提出など

mailto:[email protected]

mailto:[email protected]

Documents

Wekaのインストールと データ分析導入 · Wekaのダウンロード • しばらくするとダウンロードが始まります （始まらない場合はdirect linkかmirrorをクリックします）

Wekaのインストールとデータ分析導入 · Wekaのダウンロード • しばらくするとダウンロードが始まります（始まらない場合はdirect linkかmirrorをクリックします）