Upload
others
View
4
Download
0
Embed Size (px)
Citation preview
Wekaのインストールと データ分析導入
2015年5月1日
とその前に、レポート等ファイル名について
提出レポートのファイル名は以下の規則に従ってつけてください。
学籍番号氏名_プロジェクト#番号.docx 例)13T9001佐藤温_プロジェクト#03.docx
プロジェクトで扱うデータマイニングツール
• プロジェクトでは、Wekaというワイカト大学で開発されたJavaで書かれたデータマイニングライブラリを使用してデータマイニングについて学んでいきます
• 初めはダウンロードとインストールから解説し、Wekaの使い方やデータマイニングの手法について学習していきます
http://www.cs.waikato.ac.nz/ml/weka/,
Wekaのダウンロード
• 公式サイトのダウンロードページにアクセスします http://www.cs.waikato.ac.nz/ml/weka/downloading.html
PCにJavaが入っていない人、Windows以外のOSを使ってる人は違うものを選択 ※去年は文字コードの都合で開発版を使っていましたが今回は安定版を使います
Wekaのダウンロード
• しばらくするとダウンロードが始まります (始まらない場合はdirect linkかmirrorをクリックします)
Wekaのダウンロード
• うまく行かなかったらここからダウンロードしてください
Wekaのインストール
• ダウンロードが済んだらexeファイルを実行します
Wekaのインストール
• ライセンスに同意します
Wekaのインストール
• “全てインストール”にして先に進みます
Wekaのインストール
• インストール場所を設定します
Wekaのインストール
• スタートメニュー・ショートカットの設定をします
Wekaのインストール
• インストールが終わったらNextを押して先に進みます
Wekaのインストール
• Start Wekaにチェックを入れてFinishを押します。うっかり閉じた場合は(C:¥Program Files¥Weka-3-6にあるWeka3.6を実行します)
Wekaの実行
• これがWekaの起動画面です。 • エクスプローラーを押します
データセットの読み込み
• 前処理タブを開き、ファイルを開くを押します
データセットの読み込み
• C:¥Program Files¥Weka-3-6¥data にあるweather.nominal.arffを選択します
データセットの読み込み
• 赤と青のバーなどが表示されました • 右側上方の編集をクリックしてみましょう
データの表示
読み込んだデータセットの詳細を見ることができます
データの表示
今回読み込んだデータセットは以下の様なデータです • 天気 Outlook
• 晴れ sunny • 曇 overcast • 雨 rainy
• 気温 Temperature • 高い hot • 普通 mild • 涼しい cool
• 湿度 Humidity • 高い high • 普通 normal
• 風 Windy • ある true • なし false
• スポーツをするか Play • する yes • しない no
晴れていて気温と湿度が高く、風がない日にはスポーツをし
なかった
データセットの構成
• 属性名+属性型+インスタンス • 本プロジェクトではCSVとARFFの2つのファイル形式を扱う 属性名と型
インスタンス
属性型: 数値 numeric 定性的データ nominal 文字列 string
CSV形式 age,sex,region,income,married,children,car,save_act,current_act,mortgage,pep 48,FEMALE,INNER_CITY,17546,NO,1,NO,NO,NO,NO,YES 40,MALE,TOWN,30085.1,YES,3,YES,NO,YES,YES,NO
先頭に属性名
2行目から↑で定義した属性にそって値をカンマ区切りで書く
年齢 性別 地域 収入 既婚 子供 車 普通口座 当座 住宅ローン 案内メール後に 小口投資をしたか
48 FEMALE INNER_
CITY 17546 NO 1 NO NO NO NO YES
40 MALE TOWN 30085.1 YES 3 YES NO YES YES NO
演習:実際に「bank-data.csv」というファイルを作成して、Wekaで読み込めるか確認しましょう
ARFF形式 % account data on a bank. @RELATION bank-data @ATTRIBUTE age numeric @ATTRIBUTE sex {MALE,FEMALE} @ATTRIBUTE region string : @ATTRIBUTE pep {YES,NO} @DATA 48,FEMALE,INNER_CITY,17546,NO,1,NO,NO,NO,NO,YES 40,MALE,TOWN,30085.1,YES,3,YES,NO,YES,YES,NO
%の行はコメント
データセット名 できればファイル名と同じで
属性名と型の設定 REAL:実数 定性的データは{}でくくる
↑で定義した属性にそって値をカンマ区切りで書く
演習:「bank-data.csv」を「bank-data.arff」に書き換えて、Wekaで読み込めるか確認しましょう
bank-data.csv
• インスタンスが600あるデー
タセットをここからダウンロードしてください
• このデータセットから何がわかりますか?
データをビジュアライズする • データを読み込んでみたものの、何をしたらよいかわからない • わからない時は“観察”する 観察するために図にする • データに偏りはあるか?属性(変数)間に比例関係などはあるか?
属性についての情報が計算される 欠損数:値が不明”?”の数 識別数:値の種類の数 一意数:一回しか現れない値の数 標準偏差値:値のばらつきの大きさ
横軸 :属性の値 縦軸 :該当インスタンスの数 色 :Class変数のインスタンス数
Class変数とは
多変量(複数の変数を扱う)解析を行う際、1つの目的変数に対していくつかの説明変数がどのような値をとる傾向があるか探る
• Wekaでは目的変数をClass変数(属性)と呼び、必ずNominalの属性をとる
• 分析を行う目的の一つはClass変数の値
を他の変数の値から予測できるようなルールを見つけることといえる
• この例では、「pep:案内メール後に 小口投資をしたか否か」に注目している
2変数間の相関関係を探る
• 「ビジュアル化」タブを選択 • 全属性の2変数の関係(グラフ)+クラス変数の分布(色)で表現
Visualize画面の操作 見づらい場合は下の設定を変更し更新を押す
図全体の大きさ データ(○)の大きさ
色分けする属性 ジッター(ズラす)
更新ボタン
表示する属性
演習:実際にビジュアライズ機能を用いてデータを観察し、どのような仮説が立てられるかグループで話し合ってください。仮説と根拠を教えて下さい。
年齢 性別 地域 収入 既婚 子供 車 普通口座 当座 住宅ローン 案内メール後に 小口投資をしたか
age sex region income married children car save_act current_act mortgage pep
データセットの入手 • オープンデータ • パブリックデータ • 企業のデータセットAPI • データセットレポジトリー • データ分析コンペティション などデータ提供が盛んにおこなわれています。自分の興味のあるデータセットを探してみましょう。 ただし、日本ではデータセット提供は少ない(統計情報のオープンデータはある)ため、英語で検索したほうが良いかもしれません。
演習:面白い・研究に使えそうなデータセットが手に入りそうなサイトを探してリストアップしましょう。
第4回レポート
• Top 10 データマイニングツールを調べて一覧にする • その中から3つ選択し、以下のような観点から比較する
– 有料/無料 – プログラミングに使うのかGUIで使うのか – 企業で使われているのか – データ分析コンペティション等で使われるか など
• 締切:5月8日
付録
• 1週間で1章ずつ全員で読み進める – 第1章~第5章について5つのグループで担当する章の内容をまとめて発表する
– 残りの4グループの人はペンで理解できな
かった点や議論したい点などマーク・メモしておく
• 発表後にその章について議論 – マーク・メモしておいた内容についてみんなで話す
「データサイエンス講義」の輪講について
2年生:1グループ 3年生:4グループ (3名、3名、4名、4名)
グループ
2-1: 岡田 矢代 向田 第1章
3-1: 土屋 吉川 中山 第2章
3-2: 関根 山岸 寺澤 第3章
3-3: 伊東 今野 堀川 仲山 第4章
3-4: 大内 西野 山口 天野 第5章
研究室:西館4階 A1 メールを送る際には2人両方を宛先にいれること メールアドレス:
黄 潤和 教授 [email protected] TA 佐藤 温 [email protected]
質問、レポート提出など