23
SPSS Modelerによる データ加工入門 Co-graph Inc. Takahashi Masaki

[コグラフ]spss modelerによるデータ加工入門

Embed Size (px)

Citation preview

SPSS Modelerによる データ加工入門

Co-graph Inc. Takahashi Masaki

Co-graph confidential 2

本スライドは、SPSS Modelerに興味を持った人/使い始めた人のために、SPSS Modelerを使ったデータ加工の進め方を解説した資料です。

IBM(R) SPSS Modeler(以下、Modeler)の独自形式の ファイルのことをストリームファイルと言います。 本スライドで使用しているサンプルデータと ストリームファイルは、「コグラフ公式テクニカルWeb」から ダウンロードできます。 http://www.co-graph.net/ 「コグラフ公式テクニカルWeb」には、本スライドに 記載しきれなかった情報もたくさんありますので是非ご覧ください。 IBM、IBM ロゴ、ibm.com、SPSSは、世界の多くの国で 登録されたInternational Business Machines Corp.の商標です。

Co-graph confidential 3

SPSS Modelerとは?

そもそも…

Co-graph confidential 4

・データの加工と分析をするソフトです。 ・データマイニングに必要な機能は ほぼ揃っています。 ・データ加工がしやすいです。 ・本格的なわりに、習得のハードルが低いので 大企業を中心に世界中で使われています。

Co-graph confidential 5

ではさっそく…

CSVデータの取り込みと内容表示 についてご説明します

Co-graph confidential 6

初めてModelerを使う人にとって、データの加工プロセスを「ノード」単位で行っていく操作は、不慣れなものではないかと思います。 下の例は、CSVデータを取り込んで、表(テーブル)で表示するというごく簡単なプロセスです。 Modelerでは、これらのような丸と四角のアイコンを「ノード」と呼んでいます。 また、このような、一連のノードを通過するデータ処理の流れのことを「ストリーム」といいます。 本資料では、まず上図のストリームを構築する方法についてご説明します。

Co-graph confidential 7

とりあえず…

CSVファイルを取り込んでみましょう

Co-graph confidential 8

【1】 CSVデータの取り込みについては、 Windows上からCSVファイルをModeler 画面上にドラッグすることでノードを作成 することができます。 【2】 データを表示させるための「テーブル」 ノードは、画面下部分のノードパレットと 呼ばれる領域からドラッグして作成します。 二つのノードを配置したら、CSV取り込みノードをマウスの中央ボタンでクリックします。 こうすると青い矢印が作成できますので、中央ボタンをクリックしたまま「テーブル」ノードまで矢印を繋げます。そしてテーブルをダブルクリックして実行するとCSVファイルが全件表示されます。

Co-graph confidential 9

ここまでで、CSVファイルを取り込んで表示させるだけのシンプルなストリームを作成することができました。 次に、ノードの設定方法についてご説明します。

Co-graph confidential 10

CSV取り込みノード(正確には 「固定長ファイル」ノード)を ダブルクリックすると右のような 画面を開くことができます。 CSVファイルの中身を確認するだけであれば細かな設定は必要ありませんが、場合によってはここで様々な変更を行います。 たとえば、CSVの区切りは、デフォルトでは「,」となっていますが、変更する場合は、「フィールド区切り文字」のチェック箇所を変えます。

Co-graph confidential 11

次は…

簡単な集計をしてみましょう

Co-graph confidential 12

データ集計において最も基本的なノードともいえる「レコード集計」ノードについてご説明します。 前回使用したものと同一のサンプルデータを使用します。 こちらは通販サイトにおける、特定商品の購買や閲覧の有無、これまでの購買単価の平均値などを、会員ごとに示したデータとなっています。 (仮想のデータです)

Co-graph confidential 13

CSVファイルの取り込みで作成したストリームに 「レコード集計」ノードを下記のように追加します。

ダブルクリックして設定画面へ

Co-graph confidential 14

「レコード集計」ノードをダブルクリックして編集します。 今回は「キーフィールド」と「集計フィールド」を下記のように設定します。

(解説と実行結果は次ページです)

Co-graph confidential 15

この例では、「商品A購買有無」というフラグ 変数を「キーフィールド」にしています。 (フラグ変数というのは、1が該当、 0が非該当を表す、2値の変数です) そのため、商品Aの購買がある人とない人に 別れて集計されます。 「キーフィールド」というのは、テーブル内のレコードを一意に識別するためのフィールド(変数)のことです。 上の例では、「商品A購買有無」が1のレコードと0のレコードに分けて集計を行っており「商品A購買有無」という「キーフィールド」でレコードが一意に定まっています。 「集計フィールド」は集計対象のフィールドのことです。上の例では「集計フィールド」に、ユーザー一人一人の「購買の平均単価」を示す変数を指定しているので その変数について、商品Aの購買があるグループ(1)、ないグループ(0)で平均を取ったものが「購買の平均単価_Mean」として表示されます。 「Record_Count」は、商品Aについての購買有無それぞれのレコード数を示します。

Co-graph confidential 16

次は…

複数のデータを結合してみましょう

Co-graph confidential 17

「レコード結合」ノードは、2つ以上のデータを特定のフィールド(変数)をキーにして結合するときに使います。 下記の2つのCSVデータを例にしてご説明します。 これらは商品ごとの値段のデータ(price.csv)と発売年のデータ(year.csv)を想定しています。

Co-graph confidential 18

ノードを右のように配置します。 右は、「レコード結合」ノードの設定画面です。 結合の方法を下記4種類の中から選択します。 ①内部結合 ②完全外部結合 ③部分外部結合 ④逆結合 次ページ以降で、これらの結合について解説します。

ダブルクリックして設定画面へ

Co-graph confidential 19

①内部結合 内部結合は、両方のCSVで、結合キー(ID)が一致するレコードだけを取得する結合方法です。 この場合、右のように出力されます。 値段は、元のcsvには下記4商品についてレコードが 存在しました。 【price.csv:1,2,3,5】 一方、発売年については、下記3商品について レコードが存在しました。 【year.csv :1,2,4】 内部結合では、両方に共通してIDが存在するレコードを取得しますので、下記2つが出力されます。 【内部結合後→1,2】

Co-graph confidential 20

②完全外部結合 内部結合での結果に加えて、どちらかのCSVにしか存在しないレコードも取得するのが完全外部結合です。 完全外部結合では右のようになります。 元の各csvファイルのIDは下記です。 【price.csv:1,2,3,5】 【year.csv :1,2,4】 結合後のIDは下記となります。 【完全外部結合後→1,2,3,4,5】 IDの3~5は片方のcsvにしか存在しないため、取得できないデータ(欠損値)が発生します。 Modeler上では、欠損値は「$null$」と表示されます。

Co-graph confidential 21

③部分外部結合 選択したCSVのレコードをすべて取得するのが、部分外部結合です。 部分外部結合では、右のような選択画面が表示されます。 price.csvを選択すると、price.csvに含まれるすべてのレコードが取得されます。 この場合、year.csvにもIDが存在するレコードには、yearの値が入り、それ以外は欠損値となります。 元の各csvファイルのIDは下記です。 【price.csv:1,2,3,5】 【year.csv :1,2,4】 結合後のIDは下記となります。 【部分外部結合後→1,2,3,5】

Co-graph confidential 22

④逆結合 逆結合では、メインのCSVにのみ存在するレコードが取得されます。 メインのCSVは、「入力」タブで確認できます。 最初に「レコード結合」ノードにつながった方がメインとなりますが、この画面の順序を変えることで変更することもできます。 元の各csvファイルのIDは下記です。 【price.csv:1,2,3,5】 【year.csv :1,2,4】 結合後のIDは下記となります。 【逆結合後→3,5】

Co-graph confidential 23

本スライドで使用しているサンプルデータと ストリームファイルは、「コグラフ公式テクニカルWeb」から ダウンロードできます。 「コグラフ公式テクニカルWeb」には、本スライドに 記載しきれなかった情報もたくさんありますので是非ご覧ください。 http://www.co-graph.net/

本スライドは以上となります。

ご覧頂き、ありがとうございました。