66
Copyright © 2014 Oracle and/or its affiliates. All rights reserved. | Copyright © 2016, Oracle and/or its affiliates. All rights reserved. 45回瀬戸内オラクル技術団 ~オラクル純正開発ツール&噂の機械学習~ 実はDatabase Cloudだけで実現できる巷で噂の機械学習とは? 日本オラクル株式会社 クラウド・テクノロジー事業統括データ ベースソリューション本部 中部・西日本ソリューション部 2016513

How to Use the PowerPoint Template - oracle.com · ディープラーニング、データマイニング、R、Python ... –ソーシャルゲームでの 不正アクセス検知

  • Upload
    others

  • View
    1

  • Download
    0

Embed Size (px)

Citation preview

Page 1: How to Use the PowerPoint Template - oracle.com · ディープラーニング、データマイニング、R、Python ... –ソーシャルゲームでの 不正アクセス検知

Copyright © 2014 Oracle and/or its affiliates. All rights reserved. | Copyright © 2016, Oracle and/or its affiliates. All rights reserved.

第45回瀬戸内オラクル技術団 ~オラクル純正開発ツール&噂の機械学習~ 実はDatabase Cloudだけで実現できる巷で噂の機械学習とは?

日本オラクル株式会社

クラウド・テクノロジー事業統括データベースソリューション本部 中部・西日本ソリューション部 2016年5月13日

Page 2: How to Use the PowerPoint Template - oracle.com · ディープラーニング、データマイニング、R、Python ... –ソーシャルゲームでの 不正アクセス検知

Copyright © 2016, Oracle and/or its affiliates. All rights reserved.

•以下の事項は、弊社の一般的な製品の方向性に関する概要を説明するものです。また、情報提供を唯一の目的とするものであり、いかなる契約にも組み込むことはできません。以下の事項は、マテリアルやコード、機能を提供することをコミットメント(確約)するものではないため、購買決定を行う際の判断材料になさらないで下さい。オラクル製品に関して記載されている機能の開発、リリースおよび時期については、弊社の裁量により決定されます。

2

OracleとJavaは、Oracle Corporation 及びその子会社、関連会社の米国及びその他の国における登録商標です。 文中の社名、商品名等は各社の商標または登録商標である場合があります。

Page 3: How to Use the PowerPoint Template - oracle.com · ディープラーニング、データマイニング、R、Python ... –ソーシャルゲームでの 不正アクセス検知

Copyright © 2016, Oracle and/or its affiliates. All rights reserved.

Program Agenda

3

機械学習概要

実践!Oracle Databaseで機械学習

クラウド環境を使うメリット

Oracle Databaseの機械学習機能概要

まとめ

1

2

3

4

5

Page 4: How to Use the PowerPoint Template - oracle.com · ディープラーニング、データマイニング、R、Python ... –ソーシャルゲームでの 不正アクセス検知

Copyright © 2016, Oracle and/or its affiliates. All rights reserved.

Program Agenda

4

機械学習概要

実践!Oracle Databaseで機械学習

クラウド環境を使うメリット

Oracle Databaseの機械学習機能概要

まとめ

1

2

3

4

5

Page 5: How to Use the PowerPoint Template - oracle.com · ディープラーニング、データマイニング、R、Python ... –ソーシャルゲームでの 不正アクセス検知

Copyright © 2016, Oracle and/or its affiliates. All rights reserved.

ビジネスで勝つためにビッグデータ活用が不可欠

60.9兆円

過半数 今後ますます増えてくるビッグデータ活用

総務省:情報通信白書平成26年版より

競争激化の時代においてビッグデータ活用が不可欠

・ビッグデータ活用による売上向上効果(全産業)

・ビッグデータ活用が売上向上やコスト削減に 効果があったと回答

5

Page 6: How to Use the PowerPoint Template - oracle.com · ディープラーニング、データマイニング、R、Python ... –ソーシャルゲームでの 不正アクセス検知

Copyright © 2016, Oracle and/or its affiliates. All rights reserved.

現実は、データは増えるがデータ活用は増えない

6

活用している データ

12%

自分の組織にあるデータの中で、 実際に活用できているのは全体の12% しかないとエグゼクティブは感じている

生成された データ

Page 7: How to Use the PowerPoint Template - oracle.com · ディープラーニング、データマイニング、R、Python ... –ソーシャルゲームでの 不正アクセス検知

Copyright © 2016, Oracle and/or its affiliates. All rights reserved. 7

データ活用の用途(例)

用途

帳票 •帳簿や伝票などの定型的な書類の作成、印刷

レポーティング •定型レポートの作成、公開(Web等)、配信 •ダッシュボード

分析

•定型分析、非定型分析、アドホック・クエリ •実績・推移に基づくシミュレーション(What-If分析) •事前定義された分析切り口 •人手による分析

探索 •反復的なデータ検索・絞込みによる分析 •新たな分析切り口の発見 •人手による分析

データマイニング 統計解析

•データから意味のあるパターンやルール、相関関係を抽出する •大容量のデータを自動的もしくは半自動的で解析

線の上と下の 違いは何でしょうか?

Page 8: How to Use the PowerPoint Template - oracle.com · ディープラーニング、データマイニング、R、Python ... –ソーシャルゲームでの 不正アクセス検知

Copyright © 2016, Oracle and/or its affiliates. All rights reserved. 8

データ活用の用途(例)

用途

帳票 •帳簿や伝票などの定型的な書類の作成、印刷

レポーティング •定型レポートの作成、公開(Web等)、配信 •ダッシュボード

分析

•定型分析、非定型分析、アドホック・クエリ •実績・推移に基づくシミュレーション(What-If分析) •事前定義された分析切り口 •人手による分析

探索 •反復的なデータ検索・絞込みによる分析 •新たな分析切り口の発見 •人手による分析

データマイニング 統計解析

•データから意味のあるパターンやルール、相関関係を抽出する •大容量のデータを自動的もしくは半自動的で解析

「人」が見て 「人」が意味のある 結果を発見する

「機械」が 結果を生成する

Page 9: How to Use the PowerPoint Template - oracle.com · ディープラーニング、データマイニング、R、Python ... –ソーシャルゲームでの 不正アクセス検知

Copyright © 2016, Oracle and/or its affiliates. All rights reserved.

データを活用して未来の予測・コントロールの領域へ

9

V

A

L

U

E

D I F F I C U L T

何が起きたのか? Descriptive Analytics

どうして起きたのか? Diagnostic Analytics

何が起きるのか? Predictive Analytics

どうやって起こせるのか? Prescriptive Analytics

人が発見する 機械が発見する

Page 10: How to Use the PowerPoint Template - oracle.com · ディープラーニング、データマイニング、R、Python ... –ソーシャルゲームでの 不正アクセス検知

Copyright © 2016, Oracle and/or its affiliates. All rights reserved.

機械学習(マシン・ラーニング)

•連想される言葉 –人工知能、画像認識、自然言語処理、自動運転、 ディープラーニング、データマイニング、R、Python

明示的にプログラムしなくても 学習する能力をコンピュータに与える

• 教師あり学習 • 教師なし学習

10

Page 11: How to Use the PowerPoint Template - oracle.com · ディープラーニング、データマイニング、R、Python ... –ソーシャルゲームでの 不正アクセス検知

Copyright © 2016, Oracle and/or its affiliates. All rights reserved.

•効果的なダイレクトメール送付先 リストの作成

•離反が予想される顧客の リスト作成

•見込顧客の成約確度予測

• (小売業での)併売予測

• テロリスト容疑者の検出

•医療実験結果実験データ 要因抽出

•異常値検出 –クレジットカードの不正利用

–ネットワークの不正侵入

–経費の不正利用の検知

–ソーシャルゲームでの 不正アクセス検知

–ただしく納税されているか

–工場ラインでの異常検出

–センサー情報からの 障害未然防止

11

機械学習の様々な活用例

Page 12: How to Use the PowerPoint Template - oracle.com · ディープラーニング、データマイニング、R、Python ... –ソーシャルゲームでの 不正アクセス検知

Copyright © 2016, Oracle and/or its affiliates. All rights reserved. 12

たとえば 顧客情報 (属性値や、過去の利用状況など)から、 その顧客が今後優良顧客になる可能性を算出したい

分類モデル

顧客データ このモデルをどうやって作成するのか?

この顧客は優良顧客か? その確率は?

・顧客ID ・性別 ・所在地 ・継続期間 ・前月請求額 ・・・

Page 13: How to Use the PowerPoint Template - oracle.com · ディープラーニング、データマイニング、R、Python ... –ソーシャルゲームでの 不正アクセス検知

Copyright © 2016, Oracle and/or its affiliates. All rights reserved.

モデルとは・・・

• データのパターンや現状をあらわすもの –例) 年齢があがるほど収入も増える傾向にある → 数式で表現

13

年齢

収入

属性の関係をあらわすもの 例):2つの属性を以下の式で近似値を算出する最適な変数(a,b) y = ax + b モデルを使うことで値の予測が可能 例) モデル( y = ax + b )に「年齢」を与えると、「収入」が算出 モデルの結果は、必ずしも正しい値ではない → 「誤差」が必ず存在する →いかに誤差が最小となるモデルを作るかがポイント

Page 14: How to Use the PowerPoint Template - oracle.com · ディープラーニング、データマイニング、R、Python ... –ソーシャルゲームでの 不正アクセス検知

Copyright © 2016, Oracle and/or its affiliates. All rights reserved. 14

機械学習によるモデル作成

アルゴリズム • 重回帰 • SVM • 決定木 …

顧客データ = 学習用データ

・顧客ID ・性別 ・所在地 ・継続期間 ・前月請求額 ・・・ ・優良顧客フラグ

過去データ

目的達成です!

アルゴリズムを選択

顧客データとアルゴリズムによって自動生成

予測された優良顧客リスト

分類モデル

Page 15: How to Use the PowerPoint Template - oracle.com · ディープラーニング、データマイニング、R、Python ... –ソーシャルゲームでの 不正アクセス検知

Copyright © 2016, Oracle and/or its affiliates. All rights reserved. 15

自動生成されるモデルのイメージ

ID 性別 年齢 職業 前月請求額 ロイヤル

101 男性 31 会社員 10,000円 NO

102 女性 28 主婦 5,000円 YES

103 女性 36 主婦 200円 NO

104 男性 43 会社員 3,000円 NO

105 女性 22 会社員 7,000円 YES

過去顧客データ

ID 性別 年齢 職業 前月請求額 ロイヤル

314 男性 40 会社員 4,000円 NO

315 女性 26 会社員 5,500円 YES

新規顧客データ

前月請求額

<5,000円 >=5,000円

女性 男性

性別

ロイヤル= NO

ロイヤル= YES

ロイヤル= NO

IF ( 前月請求額 >= 5000 AND 性別 = “女性” ) THEN ロイヤル= YES

Probability = 0.77(信頼度) Support = 0.250(組み合わせの出現率)

Page 16: How to Use the PowerPoint Template - oracle.com · ディープラーニング、データマイニング、R、Python ... –ソーシャルゲームでの 不正アクセス検知

Copyright © 2016, Oracle and/or its affiliates. All rights reserved. 16

機械学習のビジネスへの有効性

20%

全体の何割にアプローチするか

100% 0%

ターゲット層へヒットする割合

100%

20%

50% 20%

70%

50% ROI

顧客をランダムで選択

機械学習を使用

Page 17: How to Use the PowerPoint Template - oracle.com · ディープラーニング、データマイニング、R、Python ... –ソーシャルゲームでの 不正アクセス検知

Copyright © 2016, Oracle and/or its affiliates. All rights reserved.

•予測的分析が要件となっている

• データ活用が重要視されている

•過去データが大量に存在している

•潜在的なパターンを持っている

•予測分析を必要としていない

• ビジネスルールが重要視される

•過去データがあまり存在しない

•予測可能なパターンを持たない

17

機械学習が向いていること・いないこと

役に立てます! 役に立てません。

Page 18: How to Use the PowerPoint Template - oracle.com · ディープラーニング、データマイニング、R、Python ... –ソーシャルゲームでの 不正アクセス検知

Copyright © 2016, Oracle and/or its affiliates. All rights reserved.

Program Agenda

機械学習概要

実践!Oracle Databaseで機械学習

クラウド環境を使うメリット

Oracle Databaseの機械学習機能概要

まとめ

1

2

3

4

5

18

Page 19: How to Use the PowerPoint Template - oracle.com · ディープラーニング、データマイニング、R、Python ... –ソーシャルゲームでの 不正アクセス検知

Copyright © 2016, Oracle and/or its affiliates. All rights reserved. 19

売上明細情報 (顧客別過去の購買状況など)から、 ある商品といっしょによく売れる商品を発見したい

Apriori アルゴリズム

売上データ

• 同時に発生する確率は? •その商品の購入にしめる 同時率は?

・レシートID ・顧客ID ・商品コード ・数量 ・売上金額 ・・・

アソシエーションモデル

Page 20: How to Use the PowerPoint Template - oracle.com · ディープラーニング、データマイニング、R、Python ... –ソーシャルゲームでの 不正アクセス検知

Copyright © 2016, Oracle and/or its affiliates. All rights reserved. 20

パソコンショップの売上明細データから、よく併売されている商品を抽出

機械学習でバスケット分析

商品 顧客ID 日時 数量

CD-R 103 1/10/2010 1

CD-R 110 1/10/2010 2

CD-R 121 1/11/2010 1

マウスパッド 103 1/10/2010 1

マウスパッド 115 1/11/2010 3

購入(A) 併売(B) 信頼度 支持度

CD-R CDケース 90% 7%

マウス マウスパッド 88% 3%

CD-R マウスパッド 51% 2%

信頼度・・・A全体のうち、AかつBの割合 支持度・・・全ケースのうち、AかつBの割合 リフト・・・ルールの強さ(関係の確信度/全体に占めるBの発生率)

高い 低い

確信度 よくある組み合わせ ごくまれな組み合わせ

サポート 全顧客に対するインパクトが大きい

全顧客に対するインパクトが小さい

リフト 組み合わせで購入されることが多い

単品で購入されることが多い

Page 21: How to Use the PowerPoint Template - oracle.com · ディープラーニング、データマイニング、R、Python ... –ソーシャルゲームでの 不正アクセス検知

Copyright © 2016, Oracle and/or its affiliates. All rights reserved. 21

学習対象となる売上データを選択

Step1 データソースを選択

ワークフロー・エディタより(データ)「データソース」をワークフロー設計画面にドラッグ&ドロップ

「 売上データ 」を選択して 「終了」をクリック

Page 22: How to Use the PowerPoint Template - oracle.com · ディープラーニング、データマイニング、R、Python ... –ソーシャルゲームでの 不正アクセス検知

Copyright © 2016, Oracle and/or its affiliates. All rights reserved. 22

アソシエーションモデルを作成し、入力データとして売上データをつかう

Step2 モデルの作成(1/2)

ワークフロー・エディタより(モデル)「アソシエーション」ノードをドラッグ&ドロップ

「 売上データ 」を右クリックし、「接続」を選択

Page 23: How to Use the PowerPoint Template - oracle.com · ディープラーニング、データマイニング、R、Python ... –ソーシャルゲームでの 不正アクセス検知

Copyright © 2016, Oracle and/or its affiliates. All rights reserved. 23

学習の対象を指定し、モデル作成

Step2 モデルの作成(2/2)

トランザクションID:「顧客ID」(バスケットとして識別する列) アイテムID:「商品名」(併売をみる列) 値:「<存在>」 を選択

「相関構築」を右クリックし、 メニューから「実行」を選択

Page 24: How to Use the PowerPoint Template - oracle.com · ディープラーニング、データマイニング、R、Python ... –ソーシャルゲームでの 不正アクセス検知

Copyright © 2016, Oracle and/or its affiliates. All rights reserved. 24

Step3 結果の確認

「相関構築」ノードを右クリックし、 「モデルの表示」→モデル名を選択

「O/S Documentation Set - English 」を購入している顧客の 96.6667% は Mouse Pad を購入している

Page 25: How to Use the PowerPoint Template - oracle.com · ディープラーニング、データマイニング、R、Python ... –ソーシャルゲームでの 不正アクセス検知

Copyright © 2016, Oracle and/or its affiliates. All rights reserved.

バスケット分析(アソシエーションモデル)補足

• アソシエーションモデルのインプットは 2次元トランザクションデータ –一連のバスケットまたはトランザクションで販売された商品群

–ケースIDが1回の取引(トランザクション)を表し、トランザクションのデータは複数の行に格納する

• ポイント

–一番よく売れている商品は多くのバスケットに含まれる可能性が高いため除外を検討する • バスケット内個数との関連を検討

– Oracleの機械学習なら フィルタを追加することで簡単に実装可能 • マスター表と結合してIDを名前にして表示させるなども可能

25

Page 26: How to Use the PowerPoint Template - oracle.com · ディープラーニング、データマイニング、R、Python ... –ソーシャルゲームでの 不正アクセス検知

Copyright © 2016, Oracle and/or its affiliates. All rights reserved. 26

顧客情報 (属性値や、過去の利用状況など)から、 その顧客が今後優良顧客になる可能性を算出したい

アルゴリズム • 重回帰 • SVM • 決定木

顧客データ

予測された優良顧客リスト ・顧客ID ・性別 ・所在地 ・継続期間 ・前月請求額 ・・・ ・優良顧客フラグ

分類モデル

Page 27: How to Use the PowerPoint Template - oracle.com · ディープラーニング、データマイニング、R、Python ... –ソーシャルゲームでの 不正アクセス検知

Copyright © 2016, Oracle and/or its affiliates. All rights reserved. 27

顧客データを元に、保険の加入/非加入はどのようなグループに分けられるのか分析

機械学習で優良顧客分析

顧客ID 性別 年齢 職業 保険加入

101 男性 31 会社員 Y

102 女性 28 主婦 N

103 女性 36 主婦 N

104 男性 43 会社員 Y

105 女性 47 自営業 N

Y:30人 N:25人

Y:24人 N:9人

Y:6人 N:16人

Y:20人 N:2人

Y:4人 N:7人

Y:4人 N:6人

Y:2人 N:10人

年齢≧30 年齢<30

性別=男性 性別=女性 職業=会社員 職業=その他

全体

Page 28: How to Use the PowerPoint Template - oracle.com · ディープラーニング、データマイニング、R、Python ... –ソーシャルゲームでの 不正アクセス検知

Copyright © 2016, Oracle and/or its affiliates. All rights reserved. 28

学習対象となる既存顧客表を選択

Step1 データソースを選択

ワークフロー・エディタより(データ)「データソース」をワークフロー設計画面にドラッグ&ドロップ

「 既存顧客表」を選択して 「終了」をクリック

Page 29: How to Use the PowerPoint Template - oracle.com · ディープラーニング、データマイニング、R、Python ... –ソーシャルゲームでの 不正アクセス検知

Copyright © 2016, Oracle and/or its affiliates. All rights reserved. 29

分類モデルを作成し、入力データとして既存顧客表をつかう

Step2 モデルの作成(1/2)

ワークフロー・エディタより(モデル)「分類」ノードをドラッグ&ドロップ

「 既存顧客表」を右クリックし、「接続」を選択

Page 30: How to Use the PowerPoint Template - oracle.com · ディープラーニング、データマイニング、R、Python ... –ソーシャルゲームでの 不正アクセス検知

Copyright © 2016, Oracle and/or its affiliates. All rights reserved. 30

学習の対象を指定し、モデル作成

Step2 モデルの作成(2/2)

ターゲット:「保険加入」 ケースID:「CUSTOMER_ID」 を選択 デフォルトで分類モデルでは、4つのアルゴリズムが実行される

「分類構築」ノードを右クリックし、メニューから「実行」を選択 (完了すると右上に緑のチェックが入る)

Page 31: How to Use the PowerPoint Template - oracle.com · ディープラーニング、データマイニング、R、Python ... –ソーシャルゲームでの 不正アクセス検知

Copyright © 2016, Oracle and/or its affiliates. All rights reserved. 31

Step3 予測モデルの予測精度を確認

「分類構築」ノードを右クリックし、 「テスト結果の比較」を選択

各アルゴリズムごとの予測精度をグラフで表示 (決定木(DT)アルゴリズムが一番予測信頼度が高い)

Page 32: How to Use the PowerPoint Template - oracle.com · ディープラーニング、データマイニング、R、Python ... –ソーシャルゲームでの 不正アクセス検知

Copyright © 2016, Oracle and/or its affiliates. All rights reserved. 32

Step4 予測モデルの確認

作成、選択したモデルをクリック

Page 33: How to Use the PowerPoint Template - oracle.com · ディープラーニング、データマイニング、R、Python ... –ソーシャルゲームでの 不正アクセス検知

Copyright © 2016, Oracle and/or its affiliates. All rights reserved.

Step5 スコアリング結果を表に格納

33

スコアリング対象の表(見込み顧客)をデータソースとして追加し、「適用」ノードに接続

(評価と適用)「適用」ノード 分類構築から接続する

「表またはビュー」ノードを追加(出力ノード)し適用から接続する

Page 34: How to Use the PowerPoint Template - oracle.com · ディープラーニング、データマイニング、R、Python ... –ソーシャルゲームでの 不正アクセス検知

Copyright © 2016, Oracle and/or its affiliates. All rights reserved.

Program Agenda

機械学習概要

実践!Oracle Databaseで機械学習

クラウド環境を使うメリット

Oracle Databaseの機械学習機能概要

まとめ

1

2

3

4

5

34

Page 35: How to Use the PowerPoint Template - oracle.com · ディープラーニング、データマイニング、R、Python ... –ソーシャルゲームでの 不正アクセス検知

Copyright © 2016, Oracle and/or its affiliates. All rights reserved. 35

機械学習の特長 データ量を増やすことによって、予測精度を上げる

ランダム

100% 0%

20の属性からなるモデル

75の属性からなるモデル

250の属性からなるモデル

ビッグデータ(例えば数百の属性 からなる入力)で生成されたモデル

•統計データ • POSトランザクションデータ • テキストやコメント •位置情報 •過去データと直近の行動データ •ウェブログデータ •センサーデータ etc.

100%

全体の何割にアプローチするか

ターゲット層へヒットする割合

Page 36: How to Use the PowerPoint Template - oracle.com · ディープラーニング、データマイニング、R、Python ... –ソーシャルゲームでの 不正アクセス検知

Copyright © 2016, Oracle and/or its affiliates. All rights reserved.

•大量のデータセット – 100~1000超の属性

– 1000~何億のデータ・レコード

–数値だけではなく文字列も対象

–データの整合性やコードの統一

•手動でこのようなデータを扱うことは困難

→ITのパワーをフルに活用 – Database

•モデルを算出するためのデータを蓄積

–マイニング・アルゴリズム

•最適なモデルを算出するための ロジック

36

機械学習の特長

Page 37: How to Use the PowerPoint Template - oracle.com · ディープラーニング、データマイニング、R、Python ... –ソーシャルゲームでの 不正アクセス検知

Copyright © 2016, Oracle and/or its affiliates. All rights reserved. 37

典型的なデータ解析基盤の課題

マーケティング担当 インフラ担当

データの 取得依頼

PC内でデータ 解析を実施

販売情報 +

顧客情報

対象データの エクスポート

解析結果の格納依頼

解析結果の インポート ビジネス部門 情報システム部門

意思決定の遅延

性能問題 情報漏えいリスク

Page 38: How to Use the PowerPoint Template - oracle.com · ディープラーニング、データマイニング、R、Python ... –ソーシャルゲームでの 不正アクセス検知

Copyright © 2016, Oracle and/or its affiliates. All rights reserved.

データは増加するが、IT予算は増えないというジレンマ

コスト

コスト/テラバイト

$7,500-$9,000

IT予算に占める ストレージ費用の割合

10%

4%

毎年4%の上積みが IT予算に求められる

イノベーション

モバイル

リテール

オムニチャネル

イノベーション

Internet of Things

Big Data Management

予算

年間IT予算の増加率

1-2%

データ

企業が保有する データ量の増加率

40%

38

Page 39: How to Use the PowerPoint Template - oracle.com · ディープラーニング、データマイニング、R、Python ... –ソーシャルゲームでの 不正アクセス検知

Copyright © 2016, Oracle and/or its affiliates. All rights reserved. 39

Oracleのクラウド環境での機械学習

マーケティング担当 インフラ担当 販売情報 +

顧客情報 データ解析のフローを設計 処理はクラウド側で実施 解析結果の格納も フローとして設計

クラウド環境に データをクローン

クイック・スモールスタート

オンプレミスにも移行可能な ハイブリッドクラウド

暗号化・権限分掌による 高セキュリティレベル

Page 40: How to Use the PowerPoint Template - oracle.com · ディープラーニング、データマイニング、R、Python ... –ソーシャルゲームでの 不正アクセス検知

Copyright © 2016, Oracle and/or its affiliates. All rights reserved. 40

No.1データベースをそのままクラウド上で利用可能

Oracle Database Cloud Service (DBCS)

Database Cloud Service

データベースが使えるまで、わずか5画面

リソースが足りなくなったら、すぐに拡張できる

すぐに使える すぐに拡張できる

費用は従量制 サーバーもソフトウェアライセンス(オプション含)も

使った分だけ お支払い

定番機能から機械学習まですぐ使える形で提供

最高のデータベース基盤である Exadata を選択可能 エンター

プライズ対応

Page 41: How to Use the PowerPoint Template - oracle.com · ディープラーニング、データマイニング、R、Python ... –ソーシャルゲームでの 不正アクセス検知

Copyright © 2016, Oracle and/or its affiliates. All rights reserved. 41

動作検証(1週間=30時間)+2か月間(3時間×40営業日)利用

参考コストイメージ

• 動作検証期間コスト

– 1 OCPU 15GBメモリのマシンパワーで実施

– 環境設定(10時間)

• 分析ユーザ作成/設定

• 150GBのストレージ容量1年分保持

– 操作確認(10時間)

– データロード(10時間)

• 120時間利用コスト

– 2 OCPU 15GBメモリのマシンパワーで実施

– 分析PDCAサイクル(120時間)

• 日々3時間 x 20日 x 2か月間

動作検証期間コスト 120時間利用コスト (2か月間)

DBCS 24,797円 198,374円

Storage 21,600円

合計 46,397円 198,374円 ※分析実行回数・ユーザー数に関して 制約なし(金額への影響はなし)

Page 42: How to Use the PowerPoint Template - oracle.com · ディープラーニング、データマイニング、R、Python ... –ソーシャルゲームでの 不正アクセス検知

Copyright © 2016, Oracle and/or its affiliates. All rights reserved. 42

Oracle Database Cloud Service でここまでできる!

Oracle Advanced Analytics (Oracle Data Mining)

Oracle Application Express

Oracle REST Data Services

Data Miner GUI Oracle SQL Developer

https://

Mobiles

Page 43: How to Use the PowerPoint Template - oracle.com · ディープラーニング、データマイニング、R、Python ... –ソーシャルゲームでの 不正アクセス検知

Copyright © 2016, Oracle and/or its affiliates. All rights reserved.

Program Agenda

機械学習概要

実践!Oracle Databaseで機械学習

クラウド環境を使うメリット

Oracle Databaseの機械学習機能概要

まとめ

1

2

3

4

5

43

Page 44: How to Use the PowerPoint Template - oracle.com · ディープラーニング、データマイニング、R、Python ... –ソーシャルゲームでの 不正アクセス検知

Copyright © 2016, Oracle and/or its affiliates. All rights reserved. 44

一般的な機械学習アプローチ

①サンプルデータの取り出し

⑦適用結果のロード

⑧適用結果の活用

②サンプルデータの加工 ③モデルの作成

データベース

機械学習サーバ

④本番データの取り出し

⑤本番データの加工

⑥本番データに

モデルを適用

業務データ 機械学習

Page 45: How to Use the PowerPoint Template - oracle.com · ディープラーニング、データマイニング、R、Python ... –ソーシャルゲームでの 不正アクセス検知

Copyright © 2016, Oracle and/or its affiliates. All rights reserved. 45

一般的な機械学習アプローチの課題

データベースの管理、分析処理、セキュリティの管理ごとにインターフェースや処理方式が異なるため、作業の標準化が困難

分析サーバ上でのデータセキュリティ対策が別途必要

データやり取りの工数が増大

分析サーバの高コスト化

データベースと分析サーバ間のデータのやり取りが発生 ・データベースからのアンロード ・データベースから取り出したデータを分析サーバへ転送 ・分析サーバでモデリングしたデータをDBへ転送 ・モデリングデータをDBへローディング

分析作業を高速化するため、高スペックな分析サーバが必要

特にデータ量が増えるほど大きな影響

H/W、運用管理面でコストが増加

Page 46: How to Use the PowerPoint Template - oracle.com · ディープラーニング、データマイニング、R、Python ... –ソーシャルゲームでの 不正アクセス検知

Copyright © 2016, Oracle and/or its affiliates. All rights reserved.

Oracleのアプローチ

• データの移動が必要ない –データ移動コスト(工数/時間)の削減

–データベースのパワーを使った大規模な分析が可能

–セキュリティの確保

• アプリケーションへの組み込みが容易 – Oracle Databaseにつなげられれば、 マイニング機能を利用可能

– SQL, PL/SQLから利用可能

46

データベース内で分析が動く分析エンジン

Page 47: How to Use the PowerPoint Template - oracle.com · ディープラーニング、データマイニング、R、Python ... –ソーシャルゲームでの 不正アクセス検知

Copyright © 2016, Oracle and/or its affiliates. All rights reserved.

Oracleのアプローチのメリット

•10-100x パフォーマンス

– Databaseの機能との統合

– Database内で分析を行うことでデータの移動の必要がない • より早く分析結果にアクセスできる: 日単位、週単位 分単位、時間単位

•10x TCOの削減

–旧来の統計/マイニングパッケージの高価な年単位の利用料金を削減

– Oracle Database, DWHのプラットフォームを活用

47

Page 48: How to Use the PowerPoint Template - oracle.com · ディープラーニング、データマイニング、R、Python ... –ソーシャルゲームでの 不正アクセス検知

Copyright © 2016, Oracle and/or its affiliates. All rights reserved. 48

アナリティクスSQLをデータベースに、そしてクラウドへ

Oracle Databaseの機械学習機能の進化

Thinking Machines Corporation “Darwin”

Oracle Data Mining “Java API”

Oracle Data Mining “PL/SQL”

Oracle Data Miner “Classic”

Oracle R Enterprise

Oracle Advanced Analytics

Oracle Data Miner

Oracle R Advanced Analytics for Hadoop

Oracle Analytics Cloud

1998 2002 2009 2004 2015 2012

Page 49: How to Use the PowerPoint Template - oracle.com · ディープラーニング、データマイニング、R、Python ... –ソーシャルゲームでの 不正アクセス検知

Copyright © 2016, Oracle and/or its affiliates. All rights reserved. 49

Oracle Advanced Analyticsライセンスとして2つのコンポーネントを提供

高度な機械学習エンジンをデータベースに内包

Oracle R Enterprise • 利用者の多いOSSの統計言語/環境 • 拡張性を得るためにデータベースに統合 • 広範な統計、高度な分析のための関数を用意 • Rの機能をアプリケーションや OBIEEに統合 • 探索的なデータ分析 • すぐれたグラフ描画機能 • Open source R (CRAN) パッケージ

Oracle Data Mining • データベース内部でマイニング処理 • 12のin-databaseデータマイニングアルゴリズム • Predictive analytics アプリケーションを 開発するための環境

• SQL Developer/Oracle Data Minerによる GUIによる開発

• PL/SQL APIとJava API • Exadataのパワーを利用したモデルの適用

R

Page 50: How to Use the PowerPoint Template - oracle.com · ディープラーニング、データマイニング、R、Python ... –ソーシャルゲームでの 不正アクセス検知

Copyright © 2016, Oracle and/or its affiliates. All rights reserved. 50

機械学習アルゴリズムと活用例マッピング テーマ イメージ図 アルゴリズム 応用範囲の例

分類

Logistic Regression (GLM) Decision Trees Naïve Bayes Support Vector Machines (SVM)

ロイヤルカスタマーの予測 稼働会員から外れる会員の予測 優良商品へ成長する製品の予測 インバウンドニーズのある店舗の予測

回帰 Linear Regression (GLM) Support Vector Machine (SVM)

特定商品の売り上げを予測 特定顧客の消費金額を予測

異常検出 One Class SVM 突発的な商品需要の検知 機器の異常値検知

属性重要度 Minimum Description Length (MDL) Principal Components Analysis (PCA)

属性の絞り込み、ノイズの低減

相関ルール Apriori バスケット分析/ NBO(Next Best Offer)分析

クラスタリング Hierarchical k-Means Hierarchical O-Cluster Expectation-Maximization Clustering (EM)

製品のグルーピング/ テキストマイニング 遺伝子-タンパク質分析

特徴抽出 Nonnegative Matrix Factorization (NMF) Singular Value Decomposition (SVD)

テキスト分析 / 因子分析

A1 A2 A3 A4 A5 A6 A7

F1 F2 F3 F4

Page 51: How to Use the PowerPoint Template - oracle.com · ディープラーニング、データマイニング、R、Python ... –ソーシャルゲームでの 不正アクセス検知

Copyright © 2016, Oracle and/or its affiliates. All rights reserved.

GUIによる操作で分析フローを設計が可能

• フローをイメージで保存可能

• クライアントツールから データベースを操作

•複雑な機械学習の処理を 自動で同時実行

• モデリングに適したデータに 自動変換

• ETL処理も実行可能

51

Page 52: How to Use the PowerPoint Template - oracle.com · ディープラーニング、データマイニング、R、Python ... –ソーシャルゲームでの 不正アクセス検知

Copyright © 2016, Oracle and/or its affiliates. All rights reserved. 52

Oracle Advanced Analyticsのインタフェース

Oracle BI

Oracle Database Enterprise Edition Oracle Advanced Analytics

並列実行のためのSQLデータ・マイニング/分析関数 スケーラブルな分散、高性能のRとの統合

SQL Developer HCM, CRMなど

R Enterprise Client

データサイエンティスト + ビジネスユーザー Rプログラマー

ビジネスユーザー (マネージャーレベル) エンドユーザー

Page 53: How to Use the PowerPoint Template - oracle.com · ディープラーニング、データマイニング、R、Python ... –ソーシャルゲームでの 不正アクセス検知

Copyright © 2016, Oracle and/or its affiliates. All rights reserved.

機械学習機能のオラクル・アプリケーションへの組込み

アプリケーション 機能

業種別データモデル • 工場管理 • 通信業における顧客セグメンテーション、プロファイリング、離脱予測 • 小売業におけるバスケット分析、顧客ロイヤリティ予測 • 航空業における発着便数最適化、顧客生涯価値向上

支出分類 • 支出とパフォーマンスの可視性を改善(誤承認検出)

人材管理 • 労働力の予測(離職率とパフォーマンス予測)

CRM • 販売計画—販売機会の予測(いつ、なにを、どのくらい)

ID管理 • ユーザログイン時のリアルタイムセキュリティ管理

イベント処理 • データモデルと統合されたイベント処理

カスタマーサービス • ユーザへのインシデント予測管理サービス(障害未然防止)

小売顧客分析 • 併売分析・推奨

53

Page 54: How to Use the PowerPoint Template - oracle.com · ディープラーニング、データマイニング、R、Python ... –ソーシャルゲームでの 不正アクセス検知

Copyright © 2016, Oracle and/or its affiliates. All rights reserved.

Program Agenda

機械学習概要

実践!Oracle Databaseで機械学習

クラウド環境を使うメリット

Oracle Databaseの機械学習機能概要

まとめ

1

2

3

4

5

54

Page 55: How to Use the PowerPoint Template - oracle.com · ディープラーニング、データマイニング、R、Python ... –ソーシャルゲームでの 不正アクセス検知

Copyright © 2016, Oracle and/or its affiliates. All rights reserved. 55

データ活用におけるPDCAサイクル (CRISP-DM)

ビジネス 理解

データ 理解

データ 準備

評価

展開

データ モデリング

データ分析におけるPDCAサイクルを クラウド・マシン・ラーニング によって自動化・サポート

Page 56: How to Use the PowerPoint Template - oracle.com · ディープラーニング、データマイニング、R、Python ... –ソーシャルゲームでの 不正アクセス検知

Copyright © 2016, Oracle and/or its affiliates. All rights reserved.

データ活用におけるPDCAサイクル (CRISP-DM)

56

ビジネス 理解

データ 理解

データ 準備

データ モデリング

評価 展開

ビジネス 目的を 決定する

状況を 評価する

分析の ゴールを 決定する

プロジェクト計画を建てる

初期 データを 収集する

データを 記述する

データを 調べる

データの 品質を 検証する

データを 選択する

データを 整理する

データを 構築する

データを 統合する

データを 設定する

モデリング手法を 選択する

テスト 結果を 生成する

モデルを 構築する

モデルを 評価する

結果を 評価する

プロセスを 審査する

次の ステップを 決定する

展開を 計画する

運用を 計画する

最終 レポートを 作成する

プロジェクトを審査する

ビジネス 理解

データ 理解

データ 準備

評価

展開

データ モデリング

Page 57: How to Use the PowerPoint Template - oracle.com · ディープラーニング、データマイニング、R、Python ... –ソーシャルゲームでの 不正アクセス検知

Copyright © 2016, Oracle and/or its affiliates. All rights reserved. 57

包括的な分析環境をクラウドで提供

R データ連携 データマネジメント

& データ分析

データビジュアライズ

Page 58: How to Use the PowerPoint Template - oracle.com · ディープラーニング、データマイニング、R、Python ... –ソーシャルゲームでの 不正アクセス検知

Copyright © 2016, Oracle and/or its affiliates. All rights reserved.

Appendix データマイニングの処理の流れ

58

Page 59: How to Use the PowerPoint Template - oracle.com · ディープラーニング、データマイニング、R、Python ... –ソーシャルゲームでの 不正アクセス検知

Copyright © 2016, Oracle and/or its affiliates. All rights reserved.

データマイニングの処理の流れ

①データの探索

②データの収集・加工

③モデルの作成

④モデルの評価

59

Page 60: How to Use the PowerPoint Template - oracle.com · ディープラーニング、データマイニング、R、Python ... –ソーシャルゲームでの 不正アクセス検知

Copyright © 2016, Oracle and/or its affiliates. All rights reserved.

データの探索

• データの可視化を通じて、分析の目的を明確にする (どのデータを利用して何を予測するのか?)

• データの特徴をつかむ

–マイニングを行うためには、どのようにデータを加工しなければならないのかを明確にする

60

分析の目的を明確にする / データの特徴をつかむ

Page 61: How to Use the PowerPoint Template - oracle.com · ディープラーニング、データマイニング、R、Python ... –ソーシャルゲームでの 不正アクセス検知

Copyright © 2016, Oracle and/or its affiliates. All rights reserved.

データの収集・加工

• データの収集・加工 –データの収集

–データの粒度の調整

–結合、フィルタリング

• データのマイニング用処理 –欠損値の補完

–外れ値の排除

–階級値への変換

61

アルゴリズムに適用できるようにデータを加工

Page 62: How to Use the PowerPoint Template - oracle.com · ディープラーニング、データマイニング、R、Python ... –ソーシャルゲームでの 不正アクセス検知

Copyright © 2016, Oracle and/or its affiliates. All rights reserved.

モデルの作成

•目的の明確化 –分類?クラスタリング?回帰?

• アルゴリズムの選択 –複数のアルゴリズムでモデルを生成することもある

62

アルゴリズムの利用

Page 63: How to Use the PowerPoint Template - oracle.com · ディープラーニング、データマイニング、R、Python ... –ソーシャルゲームでの 不正アクセス検知

Copyright © 2016, Oracle and/or its affiliates. All rights reserved.

モデルの評価

• テスト用データによるモデルの正確さの評価

•結果を踏まえて、利用データ・アルゴリズムの変更も検討

63

アルゴリズムの利用

Page 64: How to Use the PowerPoint Template - oracle.com · ディープラーニング、データマイニング、R、Python ... –ソーシャルゲームでの 不正アクセス検知

Copyright © 2016, Oracle and/or its affiliates. All rights reserved. 64

Page 65: How to Use the PowerPoint Template - oracle.com · ディープラーニング、データマイニング、R、Python ... –ソーシャルゲームでの 不正アクセス検知

Copyright © 2016, Oracle and/or its affiliates. All rights reserved. 65

Page 66: How to Use the PowerPoint Template - oracle.com · ディープラーニング、データマイニング、R、Python ... –ソーシャルゲームでの 不正アクセス検知