29
1 DataSpider 接続先技術動 - ソーシャル、ビッグ データ』 株式会社アプレッソ 代表取締役副社長 CTO 小野 和俊

20120822_dstn技術交流会_DataSpider接続先技術動向

  • Upload
    dstn

  • View
    1.161

  • Download
    2

Embed Size (px)

Citation preview

Page 1: 20120822_dstn技術交流会_DataSpider接続先技術動向

1

『 DataSpider接続先技術動 向 - ソーシャル、ビッグ

データ』 

株式会社アプレッソ代表取締役副社長 CTO

小野 和俊 

Page 2: 20120822_dstn技術交流会_DataSpider接続先技術動向

• 最近の技術トレンド• 今後の DataSpiderで検討中の機能• ディスカッション

アジェンダアジェンダ

2

Page 3: 20120822_dstn技術交流会_DataSpider接続先技術動向

3

ソーシャルメディアとエンタープライズソーシャル

Page 4: 20120822_dstn技術交流会_DataSpider接続先技術動向

• ソーシャルメディア– Facebook: 全世界で 9億人以上のユーザー– Twitter: 全世界で 1億 4000万人のユーザー– フォーチューン 100社中、 61%が Facebookを企業利用 (2011年 )

• エンタープライズ・ソーシャル– 世界の企業が 2010年末までにエンタープライズ・ソーシャル・ソフトウェアに費やすコストは 6億6,440万ドル。 2011年は 16%増の 7億 6,920万ドル。(Gartner, 2010年 12 月 http://bit.ly/sERyoQ )

ソーシャルメディアの市場ソーシャルメディアの市場

4

Page 5: 20120822_dstn技術交流会_DataSpider接続先技術動向

ソーシャルメディア利用者の推移ソーシャルメディア利用者の推移

5

In the looop「 2012年 3 月最新ニールセン調査」より http://bit.ly/IjiUWt

Page 6: 20120822_dstn技術交流会_DataSpider接続先技術動向

エンタープライズソーシャルエンタープライズソーシャル

6

In the looop 「企業内にソーシャルの仕組みを」より http://bit.ly/yVUyOK

Page 7: 20120822_dstn技術交流会_DataSpider接続先技術動向

エンタープライズソーシャルエンタープライズソーシャル

7

In the looop 「企業内にソーシャルの仕組みを」より http://bit.ly/yVUyOK

Page 8: 20120822_dstn技術交流会_DataSpider接続先技術動向

エンタープライズソーシャルツールエンタープライズソーシャルツール

8

In the looop 「企業内にソーシャルの仕組みを」より http://bit.ly/yVUyOK

Page 9: 20120822_dstn技術交流会_DataSpider接続先技術動向

• 例 .– 企業の Facebookページのメッセージごとの「いいね」を付けたユーザーの属性情報を取得し、社内のシステムに反映させたり、レポート出力したりする

– 売れ筋商品が入荷したら Facebookで「ファン」に通知する

– 宿泊予約サイトで当日にキャンセルが発生したら当日限定の格安情報を Facebookページで知らせる

– 社内ソーシャルメディアに社内システムから上がってきたアラート情報を自動的に書き込む

DataSpiderDataSpiderとソーシャルメディアとソーシャルメディア

9

ソーシャルメディアやエンタープライズソーシャルと社内の各種システムとの双方向の連携を実現できる

Page 10: 20120822_dstn技術交流会_DataSpider接続先技術動向

10

ビッグデータのエンタープライズ活用

Page 11: 20120822_dstn技術交流会_DataSpider接続先技術動向

Cookpad Cookpad たべみるの事例たべみるの事例

11

Cookpad 佐々木氏「 961万人の食卓を支えるデータ解析」よりhttp://slidesha.re/azyROS

Page 12: 20120822_dstn技術交流会_DataSpider接続先技術動向

Cookpad Cookpad たべみるの事例たべみるの事例

12

Cookpad 佐々木氏「 961万人の食卓を支えるデータ解析」よりhttp://slidesha.re/azyROS

Page 13: 20120822_dstn技術交流会_DataSpider接続先技術動向

Cookpad Cookpad たべみるの事例たべみるの事例

13

Cookpad 佐々木氏「 961万人の食卓を支えるデータ解析」よりhttp://slidesha.re/azyROS

Page 14: 20120822_dstn技術交流会_DataSpider接続先技術動向

ビッグデータとはビッグデータとは

• ビッグデータの例– ウェブサーバーのログ– センサーから得られるデータ– モバイル聞きが生成するデータ– 音声や動画などのマルチメディアデータ

Page 15: 20120822_dstn技術交流会_DataSpider接続先技術動向

• アンデルセンの直営ベーカリー、パン・菓子の製造・卸販売などの原価計算システム。

• 従来は原材料原価から製品原価を算出するバッチ処理に毎日 4時間かかっており、原価の変動に応じて毎日何度も再計算処理をさせることが難しかった。

• PL/SQLをクラウド上の Hadoop/Asakusa FWに置き換え、処理時間を 4時間から 20分に短縮。

http://cloud.watch.impress.co.jp/docs/news/20120507_531036.html

ビッグデータの事例ビッグデータの事例

15

Page 16: 20120822_dstn技術交流会_DataSpider接続先技術動向

ビッグデータの事例ビッグデータの事例

• 自動車に搭載したコンピュータから運転情報を収集し、急ブレーキが多い交差点が見つかると、それに基づき車線の配置を変更して事故を未然に防止できた。

• 保険契約者の車に GPS搭載の機器を設置して運行情報を収集、走行パターンに応じて保険料金を毎月決定 (深夜高速等のハイリスク走行パターンが多いと高くなる等 )

http://japan.zdnet.com/cio/sp_bigdata2011/35007790/3/

Page 17: 20120822_dstn技術交流会_DataSpider接続先技術動向

ビッグデータの事例ビッグデータの事例

• マーケティング : SNSの書き込みや検索結果から消費者がほしい商品を瞬時に判断してオススメ

• 医療 : 患者の血圧、心拍数などの情報から病状の悪化を事前に察知

• 防犯 : クレジットカード決済時に購入パターンから不正利用者を発見

• 交通 : GPS情報から、渋滞に巻き込まれないように自動車の走行経路の変更を提案

http://www.toyokeizai.net/business/industrial/detail/AC/4dbc5d85726430bd1c51b46ac999184a/

Page 18: 20120822_dstn技術交流会_DataSpider接続先技術動向

• 一方・・・– 「そもそも統計学はビッグデータを不要にする技術なはず」

– 「統計の基本的な考え方は、大きなデータを全部見なくても、サンプリングで傾向が導き出せるという点。こういう統計技術があったため、今までセンサーデータを採らなくても、分析ができていた。ビッグデータを声高に唱える人は、こういう統計の基礎の習得が不十分なのではないか?と思われることが多い」

– 例 . テレビの視聴率http://ascii.jp/elem/000/000/687/687170/

18

Page 19: 20120822_dstn技術交流会_DataSpider接続先技術動向

• 例 .– 原価計算に必要な原価データその他の関連情報を各システムから抽出し、 Hadoopに渡す

– フォーマットの異なるログを正規化しながら Hadoopに渡す

– 社内データベースを抽出・マージしてクラウド上のNoSQLに同期

– 社内データベースの内容をクラウド上の NoSQLにバックアップ

DataSpiderDataSpiderとビッグデータとビッグデータ

19

ビッグデータ関連の技術(Hadoop / NoSQL / NewSQL等 )と社内システムの連携を実現

Page 20: 20120822_dstn技術交流会_DataSpider接続先技術動向

20

今後の DataSpiderで検討中の機能

Page 21: 20120822_dstn技術交流会_DataSpider接続先技術動向

• 操作パフォーマンス・ユーザビリティ向上– ペルソナ・シナリオ法

• 実行パフォーマンス高速化– スマートコンパイラ– ファイル系アダプタのループ処理高速化

21

Page 22: 20120822_dstn技術交流会_DataSpider接続先技術動向

DataSpiderDataSpiderとペルソナ・シナリオ法とペルソナ・シナリオ法

22

アプレッソで使用しているペルソナ

ペルソナ =本物の人間ではないけれど、デザインのプロセスの過程で本物の人間の代わりになるもの。実際のユーザーの仮説的な原型。(「コンピューターはむずかしすぎてつかえない!」より

主要ペルソナ =利用者として想定される、もっとも典型的なユーザー。

Page 23: 20120822_dstn技術交流会_DataSpider接続先技術動向

参考参考 : PSP(: PSP(パラレルストリーミングパラレルストリーミング ))機能機能

23

4

変換処理

1

321

抽出処理 書込処理

2

34

一定の分割単位で各処理を並列に処理させるため、理論上データ容量の制限なし。

Page 24: 20120822_dstn技術交流会_DataSpider接続先技術動向

• CSV、データベース、固定長 /可変長などのテーブルモデル型の結果データを持つアダプタで対応。

• 一部のMapperロジックは PSP 未対応 (ヘルプに対応一覧表あり )

• スクリプト作成時に PSP有効 /無効を選択

• 結果データを複数の出力先で使用できません。

24

Page 25: 20120822_dstn技術交流会_DataSpider接続先技術動向

パフォーマンス例パフォーマンス例

25

• メモリ処理で一番処理に時間がかかっているコンポーネントの処理時間 +αまで高速化可能。しかも理論上データ容量に制限なし。

• ある処理だけがとても遅い (例えば全体の 90%など )場合には、 PSPのパフォーマンス効果は少ない。

非 PSP(メモリ )

47秒 4秒 15秒 65秒

非 PSP(大容量 )

59秒 36秒 41秒 136秒(2.07)

PSP - - - 59秒(0.9)

※100バイト /カラム、 100カラム /行、 10 万行 (約 1GB) CSVファイル

Page 26: 20120822_dstn技術交流会_DataSpider接続先技術動向

スマートコンパイラスマートコンパイラ

26

今後対応予定

PSP実行部分

通常実行部分

Page 27: 20120822_dstn技術交流会_DataSpider接続先技術動向

27

まとめ

Page 28: 20120822_dstn技術交流会_DataSpider接続先技術動向

• 最近の技術トレンド• 今後の DataSpiderで検討中の機能• ディスカッション

28

Page 29: 20120822_dstn技術交流会_DataSpider接続先技術動向

…お問い合わせは 株式会社アプレッソTEL: 03-4321-1111E-mail: [email protected]:http://www.appresso.com/

29© 2010 APPRESSO K.K. All Rights Reserved.