48
(C) Recruit Technologies Co.,Ltd. All rights reserved. 2015年7月15日 リクルートテクノロジーズ ITソリューション統括部ビッグデータ部 野村 変わる !? リクルートグループ のデータ解析基盤

変わる!? リクルートグループのデータ解析基盤

Embed Size (px)

Citation preview

(C) Recruit Technologies Co.,Ltd. All rights reserved.

2015年7月15日

リクルートテクノロジーズITソリューション統括部ビッグデータ部

野村 健

変わる!?リクルートグループのデータ解析基盤

(C) Recruit Technologies Co.,Ltd. All rights reserved.

BIG DATA Departmentはじめに

本日お伝えしたいこと

リクルートグループのデータ活用状況について1

データ活用をしていく中で、でてきた課題感に対する対応について2

1

(C) Recruit Technologies Co.,Ltd. All rights reserved.

BIG DATA Department自己紹介

野村 健〜2009年:

・電気メーカのソフトウェア開発会社に勤務

・交通管制システムの導入

- 主に、旅行時間情報の算出

- 運用管理システムの構築

〜2014年:

・某SIer会社に勤務

・通信キャリアのログ分析基盤のアーキテクチャ設計

・デジタルコンテンツのレコメンドシステムのアーキテクチャ設計

・+5年 Hadoopなど並列分散処理関連の経験

2014年11月〜:

・リクルートテクノロジーズにて、R&D及びHadoop基盤運用を担当2

(C) Recruit Technologies Co.,Ltd. All rights reserved.

1

2 最近のデータ活用状況紹介

3

4

5

6

ビッグデータへの取り組み

データ活用における課題

新たなデータ解析基盤の要件

現状の取り組み

アジェンダ

まとめと今後の展望

3

(C) Recruit Technologies Co.,Ltd. All rights reserved.

BIG DATA Department

ビッグデータへの取り組み

4

(C) Recruit Technologies Co.,Ltd. All rights reserved.

BIG DATA Departmentビッグデータへの取組みの歴史

2012年

Hadoop

活用拡大

DWH導入展開

ほぼ全ての事業で

Hadoopの活用を実施

ビッグデータ活用基盤

を拡充(DWH等)

2011年

Hadoopの

本格展開

各サイトで本格展開を

開始、11事業40案件

に適用

Hadoopカンファレンス

をR後援で開催

2010年

高速集計基盤

の研究

Hadoopのリサーチを

開始、この段階の投資

は最小限に抑えサーバ

はWebオークションで

調達

2013年~

全社規模

BI導入展開

ビッグデータの

さらなる活用/

用途拡大に向けた

全社統合DWH構築

リサーチ環境 第1世代Hadoop 第2世代Hadoop/DWH

BI基盤

5

(C) Recruit Technologies Co.,Ltd. All rights reserved.

BIG DATA Departmentビッグデータ基盤構成概要

DWH/Hadoopを中心としたデータ格納領域に各事業等からデータを収集。

様々な利用シーンに対応し、「高速化を追求する」基盤を目指している。

6

データソース データ格納 プレゼンテーション 利用者

事業データ

行動データ

プッシュ基盤ログ

経営データ

経営データ

外部データ

IPアドレスデータ

行動履歴情報

オンプレミス

Redshift

Hadoopエコシステム

高度分析やモデル作成

レポート/モニタリング

ビジネスインサイト(マーケター)

機械学習やモデル実装

エンドユーザー(エグゼ/営業/マネージャ)

マーケター(プロデューサ/事業企画)

データサイエンティスト(高度分析者)

データサイエンティスト(エンジニア)

ツールバーデータ

(C) Recruit Technologies Co.,Ltd. All rights reserved.

BIG DATA Department

最近のデータ活用状況紹介

7

(C) Recruit Technologies Co.,Ltd. All rights reserved.

Server Database

数値で見るデータ解析環境

エコシステム

本番98台/開発24台 1 PB

8

(C) Recruit Technologies Co.,Ltd. All rights reserved.

数値で見るHadoopの使われ方

28,344

1,038万

1日あたりの全JOBの数

1日あたりの全Hbaseクエリの数

リクルートグループ全体

リクルートグループ全体

9

(C) Recruit Technologies Co.,Ltd. All rights reserved.

数値で見るデータ解析案件状況

約200 データ解析案件数(年間)

ビッグデータ部の案件従事人数 240

リクルートテクノロジーズ内での人数(パートナーも含む)

リクルートテクノロジーズ内での案件数

10

(C) Recruit Technologies Co.,Ltd. All rights reserved.

BIG DATA Departmentビッグデータ活用における体制

リクルートグループでは、分析業務に対して以下の3つの役割を定義し案件を推進!

(「コンサル型」+「エンジニア型」)×マーケター

コンサル型 エンジニア型

事業担当者≒マーケターリクルートテクノロジーズ

ビッグデータグループ

Hadoopエンジニア分析者

11

(C) Recruit Technologies Co.,Ltd. All rights reserved.

BIG DATA Department

データドリブンの意思決定・施策 【数が多い】(レコメンド・BI・予測・リアルタイム・非構造)

施策ひとつひとつがより難易度高くかつ長期に【質が高い】①シナリオマーケティング、②リアルタイムレコメンド、③画像解析 etc

事業担当者≒マーケター

の知識向上、データドリブン施策の重要性が認識・拡散。

ここ数年での変化①

12

(C) Recruit Technologies Co.,Ltd. All rights reserved.

BIG DATA Department一般物体認識:スパースコーディング+SVM

一般物体認識: 画像に映った物を特定する処理

① 画像をベクトルに変換するencoderの作成

② encoderで画像をベクトルに変換

③ 教師データのベクトルを用いて判別モデルを生成

④ 未知の画像を②でベクトルに変換

⑤ ③のモデルに④を通し物体を特定

カスタマが興味のある画像に、何が映っているかを特定し、検索の軸としたり、レコメンド利用の可能性がある

13

(C) Recruit Technologies Co.,Ltd. All rights reserved.

BIG DATA Department

特定の技術上で施作実行 【種類が少ない】(MapReduce/Mahout/Hive/HBase)

施策特性に合わせたエコシス/インフラ環境の活用【種類が増加】①YARN+Tez、②Spark(Spark Streaming)、③Impala、④ AWS/TreasureData etc

事業からの要望の高度化から、施策特性に合わせた技術の選択。

ここ数年での変化②

エンジニア型分析者

事業担当者≒マーケター

14

(C) Recruit Technologies Co.,Ltd. All rights reserved.

BIG DATA Department取り掛かり中(一部やりたい)のテーマ紹介

Titan

グラフ画像解析テキスト解析

ストリーム分散SQL

15

(C) Recruit Technologies Co.,Ltd. All rights reserved.

BIG DATA Department

データ活用における課題

16

(C) Recruit Technologies Co.,Ltd. All rights reserved.

BIG DATA Department

データマネジメント

データ活用における課題

データ連携負荷1

17

(C) Recruit Technologies Co.,Ltd. All rights reserved.

BIG DATA Department1. データ連携負荷

個別環境が乱立困ったなぁ~

18

(C) Recruit Technologies Co.,Ltd. All rights reserved.

BIG DATA Department1. データ連携負荷

Oracleユーザ行動ログ

ログ(システム/

アプリ)

Adobe

ログ検索BI/DWHレコメンドエンジン

モニタリング

Hadoop

19

(C) Recruit Technologies Co.,Ltd. All rights reserved.

BIG DATA Department

AWS

1. データ連携負荷

OracleS3/SQSユーザ行動ログ

ログ(システム/

アプリ)

AdobeTreasure

Data

ログ検索BI/DWHレコメンドエンジン

モニタリング

HadoopExaDataプッシュ基盤

20

(C) Recruit Technologies Co.,Ltd. All rights reserved.

BIG DATA Department2. データマネジメント

個別のデータ品質チェックなど共通化できないかな?

21

(C) Recruit Technologies Co.,Ltd. All rights reserved.

BIG DATA Department

AWS

2. データマネジメント

OracleS3/SQSユーザ行動ログ

ログ(システム/

アプリ)

AdobeTreasure

Data

ログ検索BI/DWHレコメンドエンジン

モニタリング

HadoopExaDataプッシュ基盤

品質担保品質担保品質担保品質担保 品質担保品質担保 品質担保

22

(C) Recruit Technologies Co.,Ltd. All rights reserved.

BIG DATA Department

AWS

データ連携・マネジメントに対する課題について

OracleS3/SQSユーザ行動ログ

ログ(システム/

アプリ)

AdobeTreasure

Data

ログ検索BI/DWHレコメンドエンジン

モニタリング

HadoopExaDataプッシュ基盤

データコネクト基盤

品質担保

23

(C) Recruit Technologies Co.,Ltd. All rights reserved.

BIG DATA Department

新たなデータ解析基盤の要件

24

(C) Recruit Technologies Co.,Ltd. All rights reserved.

BIG DATA Department新たなデータ解析基盤の要件とは

1. データソースの多様性

2. データライフサイクル管理

3. データ品質管理

25

(C) Recruit Technologies Co.,Ltd. All rights reserved.

BIG DATA Department新たなデータ解析基盤の要件とは

1. データソースの多様性

2. データライフサイクル管理

3. データ品質管理

26

(C) Recruit Technologies Co.,Ltd. All rights reserved.

BIG DATA Departmentデータソースの多様性

REST API

FTPサーバ

データコレクタ

リアルタイムデータとバッチデータのコレクト・フィード対応

データフィード

27

(C) Recruit Technologies Co.,Ltd. All rights reserved.

BIG DATA Department新たなデータ解析基盤の要件とは

1. データソースの多様性

2. データライフサイクル管理

3. データ品質管理

28

(C) Recruit Technologies Co.,Ltd. All rights reserved.

BIG DATA Departmentデータライフサイクル管理

データ活用の観点2

システム監査の観点1

29

(C) Recruit Technologies Co.,Ltd. All rights reserved.

BIG DATA Departmentデータライフサイクル管理

システム監査の観点

アプリサーバなどデータコネクト データ処理

ログ分析基盤

いつ生成されたデータなのか?

どこで生成されたデータなのか?

社内データセンタ

30

(C) Recruit Technologies Co.,Ltd. All rights reserved.

BIG DATA Departmentデータライフサイクル管理

システム監査の観点

アプリサーバなどデータコネクト データ処理

ログ分析基盤

どの経路から来たデータなのか?

社内データセンタ

31

(C) Recruit Technologies Co.,Ltd. All rights reserved.

BIG DATA Departmentデータライフサイクル管理

システム監査の観点

アプリサーバなど

社内データセンタ

データコネクト データ処理

ログ分析基盤

どのデータを元に生成されたのか?

データフローの管理者は誰か?

誰がどのようにアクセスするのか?32

(C) Recruit Technologies Co.,Ltd. All rights reserved.

BIG DATA Departmentデータライフサイクル管理

データ活用の観点

特定用途による管理

• BI用の列指向ファイルフォーマットなど

生データ

BI用データ

レコメンドエンジン用データ

・・・

33

(C) Recruit Technologies Co.,Ltd. All rights reserved.

BIG DATA Departmentデータライフサイクル管理

データ活用の観点

時系列による管理

• 過去の不必要なデータのクリーニング

直近 1ヶ月後 2ヶ月後 1年後 N年後

・・・ ・・・

削除

34

(C) Recruit Technologies Co.,Ltd. All rights reserved.

BIG DATA Departmentデータライフサイクル管理

データ活用の観点

利用頻度・SLA・コストによる管理

• 蓄積デバイス、HDFSのレプリケーション数などの最適化

・・・ ・・・

利用頻度高 低

35

(C) Recruit Technologies Co.,Ltd. All rights reserved.

BIG DATA Departmentデータライフサイクル管理

データ活用の観点

利用者権限による管理

• ロールベースによる権限毎のデータ分離

生データ(マスキングや暗号化など対策済み)

マーケター用データ

分析者用データ

・・・

事業担当者≒マーケター

分析者36

(C) Recruit Technologies Co.,Ltd. All rights reserved.

BIG DATA Department新たなデータ解析基盤の要件とは

1. データソースの多様性

2. データライフサイクル管理

3. データ品質管理

37

(C) Recruit Technologies Co.,Ltd. All rights reserved.

BIG DATA Departmentデータ品質管理

機密項目(マスキング/暗号化etc)

スキーマ互換性の担保

メタデータ管理

監査用ユニークID管理

ポリシー定義に基づく品質管理

品質チェック

データ蓄積

ポリシーチェック

破棄

データ

38

(C) Recruit Technologies Co.,Ltd. All rights reserved.

BIG DATA Department

現状の取り組み

39

(C) Recruit Technologies Co.,Ltd. All rights reserved.

BIG DATA Departmentフィジビリ検証予定の内容について

フィジビリ検証予定のシステム概要について

ユーザの行動をニアリアルタイムに把握し、サービスレベルを向上したい

ログの活用先の増加が想定されるので、データ連携先の追加がしやすい仕組みにしておきたい

ログの活用に不要な情報に対して、暗号化・マスキングなどの対策コストを抑えたい

40

(C) Recruit Technologies Co.,Ltd. All rights reserved.

BIG DATA Departmentフィジビリ検証予定の内容について

フィジビリ検証予定のシステム概要について

① 事業サイトのログに対し、暗号化・マスキングなどデータの品質及びセキュリティ担保

② データ活用側へ必要なデータのみ限定できるよう、データパイプラインを定義

③ データ活用側が今後増えていくことを見越し、連携方式を統一し連携負荷軽減

アプリサーバ

Agent

アプリサーバ

Agent

事業サイト

マスタシステム

生ログ-アプリ

ETL済ログ-アプリ

変換 蓄積品質

モニタリング基盤

ログ解析基盤

生ログ-アプリ

ETL済ログ-アプリ

変換 蓄積品質

①②

41

(C) Recruit Technologies Co.,Ltd. All rights reserved.

BIG DATA Department検証実施中の内容について

フィジビリ検証予定のシステム概要について

④ ユーザ行動をニアリアルタイムに分析し、予測モデルによる検知からプッシュ基盤などへのアクション通知へ(のちのちは、オンライン学習などもできたら)

アプリサーバ

Agent

アプリサーバ

Agent

事業サイト

マスタシステム

生ログ-アプリ

ETL済ログ-アプリ

変換 蓄積品質

プッシュ基盤

生ログ-アプリ

ETL済ログ-アプリ

変換 蓄積品質

オンライン予測

通知検知

42

(C) Recruit Technologies Co.,Ltd. All rights reserved.

BIG DATA Department

Hadoop YARN

新たなデータ解析基盤への取り組み

検討中のシステム構成概要案

セキュリティポリシー

メタデータリポジトリ

データ変換

データ品質管理

データ蓄積

データフィード

モニタリング

MRv2

データコネクト/データリポジトリ

リアルタイム/バッチ API

データコレクタ

データライフサイクル管理

データ受信

43

(C) Recruit Technologies Co.,Ltd. All rights reserved.

BIG DATA Department

まとめと今後の展望

44

(C) Recruit Technologies Co.,Ltd. All rights reserved.

BIG DATA Department

事業担当者の案件施策に対するデータ連携負荷を軽減し、リクルートグループ内での更なるデータ利活用促進を目指す

まとめと今後

新技術は積極的に試し、事業サービスでの利用可能性を常に模索していく3

ストリームデータから導入を始め、既存のバッチへ横展開そして、共通機能化をしていく

45

(C) Recruit Technologies Co.,Ltd. All rights reserved.

BIG DATA Department一緒に戦ってくれる仲間募集中

本日の「データマネジメント」はデータ解析基盤の1テーマであり他にも取り組んでいます。

RTCでは、一緒に働く

仲間を求めてます!!

リアルタイムデータ解析処理

リソースマネジメントの効率化

データ分析者向けユーザインタフェース etc…リクルートテクノロジーズ

ITソリューション統括部ビッグデータ部

野村 健<[email protected]>

(C) Recruit Technologies Co.,Ltd. All rights reserved.

BIG DATA Department

ご清聴ありがとうございました

リクルートテクノロジーズ