Upload
datahotel
View
157
Download
2
Embed Size (px)
Citation preview
~30代からはじめる本当は泥臭いデータサイエンスの話~
ITインフラ・マネージド事業領域におけるデータサイエンスの取り組み
July Tech Festa 2016/07/24
NHNテコラス株式会社データホテル事業本部サービス戦略企画室
Page 2
自己紹介
所属 :NHN テコラス株式会社データホテル事業本部サービス戦略企画室 サービス企画チーム
名前 : @datahotel
嫌いな飲み物:バリウム (理由があります)
業務経験 :現在は企画部門でのサービス企画・開発が業務。去年まで別の部署で基盤系SEとして勤務。
キーワード :“手厳しいお客様” “やっかいなシステム”“誰もやりたがらない” “汚れ役”
twitter :https://twitter.com/datahotelFacebook :https://www.facebook.com/datahotel.jp
Page 3
NHNテコラスのITインフラ・マネージド事業について
会社の沿革
・ITインフラ・マネージド・EC支援・セキュリティ事業・広告支援事業
以上の4事業を展開中
https://nhn-techorus.com/
Page 4
本日のお話
• 社内でデータサイエンスに取り組むことになった経緯
• 解析基盤について
• IoT・人工知能
• 今後について
Page 5
社内で取り組むことになったきっかけ
弊社データサイエンティストの発表資料https://prezi.com/rshvuo0dmmax/sparkhadoop/?utm_campaign=share&utm_medium=copy
当社内にデータサイエンスチームが発足したためです。
Page 6
まず着手したこと
1. データ蓄積・処理基盤を作る– 自社クラウドベース
2. アセスメントの実施– 既に社内ではOSSの全文検索サーバや自社開発CRMでのスタッフ活動状況の可視化、機器資産や
アラート情報の可視化まで実施している状況
– 故障予知についてはRAIDコントローラやサーバベンダ提供機能により監視を実施している
3. 具体的な現場課題・ビジネス課題の確認– 運用エンジニアの生産性・品質向上、スキル均一化、満足度向上(アドバイス・サポート領域)
– 時間の節約、計画的運営の保証(予防・予知・予測)
4. 人員の確保・プロジェクト進行方法の検討
出典:アジャイルデータサイエンス――スケーラブルに構築するビッグデータアプリケーション O'Reilly Japan, Inc.出典:戦略的データサイエンス入門――ビジネスに活かすコンセプトとテクニック O'Reilly Japan, Inc.
Page 7
体制
新卒4年目の若手エンジニアを中心にフラットな体制で進行
データ研究室
モデル研究・検証・開発・評価・
展開
新卒4年目若手エンジニア
私
各種研究・開発
GRC関連担当・各種調整・雑用
技術基盤管理推進グループ
基盤・データ提供
SE部門(GPUサーバ)
HPC領域支援
データホテル事業本部
Page 8
本日のお話
• 社内でデータサイエンスに取り組むことになった経緯
• 解析基盤について
• IoT・人工知能
• 今後について
Page 9
社内データ解析基盤の全体像
Page 10
社内データ解析基盤の全体像
データサイエンティストチームが主に利用
若手エンジニアがIoTのために各種検証中
発表者(私)が試行錯誤中
Page 11
クラウドのお話
Page 12
クラウドのお話(宣伝)
Page 13
解析基盤の用途
• ログ分析基盤として
• 外部メディアの分析基盤として
– SNS、News、Blog、Wiki 、脆弱性・技術情報の収集・・・
• 機械学習モデル開発基盤として
– 他社様AIサービスを利用・評価するための比較対象として
– クラウドと同様、AIを支える技術の内部を学ぶ
• 協業時のご支援プラットフォームとして
– PoC
– プロトタイプ開発
Page 14
本日のお話
• 社内でデータサイエンスに取り組むことになった経緯
• 解析基盤について
• IoT・人工知能
• 今後について
Page 15
IoTについて
①本日お話した内容に関連する構成要素
②本日お話しできませんでしたが、社内で活発に取り組んでいる要素
※データホテルテックブログをご参照ください
Page 16
IoT関連システム運用後の課題にも注目
悪用されないための技術 効率的な運用・保守のための技術(大量デバイス・故障管理)
Page 17
人工知能について
• 当社ビジネスで有用そうなタスク– トリアージ的業務支援(緊急度、深刻度、感情分類)
– アドバイス・サポート領域
• レコメンド・サジェスト・キュレーション
– Slack/LINEなどに代表されるボットを通じた対人交流
すでにgithubなどでは海外の学生さんが参考実装のようなものを公開していたりする。またアドバイス・サポートであればIBM社のワトソンとの連携のほうが早い?
https://github.com/eyaylali/sent
Page 18
本日のお話
• 社内でデータサイエンスに取り組むことになった経緯
• 解析基盤について
• IoT・人工知能
• 今後について
Page 19
課題と今後の予定(一部)
• ビジュアライゼーション、デモの充実化
• 取り組み開始時に解析した社内データ– ビッグでない・教師付きデータがない
• 性能、信頼性検証環境の整備
• HPC(GPU)
– 複数人での効率的な利用(mesosがまだ使えていない)
– 用途の拡大 (CUDA/OpenCL/HIP)
• エンタープライズ・GRCニーズのための機能実装
– 監査、ID管理、認証強化、信頼性など
• その他
– 位置情報、自社OpenStreetMap/屋内電子マップ
– 経営効果・採算性の検証
– 故障予知系タスクの課題定義と検証• 航空機や交通インフラとは異なる領域での重要度の高い課題
– 体制・マネジメント
Page 20
泥臭いところ(発表者認識)
推進、価値、効
果、変化、変更、
提供
キュレート、レコメン
ド、理解、推論、学習
構造、リンク、メタデータ、タグ、
探索、インタラクション、共有
整理、集計、ビジュアライズ、疑問
収集、表示、独立したレコードの結合
データで価値をだすために取り組む順序
出所:オライリー アジャイルデータサイエンスより
ここに到達するために
データや課題ごとに面倒な作業が発生する
Page 21
まとめ
1. NHNテコラスはデータサイエンス専門部署を設置し、お客様に新たな価値を提供できる体制になりました。
2. 当社ITインフラ・マネージド事業では、クラウドベンダーフリーな解析環境でデータサイエンスに取り組んでいます。
3. IoTや機械学習・人工知能などの分野についても自社内での取り組みを通じベンダーフリーな立場としてお客様へ最適なご提案ができるよう今後も研究を続けて参ります。
Page 22
スタッフ募集
https://nhn-techorus.com/recruit/
クラウドベンダーフリーな当社環境で一緒にデータサイエンスしませんか?
Page 23
ありがとうございました