Upload
-
View
138
Download
1
Embed Size (px)
Citation preview
ビッグデータ、セキュリティとの関わり
直近(前職)では、並列分散ストリーム処理技術を基盤技術として、機械学習のモデルを用いたアノマリ検知の研究開発、標的型攻撃検知の研究開発
2016年4月 サイバーセキュリティクラウド CTO
直近3カ月はプロダクトの把握と開発、インフラ整備、採用
本日は今までの知見と今後の展望についてお話しさせていただきます
自己紹介:渡辺洋司
サイバーセキュリティクラウド
世界中の人々が安心安全に
使えるサイバー空間を創造する
クラウド型 WAFサービスの提供
攻撃遮断くん
攻撃見えるくん(無料)
※ WAF : Web Application Firewall
攻撃遮断くんのデータ
ログの種類とデータ量
HTTPサーバログ、syslog(sshd, smtpd, popd, など)
約40億件~/月
攻撃検知数
100万件~/月
今後のデータ量の増加
今後顧客数増大を目指しているので数倍~数十倍に
ログと検知データを扱った取組み
月毎の検知レポートの自動生成(先日リリース) サーバの検知状況に応じたレポートを人手での作成から自動化へ
人手でのノウハウをモデル化して適用
ゼロデイの検知(今後) サーバーにおける過去のアクセスと異なるアクセスの発見
全体での共通発生的なアクセスの発見
誤検知精度の向上(今後)
ユーザからのフィードバックを自動で受け付けられる仕組み(CAPTHA認証で教えてもらう)(教師データの精度向上)
機械学習における課題(1)
ゼロデイ検知のためのモデル構築タスクを実現するには?
最適な特徴量と手法の見極めが難しい
HTTPアクセスにおいて、未知の攻撃を発見するために必要な特徴量(と手法)はなにか?
機械学習における課題(2)
教師あり学習でのアプローチ
教師付データの入手
過去の検知データが正解データとしてあるのは強みだが、誤検知もそれなりに含んでいる
既知の亜種なら過去の知見から比較的実現しやすい
でもそれって本当にやりたいこと?
やれないよりはいいですが。
検証、説明の難しさ
モデルの検証につかう未知の攻撃データって?
機械学習における課題(3)
教師なし学習でのアプローチ
特徴量の発見の難しさ
基本的には異常検知がベース
構築したモデルに対して「違う」かどうか
そもそもこのログの情報で十分なんだっけ?
検証、説明の難しさ
モデルの検証につかう未知の攻撃データって?
異常を検知したとおもったら、サーバーのパラメータ増えてただけだった。
シグネチャ&モデルのハイブリッド型へ
シグネチャ型
Good :検知のルールが明確、軽量(CPU, メモリ)
Bad :シグネチャにない未知の攻撃は検知できない
モデル型
Good :未知の攻撃の検知が可能に
Bad :検知の理由が不明確(モデルと事象の関係)
ハイブリッド型でリアルタイムかつスケーラブルにプラットフォームの必要性!!
Apache METRON
FOR BIG DATA CYBER SECURITY ANALYTICS
Automated, Global Cross-Referencing to Detect Security Threats in Real-Time
Apache Hadoop 関連で活躍中の Hortonworks が主体
Codebase は、Cisco が主体となっていた OpenSOC
2015年12月にApache Software Foundationのインキュベーター・ステータスを獲得
現在、TP(Technical Preview)2 で公開