21
運用者をお助けする味方 OpsBear- 自律運用を目指したTISの取組紹介- 2018/9/27 日本OSS推進フォーラム広報部会LT TIS株式会社 池田 大輔

運用者をお助けする味方 OpsBear - ossforum.jpossforum.jp/jossfiles/20180927_OSS推進フォーラム広報部会_LT_TIS... · 運用者をお助けする味方 『OpsBear』

  • Upload
    others

  • View
    0

  • Download
    0

Embed Size (px)

Citation preview

運用者をお助けする味方

『OpsBear』- 自律運用を目指したTISの取組紹介-

2018/9/27 日本OSS推進フォーラム広報部会LT

TIS株式会社池田 大輔

いけだ    だいすけ

池田 大輔[所属] TIS株式会社 IT基盤エンジニアリング第1部 日本Zabbixユーザ会運営スタッフ

[興味・関心] システム運用の効率化・改善

 SRE,監視,ジョブ管理,構成管理 等[技術要素] Zabbix,JobScheduler,Ansible,fluentd,Neo4j Elasticsearch,InfluxDB,Python,Golang等々

2

@ike_dai ikedai

ike-dai ike_dai

保守運用されている方、

システム稼働に責任を持っている方に質問

「システムを復旧・改善するためにすべきこと」の

判断って労力かかりませんか?

3

4

5

IaaS

PaaS

SaaS便利

複雑

見るべき点の変化

激しく変わる

こんな状況、あなたならどうする?

▫ とあるWebサービスの運用▫ とある時期を境に「応答が遅い」とのクレームが増加▫ 監視結果からも応答が遅くなっていることは明白

6

確認フローの例7

STEP 3過去の類似事象の確認

・その時はどういった現象が発生したか

・最終的に何が原因だったか

・その時の対処として何を行ったか

STEP 1リソース利用状況の監視グラフ確認

・各サーバ、各サービスの状態はどうか

・不足しているリソースはなにか

 CPU?Memory?DiskIO?NWIO?

STEP 2異常発生時間帯直前の

イベントを確認

・なにか設定変更していないか

・リソース変更等構成変更がないか

・アクセス数に変化がないか

・プロモーション活動がなかったか

総合的に判断し...

       DBのディスクIOがボトルネックになっている状況であり、       DBのパラメータチューニングによりメモリ利用改善を試みる

・・・

過去の発生事象をインシデント管理

・KBとして過去事象を記録

・チーム内で共有

   再発防止&再発時の対処迅速化

極力わかりやすく状況を可視化

・グラフを並べて表示したり

・NWマップ等でグラフィカルに提示したり

   すばやく根本原因に到達できるように

8

これまでのアプローチ例

Ex. Ex.

・Zabbixのグラフやスクリーン※

・Grafanaダッシュボードの利用・Elasticsearch + Kibanaで可視化 等

・Redmineで管理・Excelで管理・Wikiやesa.io, DocBase等の管理ツールを利用 等

9

Zabbix 4.0 まもなく(10/1 日本時間10/2)リリース予定

(おまけ) Zabbix4.0最新情報

0 1 0 1 1 0 1 0 1 1 1 0 01 0 0 1 1 0 1 0 1 0 1 0 10 1 1 0 1 0 1 0 1 1 0 0 10 1 0 0 1 0 1 0 1 0 1 0 0

運用現場にデータ分析のPowerを取り込む

10

運用 データ

0 1 01 0 1

Data Collector Data Analyzerデータ収集基盤 データ分析基盤

11

ダッシュボードOperation Dashboard

1st Prototype監視アラート情報

監視ツールからあがってくるアラート情報を収集

設定ファイル変更履歴

サーバ内のMWやSW、OS等の設定変更のDiff情報を収集

コマンド実行履歴

サーバ内で実行したコマンド情報を収集

12

機械学習技術等を用いて分析

ある状態Aを検知した後

ある作業Bを実行する

可能性がC %である

Place your screenshot here

13

Prototype ImageDisplay various events list

Place your screenshot here

14

Prototype ImageInvestigate time series monitoring data

Place your screenshot here

15

Prototype ImageDisplay configuration diff

Place your screenshot here

16

Prototype ImageExecute command with SSH connection

Place your screenshot here

17

Prototype ImageDisplay recommendation results

Future Works・システム構成情報を特徴量の一種として取り込み

・アラート情報だけでなく、監視データから異常発生タイミングを自動検知

18

協力していただける方募集

19

・プロトタイプレベルでも試していただける方・運用の改善に向けてご意見いただける方・試していただけそうな現場にとりつないでいただける方

ContactTIS株式会社 池田 大輔

Twitter: @ike_dai Facebook: ikedai

までご連絡ください

20

ためになる話をまとめると

Thanks.

自動運転も実用化に向けて着々とすすんでいます

OpsBearはITシステムの自動・自律運用実現に近づけるための

支援サービスを目指しています

実現のためには多くのデータが必要で、多くの方の協力が欠かせません

よろしくお願いします

21

Reference) Prototype Architecture

詳細はお問い合わせください