Upload
others
View
0
Download
0
Embed Size (px)
Citation preview
いけだ だいすけ
池田 大輔[所属] TIS株式会社 IT基盤エンジニアリング第1部 日本Zabbixユーザ会運営スタッフ
[興味・関心] システム運用の効率化・改善
SRE,監視,ジョブ管理,構成管理 等[技術要素] Zabbix,JobScheduler,Ansible,fluentd,Neo4j Elasticsearch,InfluxDB,Python,Golang等々
2
@ike_dai ikedai
ike-dai ike_dai
確認フローの例7
STEP 3過去の類似事象の確認
・その時はどういった現象が発生したか
・最終的に何が原因だったか
・その時の対処として何を行ったか
STEP 1リソース利用状況の監視グラフ確認
・各サーバ、各サービスの状態はどうか
・不足しているリソースはなにか
CPU?Memory?DiskIO?NWIO?
STEP 2異常発生時間帯直前の
イベントを確認
・なにか設定変更していないか
・リソース変更等構成変更がないか
・アクセス数に変化がないか
・プロモーション活動がなかったか
総合的に判断し...
DBのディスクIOがボトルネックになっている状況であり、 DBのパラメータチューニングによりメモリ利用改善を試みる
・・・
過去の発生事象をインシデント管理
・KBとして過去事象を記録
・チーム内で共有
再発防止&再発時の対処迅速化
極力わかりやすく状況を可視化
・グラフを並べて表示したり
・NWマップ等でグラフィカルに提示したり
すばやく根本原因に到達できるように
8
これまでのアプローチ例
Ex. Ex.
・Zabbixのグラフやスクリーン※
・Grafanaダッシュボードの利用・Elasticsearch + Kibanaで可視化 等
・Redmineで管理・Excelで管理・Wikiやesa.io, DocBase等の管理ツールを利用 等
0 1 0 1 1 0 1 0 1 1 1 0 01 0 0 1 1 0 1 0 1 0 1 0 10 1 1 0 1 0 1 0 1 1 0 0 10 1 0 0 1 0 1 0 1 0 1 0 0
運用現場にデータ分析のPowerを取り込む
10
運用 データ
0 1 01 0 1
1st Prototype監視アラート情報
監視ツールからあがってくるアラート情報を収集
設定ファイル変更履歴
サーバ内のMWやSW、OS等の設定変更のDiff情報を収集
コマンド実行履歴
サーバ内で実行したコマンド情報を収集
12
機械学習技術等を用いて分析
ある状態Aを検知した後
ある作業Bを実行する
可能性がC %である
協力していただける方募集
19
・プロトタイプレベルでも試していただける方・運用の改善に向けてご意見いただける方・試していただけそうな現場にとりつないでいただける方
ContactTIS株式会社 池田 大輔
Twitter: @ike_dai Facebook: ikedai
までご連絡ください
20
ためになる話をまとめると
Thanks.
自動運転も実用化に向けて着々とすすんでいます
OpsBearはITシステムの自動・自律運用実現に近づけるための
支援サービスを目指しています
実現のためには多くのデータが必要で、多くの方の協力が欠かせません
よろしくお願いします