Chaos Engineering - users.informatik.haw-hamburg.deubicomp/... · Chaos Engineering is the...

Chaos Engineering13.11.2018 Dennis Pietruck

13.11.2018 Dennis Pietruck

Agenda

● Motivation● Grundlagen● Forschung & Konferenzen

Motivation

Fehler in einem Monolith

Was sieht der Client?

Fehler in einem Monolith

● Internal Server Error - 500● Timeout

Fehler in einem verteilten System

Was sieht der Client? A

● Internal Server Error - 500● Timeout● OK - 200 (mit fehlenden Daten)

○ nach langem Warten

Wie kann sich dieser Fehler auswirken?

● Keine Fehlerbehandlung○ A kann auf DB Fehler nicht reagieren○ B kann auf Fehler in A nicht reagieren○ C kann auf Fehler in B nicht reagieren

● A hat Retries nicht konfiguriert● A und B haben Timeout nicht konfiguriert

Verteilte Systeme heute

Josh Evans - A Netflix Guide to Microserviceshttps://de.slideshare.net/JoshEvans2/mastering-chaos-a-netflix-guide-to-microservices

Grundlagen

Was ist Chaos Engineering?

Chaos Engineering is the discipline of experimenting on a distributed system in order to build confidence in the system’s capability to withstand

turbulent conditions in production.

principlesofchaos.org

Testing ≠ Chaos Engineering

Entspricht das Systemverhalten der Spezifikation?

Was passiert wenn…

● Latenz erhöht wird?● Services abstürzen?● Netzwerkkomponenten ausfallen?● Regionen nicht erreichbar sind?● ...

https://www.a1qa.com/blog/interview-with-daniel-knott-upside-down-testing

Ursprünge von Chaos Engineering (1/2)

● 2010 Netflix entwickelt Chaos Monkeyfür den Umzug nach AWS

● 2011Simian Army erweitert Chaos Monkey

● 2012Chaos Monkey auf github

Chaos Monkey

Simian Army

Ursprünge von Chaos Engineering (1/2)

● 2016Gremlin Inc. bietet “Failure as a service”

● 2017Chaos Engineering Book

Gremlin

Vorgehen

Voraussetzung: Monitoring und Tracing

1. Messbaren stabilen Zustand definieren2. Annehmen, dass dieser Zustand weiter besteht3. Fehler simulieren4. Annahme überprüfen5. Maßnahmen treffen

Monitoring

Anwendung

Container

Containerplattform

Host OS

(Virtuelle) Hardware

Netzwerk

Whitebox Monitoring (RED-Principle)

Blackbox Monitoring (USE-Principle)

Tracing

● Zeigt Kommunikation der Services● Zeigt Latenzen● Unterstützt Debugging

[1]A. Blohowiak, A. Basiri, L. Hochstein, und C. Rosenthal, „A Platform for Automating Chaos Experiments“

jaegertracing.io/docs/1.7/architecture/

Stabilen Zustand definieren

Metriken finden die zeigen, dass das System noch funktioniert

Bei Netflix: “Stream Starts per Second”

Streams per Second im stabilen Zustand A. Basiri u. a., „Chaos Engineering“, IEEE Software, Bd. 33, Nr. 3, S. 35–41, Mai 2016.

Fehler simulieren

● Nur für ausgewählte Komponenten● Für einen kleinen Anteil der

Benutzer

Tools:

Anwendung

Container

Containerplattform

Datenbank

Host OS

(Virtuelle) Hardware

Netzwerk

Host OS

Availability Zone

Mögliche Fehlerquellen:

Chaos Toolkit Chaos Monkey Toxi Proxy Pumba

Forschungsthemen

● Tooling○ Fehlersimulation○ Automatisierung

■ der Experimente■ der Auswertung

● Anpassung an kleinere Organisationen● Chaos Engineering in nicht technischen Bereichen

ForschungsthemenPaper

● The Business Case for Chaos EngineeringH. Tucker, L. Hochstein, N. Jones, A. Basiri, und C. Rosenthal

● A Platform for Automating Chaos ExperimentsA. Blohowiak, A. Basiri, L. Hochstein, und C. Rosenthal

● Why is random testing effective for partition tolerance bugs?R. Majumdar und F. Niksic

Konferenzen

● IEEE International Conference on Cloud Computing● IEEE International Symposium on Software Reliability Engineering

The Business Case for Chaos Engineering

● Quantitative Vorteile○ Return on Investment

Voraussetzung: bestehendes Monitoring & Incident ManagementKosten-Nutzen Verhältnis für Chaos Engineering

● Qualitative Vorteile○ Förderung zur Entwicklung von Widerstandsfähigen Anwendungen ○ Widerstandsfähigkeit als Priorität

Automating Failure Testing Research at Internet Scale

● Chaos Automation Platform● Konfiguration eines Experiments über ein Dashboard● Automatische Ausführung des Experiments● Auswahl von Metriken über ein Dashboard

Weitere Entwicklung:

● Automatische Konfiguration von Tests● Automatische Auswertung der Tests

QuellenA. Basiri u. a., „Chaos Engineering“, IEEE Software, Bd. 33, Nr. 3, S. 35–41, Mai 2016.

„Principles of Chaos Engineering“. [Online]. Verfügbar unter: https://principlesofchaos.org/. [Zugegriffen: 10-Nov-2018].

A. Blohowiak, A. Basiri, L. Hochstein, und C. Rosenthal, „A Platform for Automating Chaos Experiments“, in 2016 IEEE International Symposium on Software Reliability Engineering Workshops (ISSREW), 2016, S. 5–8.

H. Tucker, L. Hochstein, N. Jones, A. Basiri, und C. Rosenthal, „The Business Case for Chaos Engineering“, IEEE Cloud Computing, Bd. 5, Nr. 3, S. 45–54, Mai 2018.

R. Majumdar und F. Niksic, „Why is random testing effective for partition tolerance bugs?“, Proceedings of the ACM on Programming Languages, Bd. 2, Nr. POPL, S. 1–24, Dez. 2017.

Chaos Engineering - users.informatik.haw-hamburg.deubicomp/... · Chaos Engineering is the...

Documents

Vortrag in Anwendungen I - users.informatik.haw-hamburg.deubicomp/projekte/master... · Agenda Motivation VRML Animation Logik in der 3D-Welt X3D VRML- und X3D-Viewer Editoren Mein

Chaos Earth - Book 02 - Creatures of Chaos

Masterarbeit - users.informatik.haw-hamburg.deubicomp/arbeiten/master/... · Masterarbeit eingereicht im Rahmen der Masterprüfung im Studiengang Master of Science Informatik am Department

users.informatik.haw-hamburg.deubicomp/projekte/master... · 595.q )+%,$5 5@ 59." # ; ## 3a. 83 .8-*3 9>8uj " < 7 3.8? >ej ' " >+ #& c 56 f) >

Marvel : Chaos War *Chaos King 01 - 005

Thema: RFID - users.informatik.haw-hamburg.deubicomp/projekte/master... · 2 RFID-Technik Radio FrequencyIdentification-Siliziumchip zur Speicherung von Daten-Kontaktlose Datenübertragung

Christoph Schmiedecke - users.informatik.haw-hamburg.deubicomp/projekte/master09... · Denavit-Hartenberg Notation 13 . 1. Koordinatensysteme Vorwärtskinematik – Denavit-Hartenberg

Body Monitoring - users.informatik.haw-hamburg.deubicomp/projekte/master2007/... · AW1 Body Monitoring Arne Bernin 3 Einführung Worum geht es ? Überwachen von Körperfunktionen

Data Mining in der Cloud - users.informatik.haw-hamburg.deubicomp/projekte/master12-13... · Master Informatik – HAW Hamburg – Anwendung von Data Mining auf Daten der Durchflusszytometrie

Masterarbeit - users.informatik.haw-hamburg.deubicomp/arbeiten/master/maehlmann.pdf · Social Networks , OSGI, Proﬁles, ... Firmen verändern ihre Struktur, Mitarbeiter wechseln

Chaos Daemons v8.1.2 KILL TEAM LIST CHAOS DAEMONSheraldsofruin.net/.../7th_edition/Kill-Team-List-Chaos-Daemons-v8.1.2… · KILL TEAM LIST: Chaos Daemons v8.1.2 KILL TEAM LIST CHAOS

Sturzerkennung - users.informatik.haw-hamburg.deubicomp/projekte/master11-12... · Einführung •fast 3 Mio. Sturzunfälle im Eigenheim [GBE11] •Über-65-Jährige besonders betroffen:

Chaos Engineering - Limiting Damage During Chaos Experiments

Chaos Energy Club. Getriebeaufbau Chaos Energy Club

Was ist Chaos? - uni-bremen.de€¦ · Was Chaos nicht ist Chaos tritt auf, wenn Systeme groß und kompliziert sind. Chaos tritt auf, wenn sich Systeme zufällig verändern. Chaos

Master Thesis - users.informatik.haw-hamburg.deubicomp/arbeiten/master/... · Master Thesis Uli Meyer Virtual ... The study shows that the framework can be used to plan and analyse

Beyond Quantified Self - users.informatik.haw-hamburg.deubicomp/projekte/master-nm-2014/schaefer/... · macht das Konzept der “Future Ghosts” möglich Es entstehen “holistic

Seminarausarbeitung - users.informatik.haw-hamburg.deubicomp/projekte/master05... · lose Datenschnittstelle zwischen RFID-Lesegerät und RFID-Transponder soweit wie möglich

A Stress Companion - users.informatik.haw-hamburg.deubicomp/projekte/master11-12... · Stress Probleme bei der Erkennung W e learnt thatit is di cult, sometimes impossible, to make

Business Intelligence - users.informatik.haw-hamburg.deubicomp/projekte/master10... · Ausblick • Es existieren verschiedene BI-Suites –SAP BusinessObjects (SAP) –Cognos 10