Ein Fallbeispiel zu How Complex System Fail
(how.complexsystems.fail)https://how.complexsystems.fail/
https://www.youtube.com/watch?v=2S0k12uZR14
In Richard Cooks How Complex System Fail geht es um 18 Ursachen für das Scheitern komplexer Systeme und darum, wie sich Ausfälle reduzieren lassen.
1. Komplexe Systeme sind ihrem Wesen nach gefährliche Systeme.
2. Komplexe Systeme verteidigen sich erfolgreich gegen Ausfälle.
Beim Auftreten von Störungen werden mehrere Schichten von Verteidigungsebenen aufgebaut. Diese Abwehr umfasst technische Komponenten (Backups, Safety-Features des Systems usw.), menschliche Faktoren (Schulung, Wissen) sowie Organisationen und Regelwerke.
3. Für eine Katastrophe sind mehrere Fehler notwendig. - Ein SPoF allein reicht nicht aus.
Große Ausfälle entstehen, wenn sich kleine Vorfälle zusammensetzen.
4. Komplexe Systeme enthalten intern latente, sich verändernde Fehlerkombinationen.
5. Komplexe Systeme laufen im Modus reduzierter Leistung.
6. Die Katastrophe steht immer unmittelbar bevor.
7. Nach einer Störung ist die Root Cause grundsätzlich falsch.
8. Die Leistungsbewertung nach einer Störung ist rückschauverzerrt.
9. Der Betrieb hat zwei Rollen. (Produzent, Verteidiger gegen Störungen)
10. Das Handeln aller Praktiker ist ein Glücksspiel.
Nach einer Störung erscheint das Scheitern oft so, als wäre es unvermeidlich gewesen, und das Handeln der Praktiker wirkt wie ein Fehler. Tatsächlich ist jedoch jedes Handeln von Praktikern ein Glücksspiel, also eine Handlung angesichts eines unsicheren Ergebnisses. Der Grad dieser Unsicherheit kann variieren. Dass das Handeln der Praktiker ein Glücksspiel ist, erkennt man erst nach der Störung. In der Regel wird ein solches Glücksspiel in der Post-Mortem-Analyse als schlechtes Glücksspiel betrachtet. Doch auch ein erfolgreiches Ergebnis ist das Resultat eines Glücksspiels.
11. Handeln an den schwierigsten Stellen löst Mehrdeutigkeit auf.
12. Praktiker sind die anpassungsfähigen Elemente komplexer Systeme.
13. Menschliche Expertise in komplexen Systemen verändert sich ständig.
14. Veränderungen bringen neue Formen des Scheiterns hervor.
15. Die Sicht auf die „Ursache“ begrenzt die Wirksamkeit der Abwehr gegen zukünftige Ereignisse.
16. Sicherheit ist keine Komponente, sondern eine Eigenschaft des Systems.
Sicherheit ist eine Eigenschaft des Systems. Der Sicherheitszustand jedes Systems verändert sich ständig. Ein kontinuierliches und systematisches Risikomanagement ist erforderlich.
1 Kommentare
Der Fall
How Complex System FailVielleicht, weil ich mich in letzter Zeit auf Chaos Engineering vorbereite, sind mir die folgenden Texte besonders im Gedächtnis geblieben.
Die Katastrophe (
Catastrophe) ist immer direkt vor uns.Für Arbeit ohne Fehlschläge braucht es Erfahrung mit Fehlern.