- Ein Artikel über die 20-jährige Entwicklung des Site Reliability Engineering (SRE) bei Google
- In den vergangenen 20 Jahren sind Googles Rechenleistung um das 1.000-Fache und die Netzwerkkapazität um das 10.000-Fache gewachsen
- SRE-Tools haben sich von Python-Skripten zu einem integrierten Service-Ökosystem und zu einer integrierten Plattform weiterentwickelt, die Zuverlässigkeit standardmäßig bereitstellt
- Der Artikel hebt 11 zentrale Lehren hervor, die Google aus 20 Jahren SRE gezogen hat
- Lehre 1: Das Risiko von Gegenmaßnahmen sollte von der Schwere des Ausfalls abhängen
- Lehre 2: Wiederherstellungsmechanismen müssen vor einem Notfall vollständig getestet werden
- Lehre 3: Alle Änderungen sollten schrittweise ausgerollt werden, um Auswirkungen im großen Maßstab zu verhindern
- Lehre 4: Jede Service-Abhängigkeit sollte einen „großen roten Knopf“ haben, um unerwünschte Zustände zurückzusetzen
- Lehre 5: Unit-Tests allein reichen nicht aus; Integrationstests sind ebenfalls notwendig
- Lehre 6: Während eines Ausfalls sind mehrere Kommunikationskanäle einschließlich Backups essenziell
- Lehre 7: Services sollten in Ausnahmesituationen absichtlich und elegant Leistung reduzieren können
- Lehre 8: Katastrophenresilienz und Recovery-Tests sollten Teil der Business-Continuity-Strategie sein
- Lehre 9: Gegenmaßnahmen sollten automatisiert werden, um die mittlere Lösungszeit (MTTR) zu verkürzen
- Lehre 10: Häufige Rollouts mit angemessenen Tests können die Wahrscheinlichkeit verringern, dass Rollouts schiefgehen
- Lehre 11: Eine einzige globale Hardware-Version ist ein Single Point of Failure; eine vielfältige Infrastruktur kann vollständige Ausfälle verhindern
- Diese Lehren basieren auf realen Vorfällen, die Google über Jahre hinweg erlebt hat, und auf den daraus gewonnenen Erkenntnissen
Noch keine Kommentare.