5 Punkte von GN⁺ 2023-10-28 | Noch keine Kommentare. | Auf WhatsApp teilen
  • Ein Artikel über die 20-jährige Entwicklung des Site Reliability Engineering (SRE) bei Google
  • In den vergangenen 20 Jahren sind Googles Rechenleistung um das 1.000-Fache und die Netzwerkkapazität um das 10.000-Fache gewachsen
  • SRE-Tools haben sich von Python-Skripten zu einem integrierten Service-Ökosystem und zu einer integrierten Plattform weiterentwickelt, die Zuverlässigkeit standardmäßig bereitstellt
  • Der Artikel hebt 11 zentrale Lehren hervor, die Google aus 20 Jahren SRE gezogen hat
  • Lehre 1: Das Risiko von Gegenmaßnahmen sollte von der Schwere des Ausfalls abhängen
  • Lehre 2: Wiederherstellungsmechanismen müssen vor einem Notfall vollständig getestet werden
  • Lehre 3: Alle Änderungen sollten schrittweise ausgerollt werden, um Auswirkungen im großen Maßstab zu verhindern
  • Lehre 4: Jede Service-Abhängigkeit sollte einen „großen roten Knopf“ haben, um unerwünschte Zustände zurückzusetzen
  • Lehre 5: Unit-Tests allein reichen nicht aus; Integrationstests sind ebenfalls notwendig
  • Lehre 6: Während eines Ausfalls sind mehrere Kommunikationskanäle einschließlich Backups essenziell
  • Lehre 7: Services sollten in Ausnahmesituationen absichtlich und elegant Leistung reduzieren können
  • Lehre 8: Katastrophenresilienz und Recovery-Tests sollten Teil der Business-Continuity-Strategie sein
  • Lehre 9: Gegenmaßnahmen sollten automatisiert werden, um die mittlere Lösungszeit (MTTR) zu verkürzen
  • Lehre 10: Häufige Rollouts mit angemessenen Tests können die Wahrscheinlichkeit verringern, dass Rollouts schiefgehen
  • Lehre 11: Eine einzige globale Hardware-Version ist ein Single Point of Failure; eine vielfältige Infrastruktur kann vollständige Ausfälle verhindern
  • Diese Lehren basieren auf realen Vorfällen, die Google über Jahre hinweg erlebt hat, und auf den daraus gewonnenen Erkenntnissen

Noch keine Kommentare.

Noch keine Kommentare.