Slacks Störungsbericht vom 12.05.2020
(slack.engineering)Eine Erklärung zu dem Vorfall, bei dem Slack zum ersten Mal seit ziemlich langer Zeit komplett ausgefallen war.
-
Nach dem Deployment einer Änderung an der DB-Konfiguration wurde ein Performance-Bug entdeckt, der die DB-Last erhöhte, und innerhalb weniger Minuten wurde ein Rollback durchgeführt.
-
Trotzdem wurde dadurch das Autoscaling der Web-App aktiviert, sodass mehr Instanzen als das Hard Limit hochgefahren wurden.
-
Dadurch trat ein Bug im Teil zur Aktualisierung der Host-Liste im Load Balancer auf, sodass neue Instanzen nicht registriert werden konnten.
→ HAProxy + Consul
-
Nach 8 Stunden waren in der Host-Liste nur noch die ältesten Instanzen verblieben, und als ein Scale-down eintrat, wurden diese alten Instanzen heruntergefahren.
-
Neue Instanzen hätten dies übernehmen müssen, aber in der Host-Liste des Load Balancers waren keine neuen Instanzen vorhanden.
Noch keine Kommentare.