Slacks Störungsbericht vom 12.05.2020

(slack.engineering)

10 Punkte von xguru 2020-07-08 | Noch keine Kommentare. | Auf WhatsApp teilen

Eine Erklärung zu dem Vorfall, bei dem Slack zum ersten Mal seit ziemlich langer Zeit komplett ausgefallen war.

Nach dem Deployment einer Änderung an der DB-Konfiguration wurde ein Performance-Bug entdeckt, der die DB-Last erhöhte, und innerhalb weniger Minuten wurde ein Rollback durchgeführt.
Trotzdem wurde dadurch das Autoscaling der Web-App aktiviert, sodass mehr Instanzen als das Hard Limit hochgefahren wurden.
Dadurch trat ein Bug im Teil zur Aktualisierung der Host-Liste im Load Balancer auf, sodass neue Instanzen nicht registriert werden konnten.

→ HAProxy + Consul

Nach 8 Stunden waren in der Host-Liste nur noch die ältesten Instanzen verblieben, und als ein Scale-down eintrat, wurden diese alten Instanzen heruntergefahren.
Neue Instanzen hätten dies übernehmen müssen, aber in der Host-Liste des Load Balancers waren keine neuen Instanzen vorhanden.

Noch keine Kommentare.

Noch keine Kommentare.