10 Punkte von xguru 2020-07-08 | Noch keine Kommentare. | Auf WhatsApp teilen

Eine Erklärung zu dem Vorfall, bei dem Slack zum ersten Mal seit ziemlich langer Zeit komplett ausgefallen war.

  1. Nach dem Deployment einer Änderung an der DB-Konfiguration wurde ein Performance-Bug entdeckt, der die DB-Last erhöhte, und innerhalb weniger Minuten wurde ein Rollback durchgeführt.

  2. Trotzdem wurde dadurch das Autoscaling der Web-App aktiviert, sodass mehr Instanzen als das Hard Limit hochgefahren wurden.

  3. Dadurch trat ein Bug im Teil zur Aktualisierung der Host-Liste im Load Balancer auf, sodass neue Instanzen nicht registriert werden konnten.

→ HAProxy + Consul

  1. Nach 8 Stunden waren in der Host-Liste nur noch die ältesten Instanzen verblieben, und als ein Scale-down eintrat, wurden diese alten Instanzen heruntergefahren.

  2. Neue Instanzen hätten dies übernehmen müssen, aber in der Host-Liste des Load Balancers waren keine neuen Instanzen vorhanden.

Noch keine Kommentare.

Noch keine Kommentare.