15 Punkte von xguru 2021-10-06 | 2 Kommentare | Auf WhatsApp teilen
  • Ein Beitrag, in dem CloudFlare von außen analysiert, warum die mit Facebook verbundenen Dienste am 4.10. nicht erreichbar waren

  • Bereits die DNS-Lookups schlugen fehl, und die IP-Verbindungen zu der gesamten mit Facebook verbundenen Infrastruktur waren unterbrochen

  • Die offizielle Stellungnahme von Facebook lautet

→ „Beim Ändern der Konfiguration von Backbone-Routern, die den Netzwerkverkehr zwischen Rechenzentren koordinieren, ist ein Problem aufgetreten. Dies hatte kaskadierende Auswirkungen auf die Verbindungen zwischen den Rechenzentren und führte zu einem Ausfall der Dienste.“

→ DNS-Server kündigen sich normalerweise per BGP an, aber Facebooks DNS-Server waren so konfiguriert, dass BGP deaktiviert wird, wenn keine Verbindung zu den Facebook-Rechenzentren besteht

→ Als das Backbone der Rechenzentren ausfiel, wurden BGP-Anfragen abgewiesen und der Zugriff auf die DNS-Server wurde unmöglich

→ Dadurch wurden letztlich alle Facebook-Server unerreichbar

→ Tatsächlich war sogar der Zugang zu den Rechenzentren selbst erschwert, sodass Engineers vor Ort ausrücken mussten, um das Problem zu beheben

  • Das Problem trat auf, als hätte jemand Facebook im Rechenzentrum das Internetkabel gezogen

  • Es war kein DNS-Problem, aber der DNS-Fehler war das erste Symptom des großflächigen Ausfalls

  • BGP (Border Gateway Protocol)

→ Der Mechanismus, mit dem AS (Autonomous Systems) im Internet Routing-Informationen austauschen

→ Große Router teilen fortlaufend Routing-Informationen, um den jeweils finalen Stand zu erreichen

→ Wenn Facebook seine Existenz nicht im Netzwerk ankündigt (advertising), ist es nicht erreichbar

→ Einzelne Netzwerke haben eine ASN (Nummer) und geben die Präfixe der von ihnen verwalteten IPs bekannt

  • Ab dem 4.10., 15:40 UTC stellte Facebook die Ankündigung seiner DNS-Präfixe ein

→ Wie bei dem von Facebook genannten Problem oben war der Zugriff nicht möglich, weil keine BGP Ads gesendet wurden

→ Dadurch änderte sich das Routing, und es kam in großem Umfang zu BGP-Updates

→ Alle DNS-Server begannen bei Facebook-URLs mit SERVFAIL zu antworten

→ Die Zahl der DNS-Queries begann sich um das 30-Fache zu erhöhen

→ Auch die DNS-Queries zu Twitter, Signal und Telegram nahmen zu

  • Um 21:00 UTC wurde BGP erneut aktualisiert und alles kehrte zum Normalzustand zurück

2 Kommentare

 
roxie 2021-10-06

Fünf Stunden Ausfall bei Facebook … das war wirklich ein großes Ereignis.

 
xguru 2021-10-06