Verstehen, wie Facebook am 4.10. verschwand
(blog.cloudflare.com)-
Ein Beitrag, in dem CloudFlare von außen analysiert, warum die mit Facebook verbundenen Dienste am 4.10. nicht erreichbar waren
-
Bereits die DNS-Lookups schlugen fehl, und die IP-Verbindungen zu der gesamten mit Facebook verbundenen Infrastruktur waren unterbrochen
-
Die offizielle Stellungnahme von Facebook lautet
→ „Beim Ändern der Konfiguration von Backbone-Routern, die den Netzwerkverkehr zwischen Rechenzentren koordinieren, ist ein Problem aufgetreten. Dies hatte kaskadierende Auswirkungen auf die Verbindungen zwischen den Rechenzentren und führte zu einem Ausfall der Dienste.“
→ DNS-Server kündigen sich normalerweise per BGP an, aber Facebooks DNS-Server waren so konfiguriert, dass BGP deaktiviert wird, wenn keine Verbindung zu den Facebook-Rechenzentren besteht
→ Als das Backbone der Rechenzentren ausfiel, wurden BGP-Anfragen abgewiesen und der Zugriff auf die DNS-Server wurde unmöglich
→ Dadurch wurden letztlich alle Facebook-Server unerreichbar
→ Tatsächlich war sogar der Zugang zu den Rechenzentren selbst erschwert, sodass Engineers vor Ort ausrücken mussten, um das Problem zu beheben
-
Das Problem trat auf, als hätte jemand Facebook im Rechenzentrum das Internetkabel gezogen
-
Es war kein DNS-Problem, aber der DNS-Fehler war das erste Symptom des großflächigen Ausfalls
-
BGP (Border Gateway Protocol)
→ Der Mechanismus, mit dem AS (Autonomous Systems) im Internet Routing-Informationen austauschen
→ Große Router teilen fortlaufend Routing-Informationen, um den jeweils finalen Stand zu erreichen
→ Wenn Facebook seine Existenz nicht im Netzwerk ankündigt (advertising), ist es nicht erreichbar
→ Einzelne Netzwerke haben eine ASN (Nummer) und geben die Präfixe der von ihnen verwalteten IPs bekannt
- Ab dem 4.10., 15:40 UTC stellte Facebook die Ankündigung seiner DNS-Präfixe ein
→ Wie bei dem von Facebook genannten Problem oben war der Zugriff nicht möglich, weil keine BGP Ads gesendet wurden
→ Dadurch änderte sich das Routing, und es kam in großem Umfang zu BGP-Updates
→ Alle DNS-Server begannen bei Facebook-URLs mit SERVFAIL zu antworten
→ Die Zahl der DNS-Queries begann sich um das 30-Fache zu erhöhen
→ Auch die DNS-Queries zu Twitter, Signal und Telegram nahmen zu
- Um 21:00 UTC wurde BGP erneut aktualisiert und alles kehrte zum Normalzustand zurück
2 Kommentare
Fünf Stunden Ausfall bei Facebook … das war wirklich ein großes Ereignis.
Ist BGP sicher? https://de.news.hada.io/topic?id=1932
Analyse des Internetausfalls von CenturyLink/Level(3) am 30. August https://de.news.hada.io/topic?id=2746