Verstehen, wie Facebook am 4.10. verschwand

xguru · 2021-10-06T11:18:00+09:00

Ein Beitrag, in dem CloudFlare von außen analysiert, warum die mit Facebook verbundenen Dienste am 4.10. nicht erreichbar waren Bereits die DNS-Lookups schlugen fehl, und die IP-Verbindungen zu der gesamten mit Facebook verbundenen Infrastruktur waren unterbrochen Die offizielle Stellungnahme von Facebook lautet → „Beim Ändern der Konfiguration von Backbone-Routern, die den Netzwerkverkehr zwischen Rechenzentren koordinieren, ist ein Problem aufgetreten. Dies hatte kaskadierende Auswirkungen auf die Verbindungen zwischen den Rechenzentren und führte zu einem Ausfall der Dienste.“ → DNS-Server kündigen sich normalerweise per BGP an, aber Facebooks DNS-Server waren so konfiguriert, dass BGP deaktiviert wird, wenn keine Verbindung zu den Facebook-Rechenzentren besteht → Als das Backbone der Rechenzentren ausfiel, wurden BGP-Anfragen abgewiesen und der Zugriff auf die DNS-Server wurde unmöglich → Dadurch wurden letztlich alle Facebook-Server unerreichbar → Tatsächlich war sogar der Zugang zu den Rechenzentren selbst erschwert, sodass Engineers vor Ort ausrücken mussten, um das Problem zu beheben Das Problem trat auf, als hätte jemand Facebook im Rechenzentrum das Internetkabel gezogen Es war kein DNS-Problem, aber der DNS-Fehler war das erste Symptom des großflächigen Ausfalls BGP (Border Gateway Protocol) → Der Mechanismus, mit dem AS (Autonomous Systems) im Internet Routing-Informationen austauschen → Große Router teilen fortlaufend Routing-Informationen, um den jeweils finalen Stand zu erreichen → Wenn Facebook seine Existenz nicht im Netzwerk ankündigt (advertising), ist es nicht erreichbar → Einzelne Netzwerke haben eine ASN (Nummer) und geben die Präfixe der von ihnen verwalteten IPs bekannt Ab dem 4.10., 15:40 UTC stellte Facebook die Ankündigung seiner DNS-Präfixe ein → Wie bei dem von Facebook genannten Problem oben war der Zugriff nicht möglich, weil keine BGP Ads gesendet wurden → Dadurch änderte sich das Routing, und es kam in großem Umfang zu BGP-Updates → Alle DNS-Server begannen bei Facebook-URLs mit SERVFAIL zu antworten → Die Zahl der DNS-Queries begann sich um das 30-Fache zu erhöhen → Auch die DNS-Queries zu Twitter, Signal und Telegram nahmen zu Um 21:00 UTC wurde BGP erneut aktualisiert und alles kehrte zum Normalzustand zurück

(blog.cloudflare.com)

15 Punkte von xguru 2021-10-06 | 2 Kommentare | Auf WhatsApp teilen

Ein Beitrag, in dem CloudFlare von außen analysiert, warum die mit Facebook verbundenen Dienste am 4.10. nicht erreichbar waren
Bereits die DNS-Lookups schlugen fehl, und die IP-Verbindungen zu der gesamten mit Facebook verbundenen Infrastruktur waren unterbrochen
Die offizielle Stellungnahme von Facebook lautet

→ „Beim Ändern der Konfiguration von Backbone-Routern, die den Netzwerkverkehr zwischen Rechenzentren koordinieren, ist ein Problem aufgetreten. Dies hatte kaskadierende Auswirkungen auf die Verbindungen zwischen den Rechenzentren und führte zu einem Ausfall der Dienste.“

→ DNS-Server kündigen sich normalerweise per BGP an, aber Facebooks DNS-Server waren so konfiguriert, dass BGP deaktiviert wird, wenn keine Verbindung zu den Facebook-Rechenzentren besteht

→ Als das Backbone der Rechenzentren ausfiel, wurden BGP-Anfragen abgewiesen und der Zugriff auf die DNS-Server wurde unmöglich

→ Dadurch wurden letztlich alle Facebook-Server unerreichbar

→ Tatsächlich war sogar der Zugang zu den Rechenzentren selbst erschwert, sodass Engineers vor Ort ausrücken mussten, um das Problem zu beheben

Das Problem trat auf, als hätte jemand Facebook im Rechenzentrum das Internetkabel gezogen
Es war kein DNS-Problem, aber der DNS-Fehler war das erste Symptom des großflächigen Ausfalls
BGP (Border Gateway Protocol)

→ Der Mechanismus, mit dem AS (Autonomous Systems) im Internet Routing-Informationen austauschen

→ Große Router teilen fortlaufend Routing-Informationen, um den jeweils finalen Stand zu erreichen

→ Wenn Facebook seine Existenz nicht im Netzwerk ankündigt (advertising), ist es nicht erreichbar

→ Einzelne Netzwerke haben eine ASN (Nummer) und geben die Präfixe der von ihnen verwalteten IPs bekannt

Ab dem 4.10., 15:40 UTC stellte Facebook die Ankündigung seiner DNS-Präfixe ein

→ Wie bei dem von Facebook genannten Problem oben war der Zugriff nicht möglich, weil keine BGP Ads gesendet wurden

→ Dadurch änderte sich das Routing, und es kam in großem Umfang zu BGP-Updates

→ Alle DNS-Server begannen bei Facebook-URLs mit SERVFAIL zu antworten

→ Die Zahl der DNS-Queries begann sich um das 30-Fache zu erhöhen

→ Auch die DNS-Queries zu Twitter, Signal und Telegram nahmen zu

Um 21:00 UTC wurde BGP erneut aktualisiert und alles kehrte zum Normalzustand zurück

2 Kommentare

roxie 2021-10-06

Fünf Stunden Ausfall bei Facebook … das war wirklich ein großes Ereignis.

xguru 2021-10-06

Ist BGP sicher? https://de.news.hada.io/topic?id=1932
Analyse des Internetausfalls von CenturyLink/Level(3) am 30. August https://de.news.hada.io/topic?id=2746

Verstehen, wie Facebook am 4.10. verschwand

Verwandte Beiträge

2 Kommentare