NIST lag nach dem Stromausfall der vergangenen Woche um 5 Mikrosekunden hinter UTC
(jeffgeerling.com)- Die Zeitmessanlage des NIST in Boulder, Colorado, USA, war wegen eines Stromausfalls mehrere Tage außer Betrieb; durch den Ausfall eines Notstromaggregats entstand eine Abweichung von bis zu 5 μs gegenüber UTC
- Die Anlage betreibt sechs NTP-Server und hielt die Zeitabweichung trotz Generatorausfall unter 5 μs; für gewöhnliche Nutzer gab es praktisch keine Auswirkungen
- Für wissenschaftliche Forschungseinrichtungen und Luft- und Raumfahrtunternehmen sowie andere auf präzises Timing angewiesene Organisationen könnte es Auswirkungen gegeben haben; NIST arbeitet direkt mit ihnen zusammen
- GPS- und WWV-Ft.-Collins-Systeme übernahmen ihre Backup-Rolle ordnungsgemäß und belegten damit die Redundanz der Zeitinfrastruktur in den USA
- Der Vorfall zeigt die Risiken der GPS-Abhängigkeit und die Verwundbarkeit der Timing-Infrastruktur und unterstreicht die Notwendigkeit alternativer PNT-Systeme
Stromausfall und Zeitabweichung
- Der NIST-Campus in Boulder, Colorado, wurde von Windböen mit mehr als 160 km/h (100 mph) getroffen, woraufhin der Energieversorger zur Vermeidung von Brandgefahr die Stromversorgung abschaltete
- Der gesamte Campus wurde abgeriegelt, sodass Mitarbeitende keinen Zutritt hatten, was die Wiederherstellung verzögerte
- Eines der Notstromaggregate fiel nach zwei Tagen aus, wodurch die Stromversorgung des primären Clock Ensemble der NTP-Server unterbrochen wurde
- Jeff Sherman, Leiter der Time Realization and Distribution Group, erwog sogar, die Server abzuschalten, um die Ausgabe ungenauer Zeit zu verhindern
- Glücklicherweise konnte das Uhrensystem eines anderen Gebäudes Zeitsignale übertragen, und einige Mitarbeitende blieben vor Ort, um die Wiederherstellung durch Umleitung der Notstromversorgung zu ermöglichen
- Batterie-Backup (UPS) hielt die Zeit bis zum Austausch des Generators aufrecht; dadurch blieb die Abweichung zu UTC letztlich unter 5 μs
Betrieb der NTP-Server und Umfang der Auswirkungen
- NIST bietet Internet-Zeitdienste über sechs zentrale NTP-Server an
- Laut Ausgabe des Befehls
sntp time-a-b.nist.govliegt der Fehler durch Netzwerklatenz für normale Nutzer bei etwa 35 Millisekunden (35.000 μs), sodass eine Abweichung von 5 μs vernachlässigbar ist - Deshalb wurden die Server nicht abgeschaltet; die Genauigkeit war zwar etwa 5.000-mal schlechter als üblich, hatte aber für die meisten Nutzer keine Folgen
- Universitäten, Luft- und Raumfahrtunternehmen und wissenschaftliche Forschungseinrichtungen reagieren empfindlich auf kleinste Abweichungen, daher arbeitet NIST mit ihnen direkt an Korrekturen
- Das US-GPS-System schaltete automatisch auf den WWV-Ft.-Collins-Campus um, sodass der Dienst ohne kompletten Ausfall aufrechterhalten wurde
Verwundbarkeit der Zeitinfrastruktur und alternative Technologien
- Der Autor betreibt einen eigenen NTP-Server mit zwei GPS-Uhren auf Raspberry-Pi-Basis und weist auf die Risiken der GPS-Abhängigkeit hin
- CISA hat bereits vor der übermäßigen Abhängigkeit der USA von GPS gewarnt, und die Regierung treibt die Entwicklung alternativer PNT-Technologien (Position, Navigation, Timing) voran
- Das Broadcast Positioning System (BPS) wird als möglicher Ersatz für GPS diskutiert
- Der Autor nutzt eine Rubidium-Atomuhr und einen GPSDO, um eine Genauigkeit im Bereich weniger Nanosekunden zu halten; selbst bei Störungen des GPS-Signals kann die Zeit über Monate gehalten werden
- Bereiche wie Wissenschaft, RF, Medien und Finanzwesen benötigen jedoch Präzision im Nanosekundenbereich und referenzieren meist die NIST-Referenzzeit
Erkenntnisse und Systemzuverlässigkeit
- Der Vorfall belegt, dass das Katastrophenreaktionssystem des NIST in der Praxis funktioniert und einen „Normalbetrieb trotz minimaler Abweichungen“ ermöglicht
- Redundante Stromversorgung, mehrere Uhren und GPS-Backup-Systeme sorgten gemeinsam für die Stabilität der landesweiten Zeitinfrastruktur
- Der Autor betont, dass „Timing-Infrastruktur äußerst verwundbar ist und mehrere Backups unverzichtbar sind“
- Selbst in einer Krisensituation im Mikrosekundenbereich löste das NIST-Team das Problem so, dass die meisten Nutzer davon nichts bemerkten
1 Kommentare
Hacker-News-Kommentare
Das Time Over Fiber (TOF)-Programm von NIST fand ich am interessantesten.
Dieser Dienst bietet hochpräzise Zeitübertragung über Glasfaser, und einige direkt angebundene Verbindungen waren offenbar betroffen.
Ich hatte von so einem Dienst noch nie gehört, aber vielleicht wird er für die Finanzbranche (HFT, im Zusammenhang mit FINRA Rule 4590) oder 5G-Synchronisation oder für globale Datenbanken wie Google Spanner genutzt.
Relevante Links: NIST-Mitteilung, TOF-Programmbeschreibung, FINRA Rule 4590, Artikel zur 5G-Synchronisation
In Echtzeit-Handelssystemen reichte GPS aus, und wichtiger als Genauigkeit im Mikrosekundenbereich war die Latenz.
Auch die regulatorischen Anforderungen erlauben 1 Sekunde Abweichung, daher ist TOF-Niveau an Präzision nicht erforderlich.
Zum Beispiel wenn Daten über große Entfernungen präzise synchronisiert werden müssen, etwa bei gleichzeitigen Beobachtungen von Gravitationswellen und Gammastrahlenausbrüchen.
Zum Beispiel ist Schriever Space Force Base ein zentraler Kontrollstandort für GPS.
Außerdem ist es wichtig als bodenbasiertes Zeitnetz für den Fall, dass GNSS-Signale ausfallen.
Relevanter Artikel: Chinas hochpräzises bodengestütztes Timing-System
Tatsächlich gab es nur bei den Boulder-Servern ein Synchronisationsproblem.
Die Formulierung „NIST insgesamt war offline“ ist übertrieben.
Laut der Server-Status-Seite waren nur 5 von 16 IPv4-NTP-Servern betroffen, die übrigen funktionierten normal.
Die meisten Nutzer sollten ohnehin keine Top-Level-Server direkt verwenden, daher war das Problem minimal.
Ich persönlich empfehle pool.ntp.org.
Könnten sich Fehler weiterverbreiten? Ist pool.ntp.org so verteilt, dass Ausfälle oder korrelierte Abweichungen vermieden werden?
Kleine Anmerkung: UTC ist die Abkürzung für „Coordinated Universal Time“.
Die Buchstabenreihenfolge wurde so festgelegt, dass weder Englisch noch Französisch bevorzugt wird.
Berücksichtigt wurde auch die Konsistenz mit dem bestehenden Abkürzungssystem wie UT0, UT1 und UT2.
Etwas am Thema vorbei, aber ich möchte chrony loben.
Auf verschiedenster Hardware war es deutlich stabiler als die herkömmlichen standardmäßigen NTP-Clients der Betriebssysteme.
Das zeigt, dass Leistung und Stabilität sich bewährt haben.
Dieser Thread ist so interessant, dass ich immer weiterlese.
Vielleicht liegt es daran, dass ich heute zu viel Adderall genommen habe.
Einige HFT-Trader, die ich kenne, sollen mit diesem Vorfall Hunderttausende Dollar verdient haben.
Haben sie das System absichtlich ausgenutzt oder war es einfach ein glücklicher Glitch?
Früher hieß es, „eine falsche Zeit zu übertragen ist schlimmer, als gar keine zu übertragen“, deshalb verstehe ich nicht, warum man diesmal eine fehlerhafte Zeit ausgeliefert hat.
Laut der NIST-Mailingliste gibt es bei Internetübertragung typischerweise Unsicherheit im Bereich von 1 ms, also etwas völlig anderes als wissenschaftliche Präzision.
Damals waren sowohl Stromversorgung als auch administrativer Zugriff unterbrochen, sodass man nicht wissen konnte, wie falsch die Uhr tatsächlich ging.
Wenn unmittelbar nach der Wiederherstellung der Stromversorgung eine falsche Zeit verbreitet worden wäre, hätten weltweit Systeme Synchronisationsfehler bekommen können.
Daher war es besser, vorsorglich abzuschalten (scram).
Passende Kurzgeschichte: The Time Rift of 2100
Zum Beispiel ist es sicherer, wenn ein Feueralarm gar nicht antwortet, als wenn er fälschlich „alles in Ordnung“ meldet.
Ich verstehe den Videotitel „NISTs Uhr stand kurz vor einer Katastrophe“ nicht.
Hätte man die Zeit nicht einfach von einem anderen Campus korrigieren können?
Falls es wirklich Anwendungsfälle gibt, die solche Präzision brauchen, wäre eine Erklärung durch Fachleute nötig.
Ich frage mich, was die wichtigsten Fälle waren, in denen Menschen präzise Zeit gebraucht haben.
Mit White Rabbit synchronisieren wir RF-Leistungssysteme und Datenerfassungsgeräte im Nanosekundenbereich.
Mit TrueTime wird weltweite Transaktionskonsistenz garantiert.
Wenn ein GPS-Satellit in dieser Größenordnung danebenläge, würde die Positionsgenauigkeit auf Loran-C-Niveau fallen.
Die Geschichte begann mit einem NPR-Artikel.
Originallink