Zum Serviceausfall von Tailscale.com am 7. März 2024
- Am 7. März 2024 war Tailscale.com aufgrund eines abgelaufenen TLS-Zertifikats etwa 90 Minuten lang nicht erreichbar.
- Das Problem wurde schnell identifiziert und behoben und betraf hauptsächlich Marketingmaterialien und die Dokumentation.
- Ein unerwarteter Serviceausfall ist problematisch, daher soll erläutert werden, wodurch er verursacht wurde, welche Auswirkungen er hatte und welche Maßnahmen zur Verhinderung einer Wiederholung ergriffen werden.
Was passiert ist
- Im Dezember 2023 wurde eine umfassende Überarbeitung der Website durchgeführt, einschließlich eines Umzugs zu einem neuen Hosting-Anbieter.
- Da der Hosting-Anbieter IPv6 nicht standardmäßig unterstützte, wurde ein separater Proxy betrieben, um IPv6-Anfragen zu verarbeiten.
- Diese Konfiguration wurde vom Hosting-Anbieter als „Fehlkonfiguration“ eingestuft, und es gab eine Warnung, jedoch wurde nicht erkannt, dass dies die automatische Zertifikatserneuerung behindern würde.
- Es gab einen Prober zur Prüfung auf Zertifikatsablauf, dieser prüfte jedoch nur über IPv6 und sah dadurch nur das vom Proxy verwaltete gültige Zertifikat, sodass der bevorstehende Ablauf nicht erkannt wurde.
Auswirkungen
- Die meisten Tailscale-Funktionen erfordern keinen Zugriff auf die Hauptwebsite, daher wurde die normale Nutzung bei vielen Anwendern nicht beeinträchtigt.
- Dokumentation, Blog und andere Referenzmaterialien waren nicht erreichbar. Die Admin-Konsole und die Einstellungsseiten waren zwar nicht betroffen, aber Anwender, die die direkte Zugriffsmethode nicht kannten, konnten fälschlicherweise annehmen, sie seien offline.
- Das schnelle Installationsskript war nicht erreichbar, was einige Installationen beeinträchtigte, einschließlich automatischer Installationen.
- Die Domains, die Tailscale-Pakete bereitstellen, waren erreichbar, und Auswirkungen auf Lösungen über Gos
go get-Mechanismus blieben dank Caching minimal.
Maßnahmen zur Behebung
- Nachdem das Problem erkannt worden war, wurde der „zusätzliche“ AAAA-Record vorübergehend entfernt und das betreffende Zertifikat manuell erneuert.
- Um die Erreichbarkeit der Website und der Dienste über IPv6 aufrechtzuerhalten, wurde der Record wiederhergestellt.
- Kurzfristig ist geplant, mehrere redundante Kalender-Erinnerungen und festgelegte Zeiten für manuelle Erneuerungen einzurichten.
- Die Prober-Infrastruktur soll aktualisiert werden, damit IPv4- und IPv6-Endpunkte getrennt geprüft werden.
- Es besteht die Hoffnung, IPv6 in der Website-Infrastruktur direkter zu unterstützen und damit den Proxy überflüssig zu machen.
- Dank des Designs von Tailscale waren die meisten Anwender für die meisten Einsatzzwecke von diesem Ausfall nicht betroffen.
Meinung von GN⁺
- Der Serviceausfall bei Tailscale unterstreicht die Bedeutung des Managements von IT-Infrastruktur. Insbesondere zeigt er, wie wichtig grundlegende Wartungsaufgaben wie die Zertifikatserneuerung sind.
- Dieser Vorfall deutet auf die Bedeutung von IPv6 hin und zugleich auf die Notwendigkeit kreativer Ansätze, um Kompatibilitätsprobleme mit bestehender Infrastruktur zu lösen.
- Andere Dienste mit ähnlichen Funktionen sind beispielsweise Cloudflare und Let's Encrypt; sie bieten automatische Zertifikatserneuerung und können ähnliche Probleme verhindern.
- Bei der Einführung von Technologien sollten Infrastrukturkompatibilität, Automatisierbarkeit und Wartungsfreundlichkeit berücksichtigt werden. Solche Vorfälle zeigen, warum Vor- und Nachteile bei der Technologiewahl sorgfältig abgewogen werden müssen.
- Dieser Artikel kann Anwendern und Administratoren helfen, das Bewusstsein für grundlegende Systemverwaltungsaufgaben wie den Ablauf von Zertifikaten zu schärfen.
1 Kommentare
Hacker-News-Kommentare
Problem mit ablaufenden Zertifikaten
Probleme durch Zertifikatsablauf
Verknüpfungsproblem zwischen Marketing-Website und App
Unzufriedenheit mit der Preisgestaltung
Frage zum Website-Anbieter
Lob für die Engineering-Kultur
Frage, warum TLS-Terminierung nötig ist
Sarkastische Bemerkung zu Kalendererinnerungen
Sicherheitsbedenken
Vorschlag zu Infrastruktur-Monitoring und automatischer Erneuerung