2 Punkte von GN⁺ 2024-04-01 | 1 Kommentare | Auf WhatsApp teilen

Zum Serviceausfall von Tailscale.com am 7. März 2024

  • Am 7. März 2024 war Tailscale.com aufgrund eines abgelaufenen TLS-Zertifikats etwa 90 Minuten lang nicht erreichbar.
  • Das Problem wurde schnell identifiziert und behoben und betraf hauptsächlich Marketingmaterialien und die Dokumentation.
  • Ein unerwarteter Serviceausfall ist problematisch, daher soll erläutert werden, wodurch er verursacht wurde, welche Auswirkungen er hatte und welche Maßnahmen zur Verhinderung einer Wiederholung ergriffen werden.

Was passiert ist

  • Im Dezember 2023 wurde eine umfassende Überarbeitung der Website durchgeführt, einschließlich eines Umzugs zu einem neuen Hosting-Anbieter.
  • Da der Hosting-Anbieter IPv6 nicht standardmäßig unterstützte, wurde ein separater Proxy betrieben, um IPv6-Anfragen zu verarbeiten.
  • Diese Konfiguration wurde vom Hosting-Anbieter als „Fehlkonfiguration“ eingestuft, und es gab eine Warnung, jedoch wurde nicht erkannt, dass dies die automatische Zertifikatserneuerung behindern würde.
  • Es gab einen Prober zur Prüfung auf Zertifikatsablauf, dieser prüfte jedoch nur über IPv6 und sah dadurch nur das vom Proxy verwaltete gültige Zertifikat, sodass der bevorstehende Ablauf nicht erkannt wurde.

Auswirkungen

  • Die meisten Tailscale-Funktionen erfordern keinen Zugriff auf die Hauptwebsite, daher wurde die normale Nutzung bei vielen Anwendern nicht beeinträchtigt.
  • Dokumentation, Blog und andere Referenzmaterialien waren nicht erreichbar. Die Admin-Konsole und die Einstellungsseiten waren zwar nicht betroffen, aber Anwender, die die direkte Zugriffsmethode nicht kannten, konnten fälschlicherweise annehmen, sie seien offline.
  • Das schnelle Installationsskript war nicht erreichbar, was einige Installationen beeinträchtigte, einschließlich automatischer Installationen.
  • Die Domains, die Tailscale-Pakete bereitstellen, waren erreichbar, und Auswirkungen auf Lösungen über Gos go get-Mechanismus blieben dank Caching minimal.

Maßnahmen zur Behebung

  • Nachdem das Problem erkannt worden war, wurde der „zusätzliche“ AAAA-Record vorübergehend entfernt und das betreffende Zertifikat manuell erneuert.
  • Um die Erreichbarkeit der Website und der Dienste über IPv6 aufrechtzuerhalten, wurde der Record wiederhergestellt.
  • Kurzfristig ist geplant, mehrere redundante Kalender-Erinnerungen und festgelegte Zeiten für manuelle Erneuerungen einzurichten.
  • Die Prober-Infrastruktur soll aktualisiert werden, damit IPv4- und IPv6-Endpunkte getrennt geprüft werden.
  • Es besteht die Hoffnung, IPv6 in der Website-Infrastruktur direkter zu unterstützen und damit den Proxy überflüssig zu machen.
  • Dank des Designs von Tailscale waren die meisten Anwender für die meisten Einsatzzwecke von diesem Ausfall nicht betroffen.

Meinung von GN⁺

  • Der Serviceausfall bei Tailscale unterstreicht die Bedeutung des Managements von IT-Infrastruktur. Insbesondere zeigt er, wie wichtig grundlegende Wartungsaufgaben wie die Zertifikatserneuerung sind.
  • Dieser Vorfall deutet auf die Bedeutung von IPv6 hin und zugleich auf die Notwendigkeit kreativer Ansätze, um Kompatibilitätsprobleme mit bestehender Infrastruktur zu lösen.
  • Andere Dienste mit ähnlichen Funktionen sind beispielsweise Cloudflare und Let's Encrypt; sie bieten automatische Zertifikatserneuerung und können ähnliche Probleme verhindern.
  • Bei der Einführung von Technologien sollten Infrastrukturkompatibilität, Automatisierbarkeit und Wartungsfreundlichkeit berücksichtigt werden. Solche Vorfälle zeigen, warum Vor- und Nachteile bei der Technologiewahl sorgfältig abgewogen werden müssen.
  • Dieser Artikel kann Anwendern und Administratoren helfen, das Bewusstsein für grundlegende Systemverwaltungsaufgaben wie den Ablauf von Zertifikaten zu schärfen.

1 Kommentare

 
GN⁺ 2024-04-01
Hacker-News-Kommentare
  • Problem mit ablaufenden Zertifikaten

    Ablaufende Zertifikate verursachen offenbar eine neue DNS-Störung. Es wird geschildert, wie Tailscale es ermöglicht, von überall sicher zu arbeiten. Über Tailscale besteht Zugriff auf On-Premises-Server und die AWS-Produktionsumgebung, und selbst wenn das lokale WLAN langsam ist, lassen sich Probleme von einem anderen Ort per SSH beheben. Tailscale bietet Funktionen, mit denen sich Netzwerkzugriffsrechte einfach vergeben und wieder entziehen lassen.

  • Probleme durch Zertifikatsablauf

    Das Problem mit abgelaufenen Zertifikaten ist erneut aufgetreten. Im Rahmen der Postmortem-Analyse wird empfohlen, die Marketing-Website und kritische Pfade des Kundenbetriebs voneinander zu trennen. Es wird darauf hingewiesen, dass Ausfälle bei Websites wie GitHub oder Zendesk häufiger vorkommen als erwartet.

  • Verknüpfungsproblem zwischen Marketing-Website und App

    Es wird von einem Problem berichtet, das dadurch entstand, dass auf der Marketing-Website ein Link zur Login-Seite der App platziert war. Fällt die Marketing-Website aus, könnten Nutzer annehmen, dass auch die App nicht verfügbar ist. Nutzer folgen oft einfach dem vorgegebenen Pfad und wissen nicht, dass es alternative Wege gibt.

  • Unzufriedenheit mit der Preisgestaltung

    Der Dienst von Tailscale gefällt, aber ein sinnvoller Zugriffsschutz für ein VPN ist mit 18 US-Dollar pro Monat so teuer, dass er sich intern gegenüber dem Management nur schwer verkaufen lässt. Ein niedrigeres Service-Tier lässt sich ohne Zugriffskontrolle ebenfalls kaum verkaufen.

  • Frage zum Website-Anbieter

    Es wird gefragt, wer der Anbieter der Website ist und ob wegen fehlender IPv6-Unterstützung ein kompliziertes Verfahren nötig ist.

  • Lob für die Engineering-Kultur

    Es wird Bewunderung dafür geäußert, dass im Dezember ein größeres Update mit einem verlässlichen CI/CD- und Monitoring-Prozess durchgeführt wurde. Offen bleiben jedoch Fragen dazu, warum die Zertifikatserneuerung wegen eines IPv6-Konfigurationsproblems scheiterte, warum die Behebung 90 Minuten dauerte und warum nicht zu einem DNS-Anbieter mit IPv6-Unterstützung gewechselt wurde.

  • Frage, warum TLS-Terminierung nötig ist

    Es wird infrage gestellt, ob der Proxy TLS terminieren muss oder ob nicht auch ein einfacher TCP-Proxy ausreichen würde. Mit einem TCP-Proxy wäre womöglich auch eine automatische Erneuerung möglich.

  • Sarkastische Bemerkung zu Kalendererinnerungen

    Gefallen findet die ironische Formulierung, man solle wie die Vorfahren mehrere redundante Kalendererinnerungen einrichten.

  • Sicherheitsbedenken

    Es wird darauf hingewiesen, dass Tailscale für Menschen mit einer gewissen Paranoia zu riskant wirken könnte, wenn dem Unternehmen auch nur ein kleiner sicherheitsrelevanter Fehler unterläuft. Dafür brauche es eine bessere Lösung.

  • Vorschlag zu Infrastruktur-Monitoring und automatischer Erneuerung

    Es sollte Infrastruktur-Monitoring geben, und es wird vorgeschlagen, Code hinzuzufügen, der für alle öffentlichen Domains sowohl IPv4 als auch IPv6 prüft und 19 Tage vor dem Zertifikatsablauf warnt. Eine automatische Erneuerung 20 Tage vor Ablauf könnte SSL-bedingte Ausfälle verhindern.