- Postman erlebte aufgrund eines globalen Cloud-Problems vorübergehend eine Serviceunterbrechung
- Die Störung wurde durch ein Problem des Cloud-Providers verursacht und führte bei vielen Nutzern zu Funktionsfehlern sowie vorübergehend nicht möglicher Verbindung
- Das Engineering-Team führte Wiederherstellungsarbeiten in Echtzeit durch, und der Service erholte sich schrittweise
- Störungen in einzelnen Suchfunktionen sowie ein Cross-Dependency-Problem wurden kontinuierlich überwacht und behoben
- Der Ausfall ist behoben und der reguläre Service wurde wiederhergestellt; die zusätzliche Stabilitätsüberwachung läuft weiter
Zeitachse der Postman-Dienststörung und Wiederherstellung
Störungserkennung und Auswirkungen (20. Okt. 05:39 ~ 05:52 PDT)
- Bei erhöhter Fehlerrate traten bei Postman funktionale Probleme auf
- Die Ursache der Störung lag in einem schwerwiegenden Problem des Cloud-Service-Providers
- Das Postman-Team arbeitete mit dem Cloud-Anbieter zusammen, um eine rasche Wiederherstellung zu erreichen
Teilweise Wiederherstellung und Überwachung (20. Okt. 05:56 ~ 17:17 PDT)
- Wiedererholung einzelner Systeme wurde beobachtet
- Mehrere Services wurden kontinuierlich mit Leistungsüberwachung überwacht, während umfassende Wiederherstellungsarbeiten fortgeführt wurden
- Die Wiederherstellung der meisten Funktionen wurde bestätigt, und der Fokus lag auf kontinuierlicher Überwachung, um weitere Störungen zu vermeiden
Vollständige Wiederherstellung und Normalisierung des Dienstes (20. Okt. 19:00 ~ 20:51 PDT)
- Bei einigen Services bestanden noch sporadische Probleme, aber die Mehrzahl der Systeme erholte sich stabil
- Cross-Dependency-Fehler sowie Probleme mit der Suchfunktion wurden ebenfalls schrittweise behoben
- Nach der vollständigen Behebung aller Probleme und der kompletten Dienstwiederherstellung wurde zusätzliche Überwachung zur Sicherung der Stabilität durchgeführt
Zusammenfassung und Implikationen
- Postman ist stark von der Cloud-Infrastruktur abhängig, daher ist es direkt von globalen Ausfällen betroffen
- Auch bei ähnlichen Tools oder scheinbar lokalen Diensten wird die Notwendigkeit betont, auf Cloud-Infrastruktur-Ausfälle vorbereitet zu sein
- Bei einer Störung sind Echtzeit-Überwachung und Kommunikation entscheidend für Wartung und Kundenvertrauen
- Während einer schrittweisen Wiederherstellung sind die schnelle Reaktion des Teams und transparente Mitteilungen entscheidend
- Die Bedeutung eines Monitoring-Systems zur Sicherstellung des ordnungsgemäßen Betriebs aller Services wurde erneut hervorgehoben
1 Kommentare
Hacker News Kommentar
requests; letztlich fühlt es sich selbst bei Postman wie Programmierung in einer eingeschränkten Sprache an, wenn man Requests in eine Collection kodiert.hurl(https://hurl.dev/) schon ein paar Jahre verwendet, aber die Dateien wurden nie aufgeräumt und es häuften sich nur Textdateien im Ordner an; diesmal will ich posting.sh einmal ausprobieren.Tools -> HTTP Client), und seit Postman komplexer geworden ist, passt das gut, wenn man nur einfache Web-Requests braucht. Das soll keine Herabsetzung derjenigen sein, die Postman mögen, eher das Gefühl, dass es für meine Anforderungen zu viel geworden ist.yapi(https://github.com/jamierpond/yapi) gebaut. So kann man sie wie folgt nutzen: Ein YAML-Dateibeispiel (einschließlich Schema,url,method,pathsowie der Art der Angabe von Query-Parametern) und ein einfaches Ausführen von nuryapi, um mitfzfdie Konfigurationsdatei zu finden, ist möglich.Req-Paket; dabei kann ich direkt meine gewünschte Sprache nutzen und Datenverarbeitung flexibel gestalten. Falls man Elixir nicht kennt, können Jupyter oder andere Notebook-Systeme eine Alternative sein.