GitHub Actions war ausgefallen
(githubstatus.com)- Die GitHub-Statusseite zeigt derzeit All Systems Operational, und für den 27. Mai 2026 sind keine gemeldeten Incidents verzeichnet
- In den letzten 90 Tagen waren alle wichtigen Komponenten Operational, und die Actions-Verfügbarkeit lag bei 99.66 %, Pull Requests bei 99.55 %
- Am 26. Mai kam es bei Actions und Pages aufgrund eines Authentifizierungsproblems zu fehlgeschlagenen Startvorgängen und fehlgeschlagenen Action-Downloads; die meisten Actions-Ausführungen waren betroffen
- Die Actions-Verzögerungen am 20. Mai wurden durch einen falsch konfigurierten Health Check verursacht; 4.5 % aller Runs und 30 % der Scale-Set-Jobs waren verzögert
- Die Beeinträchtigung von Actions am 15. Mai wurde während eines geplanten Failovers durch ein Routing-Problem verursacht; auf dem Höhepunkt schlugen 42 % der Runs fehl
Aktueller Servicestatus
- Die GitHub-Statusseite wird derzeit als All Systems Operational angezeigt
- Für den 27. Mai 2026 wird keine gemeldete Störung angezeigt
- In den letzten 90 Tagen befanden sich alle wichtigen Komponenten im Status Operational
- Git Operations: 99.83 % Verfügbarkeit
- Webhooks: 99.73 % Verfügbarkeit
- API Requests: 99.98 % Verfügbarkeit
- Issues: 99.86 % Verfügbarkeit
- Pull Requests: 99.55 % Verfügbarkeit
- Actions: 99.66 % Verfügbarkeit
- Packages: 99.98 % Verfügbarkeit
- Pages: 99.96 % Verfügbarkeit
- Copilot: 99.91 % Verfügbarkeit
- Codespaces: 99.77 % Verfügbarkeit
- Copilot AI Model Providers: 100.0 % Verfügbarkeit
- Es gibt außerdem separate Statusseiten nach Region für GitHub Enterprise Cloud
Actions- und Pages-Incident vom 26. Mai 2026
-
Actions- und Pages-Incident
- Um 10:57 UTC begannen die Untersuchungen zu einer Beeinträchtigung von Actions und Pages
- Um 11:19 UTC wurde eine verringerte Verfügbarkeit von Actions bestätigt
- Um 11:53 UTC wurde ein Authentifizierungsproblem untersucht, das fehlgeschlagene Starts von Actions-Runs und fehlgeschlagene Action-Downloads verursachte; zu diesem Zeitpunkt war der Großteil der Actions-Runs betroffen
- Um 12:37 UTC wurde die Ursache des Authentifizierungsproblems identifiziert, das GitHub Actions betraf, und Gegenmaßnahmen wurden eingeleitet
- Um 13:00 UTC war die Beeinträchtigung von Actions und Pages gemildert, und es wurde zur Überwachung übergegangen, um die Stabilität zu bestätigen
- Um 13:18 UTC wurde der Incident behoben; eine detaillierte Root-Cause-Analyse soll veröffentlicht werden, sobald sie bereit ist
Actions-Incident vom 20. Mai 2026
-
Actions-Incident
- Zwischen 16:00 und 17:45 UTC kam es bei GitHub-Action-Kunden zu Startverzögerungen von mehr als 5 Minuten
- Während des betroffenen Zeitraums waren etwa 4.5 % aller Runs verzögert, Scale-Set-Jobs waren stärker betroffen
- 30 % der Scale-Set-Jobs waren verzögert, 4 % starteten überhaupt nicht
- Ursache war ein falsch konfigurierter Health Check in einem internen Service, der Jobs den Runnern zuweist
- Ein kurzer Anstieg von Latenzen in einer Upstream-Abhängigkeit löste in mehreren Pods fehlgeschlagene Health Checks aus; diese Pods wurden aus dem Service entfernt, wodurch sich die Last auf die verbleibende Kapazität konzentrierte
- Die zusätzliche Last führte zu Speicherdruck, und in einem regionalen Cluster weitete sich eine Kaskadenstörung aus, die sich nicht mehr selbst erholen konnte
- Die Reaktion bestand darin, die Kapazität eines gesunden regionalen Clusters zu erweitern und Traffic aus dem beeinträchtigten regionalen Cluster abzuziehen; danach erholten sich die Startverzögerungen
- Um Wiederholungen zu vermeiden, wird die Health-Check-Konfiguration verbessert, um Kaskadenausfälle zu verhindern, und es werden automatische Gegenmaßnahmen bewertet, die Traffic bei regionalen Beeinträchtigungen umverteilen
- Um 20:14 UTC wurde der Incident behoben
Beeinträchtigte Actions-Verfügbarkeit am 15. Mai 2026
-
Beeinträchtigte Actions-Verfügbarkeit
- Zwischen 07:43 und 08:48 UTC kam es bei einigen GitHub-Actions-Kunden zu fehlgeschlagenen Workflow-Ausführungen oder Startverzögerungen
- Der Incident begann während eines geplanten Failovers der unterstützenden Infrastruktur, die von GitHub Actions genutzt wird
- Während des Failovers wurden automatische Updates der Service Discovery nicht korrekt propagiert, wodurch Traffic falsch geroutet wurde und Timeouts in einer zentralen Abhängigkeit der Workflow-Orchestrierung zunahmen
- Auf dem Höhepunkt der Auswirkungen schlugen 42 % der Actions-Runs fehl
- Auch nachgelagerte Services, die von Actions-Workflow-Ausführungen abhängen, waren betroffen, darunter GitHub Pages und Copilot-Cloud-Services
- Um 08:12 UTC korrigierten die Einsatzkräfte das Routing-Problem in der Service Discovery manuell
- Timeouts und Fehlerraten erholten sich kurz darauf, und die Überwachung wurde fortgesetzt, bis sich alle betroffenen Services stabilisiert hatten
- Um Wiederholungen zu verhindern, werden Failover-Geländer eingeführt, die den Zustand der Service Discovery vor Abschluss eines Failovers prüfen, außerdem stärkere Validierungen vor und nach dem Failover sowie eine verbesserte Resilienz der Abhängigkeiten, um Timeout-Kaskaden während Infrastrukturereignissen zu reduzieren
- Um 08:48 UTC wurde der Incident behoben
1 Kommentare
Hacker-News-Kommentare