GitHub Actions war ausgefallen

(githubstatus.com)

1 Punkte von GN⁺ 2026-05-27 | 1 Kommentare | Auf WhatsApp teilen

Die GitHub-Statusseite zeigt derzeit All Systems Operational, und für den 27. Mai 2026 sind keine gemeldeten Incidents verzeichnet
In den letzten 90 Tagen waren alle wichtigen Komponenten Operational, und die Actions-Verfügbarkeit lag bei 99.66 %, Pull Requests bei 99.55 %
Am 26. Mai kam es bei Actions und Pages aufgrund eines Authentifizierungsproblems zu fehlgeschlagenen Startvorgängen und fehlgeschlagenen Action-Downloads; die meisten Actions-Ausführungen waren betroffen
Die Actions-Verzögerungen am 20. Mai wurden durch einen falsch konfigurierten Health Check verursacht; 4.5 % aller Runs und 30 % der Scale-Set-Jobs waren verzögert
Die Beeinträchtigung von Actions am 15. Mai wurde während eines geplanten Failovers durch ein Routing-Problem verursacht; auf dem Höhepunkt schlugen 42 % der Runs fehl

Aktueller Servicestatus

Die GitHub-Statusseite wird derzeit als All Systems Operational angezeigt
Für den 27. Mai 2026 wird keine gemeldete Störung angezeigt
In den letzten 90 Tagen befanden sich alle wichtigen Komponenten im Status Operational
- Git Operations: 99.83 % Verfügbarkeit
- Webhooks: 99.73 % Verfügbarkeit
- API Requests: 99.98 % Verfügbarkeit
- Issues: 99.86 % Verfügbarkeit
- Pull Requests: 99.55 % Verfügbarkeit
- Actions: 99.66 % Verfügbarkeit
- Packages: 99.98 % Verfügbarkeit
- Pages: 99.96 % Verfügbarkeit
- Copilot: 99.91 % Verfügbarkeit
- Codespaces: 99.77 % Verfügbarkeit
- Copilot AI Model Providers: 100.0 % Verfügbarkeit
Es gibt außerdem separate Statusseiten nach Region für GitHub Enterprise Cloud
- Australia
- EU
- Japan
- US

Actions- und Pages-Incident vom 26. Mai 2026

Actions- und Pages-Incident
- Um 10:57 UTC begannen die Untersuchungen zu einer Beeinträchtigung von Actions und Pages
- Um 11:19 UTC wurde eine verringerte Verfügbarkeit von Actions bestätigt
- Um 11:53 UTC wurde ein Authentifizierungsproblem untersucht, das fehlgeschlagene Starts von Actions-Runs und fehlgeschlagene Action-Downloads verursachte; zu diesem Zeitpunkt war der Großteil der Actions-Runs betroffen
- Um 12:37 UTC wurde die Ursache des Authentifizierungsproblems identifiziert, das GitHub Actions betraf, und Gegenmaßnahmen wurden eingeleitet
- Um 13:00 UTC war die Beeinträchtigung von Actions und Pages gemildert, und es wurde zur Überwachung übergegangen, um die Stabilität zu bestätigen
- Um 13:18 UTC wurde der Incident behoben; eine detaillierte Root-Cause-Analyse soll veröffentlicht werden, sobald sie bereit ist

Actions-Incident vom 20. Mai 2026

Actions-Incident
- Zwischen 16:00 und 17:45 UTC kam es bei GitHub-Action-Kunden zu Startverzögerungen von mehr als 5 Minuten
- Während des betroffenen Zeitraums waren etwa 4.5 % aller Runs verzögert, Scale-Set-Jobs waren stärker betroffen
- 30 % der Scale-Set-Jobs waren verzögert, 4 % starteten überhaupt nicht
- Ursache war ein falsch konfigurierter Health Check in einem internen Service, der Jobs den Runnern zuweist
- Ein kurzer Anstieg von Latenzen in einer Upstream-Abhängigkeit löste in mehreren Pods fehlgeschlagene Health Checks aus; diese Pods wurden aus dem Service entfernt, wodurch sich die Last auf die verbleibende Kapazität konzentrierte
- Die zusätzliche Last führte zu Speicherdruck, und in einem regionalen Cluster weitete sich eine Kaskadenstörung aus, die sich nicht mehr selbst erholen konnte
- Die Reaktion bestand darin, die Kapazität eines gesunden regionalen Clusters zu erweitern und Traffic aus dem beeinträchtigten regionalen Cluster abzuziehen; danach erholten sich die Startverzögerungen
- Um Wiederholungen zu vermeiden, wird die Health-Check-Konfiguration verbessert, um Kaskadenausfälle zu verhindern, und es werden automatische Gegenmaßnahmen bewertet, die Traffic bei regionalen Beeinträchtigungen umverteilen
- Um 20:14 UTC wurde der Incident behoben

Beeinträchtigte Actions-Verfügbarkeit am 15. Mai 2026

Beeinträchtigte Actions-Verfügbarkeit
- Zwischen 07:43 und 08:48 UTC kam es bei einigen GitHub-Actions-Kunden zu fehlgeschlagenen Workflow-Ausführungen oder Startverzögerungen
- Der Incident begann während eines geplanten Failovers der unterstützenden Infrastruktur, die von GitHub Actions genutzt wird
- Während des Failovers wurden automatische Updates der Service Discovery nicht korrekt propagiert, wodurch Traffic falsch geroutet wurde und Timeouts in einer zentralen Abhängigkeit der Workflow-Orchestrierung zunahmen
- Auf dem Höhepunkt der Auswirkungen schlugen 42 % der Actions-Runs fehl
- Auch nachgelagerte Services, die von Actions-Workflow-Ausführungen abhängen, waren betroffen, darunter GitHub Pages und Copilot-Cloud-Services
- Um 08:12 UTC korrigierten die Einsatzkräfte das Routing-Problem in der Service Discovery manuell
- Timeouts und Fehlerraten erholten sich kurz darauf, und die Überwachung wurde fortgesetzt, bis sich alle betroffenen Services stabilisiert hatten
- Um Wiederholungen zu verhindern, werden Failover-Geländer eingeführt, die den Zustand der Service Discovery vor Abschluss eines Failovers prüfen, außerdem stärkere Validierungen vor und nach dem Failover sowie eine verbesserte Resilienz der Abhängigkeiten, um Timeout-Kaskaden während Infrastrukturereignissen zu reduzieren
- Um 08:48 UTC wurde der Incident behoben

1 Kommentare

GN⁺ 2026-05-27

Hacker-News-Kommentare

Die Kommentare wurden nach https://news.ycombinator.com/item?id=48278090 verschoben