Aktuell liegt eine Störung bei GitHub vor
(githubstatus.com)- Bei Pull Requests kommt es zu Leistungseinbußen, und auf den Seiten
/pullsund/repo/pullswerden möglicherweise nicht alle indizierten Pull Requests angezeigt - Derzeit befinden sich nicht alle indizierten Dokumente im Elasticsearch-Cluster, aber die Pull-Request-Daten selbst sind nicht verloren gegangen und werden bei Aktualisierungen erneut indiziert
- Parallel laufen Arbeiten zur Neuindizierung der verbliebenen Indizes sowie zur Beschleunigung eines vollständigen Reindex für die Wiederherstellung der vollständigen Ergebnisse, wobei Genauigkeit und die Vermeidung zusätzlicher Auswirkungen Priorität haben
- In der Komponenten-Statusübersicht ist nur Pull Requests als beeinträchtigt markiert; Git Operations, Webhooks, API Requests, Issues, Actions, Packages, Pages, Copilot, Codespaces und Copilot AI Model Providers stehen auf Operational
- In der jüngeren Historie werden außerdem mehrere Störungsfälle und Wiederherstellungsmaßnahmen offengelegt, darunter Suchverschlechterungen, fehlgeschlagene Actions-Jobs, fehlgeschlagene Starts von Copilot-Agent-Sitzungen, Regressionen in der Merge Queue, Verzögerungen bei Projects und fehlgeschlagene Codespaces-Verbindungen
Aktueller Störungsstatus
- Bei Pull Requests kommt es zu Leistungseinbußen; dies ist unter Incomplete pull request results in repositories veröffentlicht
- Auf den Seiten
/pullsund/repo/pullswerden möglicherweise nicht alle indizierten Pull Requests angezeigt- Im Elasticsearch-Cluster befinden sich derzeit nicht alle indizierten Dokumente
- Die Pull-Request-Daten selbst sind nicht verloren gegangen
- Wenn ein Pull Request aktualisiert wird, wird er erneut indiziert
- Zur Wiederherstellung der vollständigen Ergebnisse laufen außerdem beschleunigte Arbeiten an einem full reindex
- Die verbleibenden Elasticsearch-Indizes werden derzeit neu indiziert, wobei Genauigkeit priorisiert und zusätzliche Auswirkungen vermieden werden sollen
- Dabei wird weiterhin ein vorsichtiger Ansatz verfolgt, um Daten sicher backzufüllen
Komponentenstatus
- In der aktuellen Statusübersicht ist nur Pull Requests als
Degraded Performancemarkiert - Die übrigen wichtigen Komponenten befinden sich im Status
Operational- Git Operations
- Webhooks
- API Requests
- Issues
- Actions
- Packages
- Pages
- Copilot
- Codespaces
- Copilot AI Model Providers
- Zusätzlich wird die Verfügbarkeit der letzten 90 Tage angezeigt
- Pull Requests 99.58% uptime
- API Requests 99.95% uptime
- Packages 99.97% uptime
- Copilot AI Model Providers 100.0% uptime
Regionale Statusseiten und Abonnementpfade
- Für GitHub Enterprise Cloud gibt es separate regionale Statusseiten
- Australia: au.githubstatus.com
- EU: eu.githubstatus.com
- Japan: jp.githubstatus.com
- US: us.githubstatus.com
- Es werden auch Kanäle zum Abonnieren von Statusmeldungen angeboten
- Slack: Subscribe via Slack
- X-Konto: @githubstatus
- Support-Seite: support site
- Feed: Atom Feed, RSS Feed
Jüngere Störungshistorie
-
28. Apr.: Teilweise Störung bei einigen GitHub-Diensten
- Der Eintrag Disruption with some GitHub services ist behoben
- Bei Actions-hosted-Ubuntu-Jobs kam es zu Startverzögerungen und Fehlschlägen
- Einige Ausführungen von
ubuntu-latestundubuntu-24.04waren verzögert oder schlugen fehl - Zeitweise waren etwa 5% der Jobs betroffen, später unter 2%, danach wieder unter 1%
- Einige Ausführungen von
- Das Problem, das Actions-Ausführungen blockierte, wurde entschärft und der Normalbetrieb schließlich wiederhergestellt
-
27. Apr.: GitHub-Suche beeinträchtigt
- Der Eintrag GitHub search is degraded ist behoben
- Durch Verbindungsprobleme mit Elasticsearch und zusätzliche Last kam es gleichzeitig zu Suchfehlern und Problemen in mehreren nachgelagerten Diensten
- Betroffen waren Issues, Pull Requests, Packages und Actions
- Es kam zu fehlgeschlagenen Workflow-Runs, fehlgeschlagenem Laden von Projects und Search-Timeouts
- Nachdem die Ursache der zusätzlichen Last blockiert worden war, zeigten sich Anzeichen der Erholung; danach wurde auf Stabilisierungs-Monitoring umgestellt
-
27. Apr.: Störung bei Copilot Cloud Agent Codex-Sitzungen
- Der Eintrag Disruption with some GitHub services ist behoben
- Im Copilot Cloud Agent kam es zu fehlgeschlagenen Starts von Codex-Agent-Sitzungen
- Sie starteten über keinen Einstiegspunkt, einschließlich Issue-Zuweisungen und
@copilot-Erwähnungen in Kommentaren - Betroffen waren 0.5% aller Copilot-Cloud-Agent-Aufgaben, rund 2,000 fehlgeschlagene Jobs
- Andere Agent-Sitzungen von Copilot waren nicht betroffen
- Sie starteten über keinen Einstiegspunkt, einschließlich Issue-Zuweisungen und
- Ursache war ein model resolution mismatch bei Codex-Agent-Sitzungen, durch das zur Laufzeit ein inkompatibles Modell gewählt wurde
- Als Gegenmaßnahme wurde ausgerollt, für Codex-Agent-Sitzungen ein stabiles Standardmodell auszuwählen
Wichtige Fälle mit veröffentlichter Root Cause
-
Regression in der Pull-Requests-Merge-Queue
- Incident with Pull Requests ist behoben
- Wenn in der Merge Queue das Squash-Merge-Verfahren verwendet wurde und die Merge Group mehr als einen PR enthielt, wurde ein falscher Merge-Commit erzeugt
- Bei späteren Merges konnten dadurch Änderungen aus früheren PRs und früheren Commits zurückgesetzt werden
- Im betroffenen Zeitraum waren 2,092 Pull Requests betroffen
- PRs, die außerhalb der Merge Queue gemergt wurden, sowie einige Gruppen mit
merge- oderrebase-Verfahren waren nicht betroffen - Ursache war, dass ein neuer Codepfad zur Berechnung der Merge Base mit unvollständigem feature flag gating ausgerollt wurde
- Die Codeänderung wurde zurückgenommen und per erzwungenem Rollout in der gesamten Umgebung verteilt; Administratoren betroffener Repositories erhielten separat Wiederherstellungsanweisungen
- Anschließend wird der Umfang der Tests zur Merge-Korrektheit erweitert, einschließlich Squash-Gruppen mit mehreren PRs
-
Claude- und Codex-Agenten konnten nicht über das Web gestartet werden
- Disruption with users unable to start Claude and Codex agent task from the web ist behoben
- Auf github.com konnten keine neuen Agent-Tasks mit Claude oder Codex gestartet werden
- Ursache war eine Änderung im Routing-Code für Task-Erstellungsanfragen in Copilot mission control
- Laufende Agent-Tasks und andere Copilot-Agent-Funktionen waren nicht betroffen
- Die fehlerhafte Änderung wurde zurückgenommen; zusätzlich werden weiteres Monitoring und Integrationstests für den Task-Erstellungspfad eingeführt
-
Ausfall bei der Verarbeitung von Copilot-@Erwähnungen
- Disruption with some GitHub services ist behoben
@copilot-Erwähnungen in Pull-Request-Kommentaren führten nicht zur Ausführung des Copilot coding agent- Von allen Pull-Request- und Issue-Kommentaren wurden etwa 23,000 Aufrufe, also 0.5% der Gesamtmenge, nicht verarbeitet
- Das Erstellen, Anzeigen und Beantworten von Kommentaren selbst war nicht betroffen
- Ursache war ein serialization error, der die Veröffentlichung von Events an einen Downstream-Consumer verhinderte
- Nach dem Ausrollen eines Fixes zur Wiederherstellung der Event-Veröffentlichung lief die Verarbeitung wieder normal; außerdem werden das zugehörige Event-Schema überprüft und das Monitoring verbessert
-
Ausfall von Copilot Chat und Cloud Agent
- Disruption with Copilot chat and Copilot Coding Agent ist behoben
- Bei Copilot Chat und Copilot Cloud Agent auf github.com traten Fehler auf, wodurch sie in diesem Zeitraum nicht nutzbar waren
- Auch Copilot Memory im Preview-Status war in Agent-Sitzungen nicht verfügbar
- Ursache war ein durch eine Infrastruktur-Konfigurationsänderung ausgelöstes Problem mit Datenbankverbindungen
- github.com wurde zuerst wiederhergestellt, die übrigen Regionen folgten schrittweise
-
Verzögerungen beim Projects-Dienst
- Disruption with projects service ist behoben
- Projects konnte nicht synchronisiert werden oder Änderungen wurden verzögert übernommen
- Die Verzögerung bei der Übernahme von Änderungen wuchs auf bis zu etwa 45 Minuten an
- Ursache war, dass ein serialization error Event-Fehlschläge und einen starken Anstieg von Resyncs verursachte und dadurch die Event-Verarbeitungsschicht überlastete
- Durch Erhöhung der Verarbeitungsgeschwindigkeit eingehender Änderungen wurde das Problem entschärft; anschließend wurde das Backlog abgebaut und der Dienst wiederhergestellt
-
Beeinträchtigung von Code Scanning Default Setup und Code Quality
- Partial degradation for code scanning default setup and for code quality ist behoben
- Bei neuen Pull Requests wurden code scanning default setup und code quality analysis nicht ausgelöst
- Zusätzlich trat ein Problem auf, bei dem neu erstellte Issues nicht im Project Board erschienen
- Ursache war ein serialization error, durch den Code Scanning, Code-Quality-Analyse und Updates des Project Boards nicht korrekt ausgelöst wurden
- Die Event-Veröffentlichung für code scanning und code quality wurde wiederhergestellt; die Seite mit dem Project Board wurde durch zusätzliche Codeänderungen und Reindex repariert
- Für PRs, die vor oder während des Incidents nicht verarbeitet wurden, wird die Analyse erst durch einen neuen Push erneut ausgelöst
Weitere aktuelle Störungsfälle
- Disruption with some GitHub services
- Die Web-Erfahrung auf GitHub.com war beeinträchtigt, und etwa 1.5% der Web-Requests endeten mit Fehlern
- Zeitweise waren rund 10% des Web-Traffics verlangsamt oder schlugen fehl
- Ursache war eine Kapazitätsauslastung einer Cache-Komponente in einer Data-Center-Region
- Der Traffic wurde in nicht betroffene Regionen umgeleitet und ein jüngstes Deployment zurückgerollt, wodurch der Dienst wiederhergestellt wurde
- Incident with Codespaces
- Verbindungen zu GitHub Codespaces über den VS Code editor schlugen fehl
- Etwa 40% der Codespace-Starts scheiterten
- SSH-Verbindungen waren nicht betroffen
- Ursache war ein Ausfall eines vorgelagerten Download-Service, der den Download von VS Code Server blockierte, der zum Start benötigt wird
- Als Gegenmaßnahme wurde ein Fallback eingeführt, der bei Beeinträchtigung des Standard-Endpunkts einen alternativen Downloadpfad nutzt
- Disruption with some GitHub services
- Beim Zugriff auf die Copilot Insights-Seite in GitHub Enterprise Cloud traten 500-Fehler auf
- Betroffen waren rund 709 Nutzer, die gesamte Auswirkungsdauer betrug etwa 5 Stunden 10 Minuten
- Ursache waren Authentifizierungsfehler in der Metrics-Pipeline und Änderungen an Tenant-Credentials
- Es werden Diagnosewerkzeuge, feingranulareres Monitoring und stärkere Alerting-Mechanismen eingeführt
1 Kommentare
Hacker-News-Kommentare
Noch problematischer ist, dass es jetzt stillschweigend fehlschlägt
Zum Beispiel werden trotz dutzender PRs "There aren’t any open pull requests." angezeigt, was die Leute eindeutig in die Irre führt
Das trifft mich wirklich ziemlich hart
Vor ein paar Monaten hat $PARENT_CONGLOMERATE aus Gründen von Synergie und Effizienz eine GitHub-Migration für alle untergeordneten Organisationen erzwungen, und jetzt ist $DAYJOB mit dem Wechsel von self-hosted GitLab an der Reihe
Ich habe jetzt schon einige Beschwerden
Die IT-Richtlinien rund um GH-Accounts sind widersprüchlich, sodass weder mein persönlicher Account noch ein früher extra für $DAYJOB angelegter Account genutzt werden kann und stattdessen ein neuer Account nach den IT-Vorgaben erstellt werden muss
Wir nutzen kein Monorepo, sondern viele Groups, aber dieses Konzept hat in GitHub keine direkte Entsprechung, sodass wir die Projekt-Namespaces manuell aufräumen müssen
Und jetzt sieht auch noch die Verfügbarkeit von GitHub so aus
Die Release-Termine unseres Teams sind umsatzkritisch, sodass schon ein oder zwei Tage Verzögerung darüber entscheiden können, ob wir unsere Monatsziele erreichen
In einer anderen Situation hätten wir umsatzkritischen Code vielleicht im Voraus gespiegelt, aber es scheint den Aufwand nicht wert zu sein, so eine guerillamäßige Umgehungslösung aufzubauen
Schön wäre es, wenn man in einem Postmortem in naher Zukunft The Synergy Mandate verantwortlich machen könnte, aber ich weiß selbst, dass das realistisch nicht passieren wird
Ich kann nur hoffen, dass wir die Umsatzziele weiter erreichen und das Produkt nicht wegen schwacher Zahlen gestrichen wird
Während ich das schreibe, wird mir noch deutlicher, wie sehr sich diese Arbeit seit meinem Einstieg verändert hat
Ich möchte es allen OSS-Projekten noch einmal sagen
Es ist mit einer einfachen CI-Aufgabe enorm leicht, Code zwischen mehreren Forges zu synchronisieren, und auch die E-Mail-Benachrichtigungen eines zweiten Forge verursachen kaum Zusatzaufwand
Man sollte zumindest die Möglichkeit offenhalten, außerhalb von GitHub beizutragen, und am Ende ist das besser für das gesamte Ökosystem
Für die meisten Projekte ist selbst das vielleicht nicht einmal zwingend nötig
Schwierig ist alles rund um den Code
Tickets und PRs, einschließlich geschlossener Einträge, als Historie
Alle möglichen Links, die auf das Projekt verweisen
CI-Konfiguration
Bei großen Projekten auch die Struktur der Committer-Berechtigungen
Falls nötig, müssen sogar alle Push-/Commit-/Branch-Regeln mit umgezogen werden
Solche Dinge sind je nach Projekt extrem lästig zu migrieren, und manches geht dabei womöglich verloren
Das noch größere Problem ist aber, dass man die grundlegende Plattform zum Auffinden von Software verliert
Ich frage mich, wann endlich ein Fediverse für Software kommt
GitHub Actions ist immer noch die beste Option, und weder die FSF noch andere OSS-Labs haben es geschafft, Open-Source-Maintainern eine wirklich brauchbare CI bereitzustellen
Außerdem ist die CI-Last heute viel höher als früher
Ich habe inzwischen wirklich das Gefühl, dass wir Alternativen ernsthaft vorantreiben müssen
Das beginnt reale Auswirkungen auf unser Geschäft zu haben, und es gibt keinerlei Anzeichen dafür, dass es besser wird
Dann muss man allerdings mit den Einschränkungen der org/repo-Struktur leben
Wer ein ähnliches, aber leicht anderes Erlebnis will, ist bei GitLab richtig
Wer etwas Kernel-näheres will, also Hosting und flexible Repository-Strukturen, SSH-Key-basierte Benutzerauthentifizierung und eine einfache Web-UI, kann gitolite mit cgit kombinieren oder gitweb verwenden
Ob Gitea oder Forgejo, solange der gebotene Funktionsumfang passt, reicht das völlig aus
Ich schaue gelegentlich in GitHub-Ausfall-Threads vorbei und lache, denn unsere Gitea-Instanz hatte in den letzten Jahren insgesamt nur wenige Minuten Ausfallzeit, und das waren alles geplante nächtliche Upgrades
Es ist keine vollständige Kopie, aber nahe genug dran; eher der Unterschied zwischen Apfel und Birne als zwischen Orangen und Äpfeln
Allerdings ist GitHub wirklich eine klebrige Plattform: Wenn einmal Actions und alle möglichen Integrationen eingerichtet sind, kommt man nur schwer wieder weg
Trotzdem ist es inzwischen schon fast absurd, wie häufig dort Ausfälle auftreten
Es scheint nicht nur GitHub zu betreffen, sondern ein größerer Ausfall zu sein: https://downdetector.com
Wenn am Ende des Tages wieder ein y steht, heißt das wohl wie immer: GitHub-Ausfall
Auch Codeberg.org hat gerade Probleme
https://status.codeberg.org/status/codeberg
https://social.anoxinon.de/@codebergstatus/11647770704799298...
Wenn du es nicht magst, dass GitHub ausfällt, und auch nicht, dass KI deinen Code stiehlt, dann probier doch sourcehut
Für mich passt es sehr gut, und ich würde mir wünschen, dass es als Plattform weiter wächst
Am Ende ist es doch auch nur wieder ein weiterer zentralisierter Dienst, oder?
Diesmal dauert es ungewöhnlich lange
Mir kommt der Witz in den Sinn, dass das Team, das es reparieren soll, wegen eines Claude-Session-Limits in der Cooldown-Phase festhängt und bis dahin nichts anfassen kann, während die einzige Person, die es noch ohne KI direkt beheben könnte, gerade wegen einer Operation abwesend ist
Ich frage mich auch, was passiert, wenn die Generation, die noch ohne KI direkt repariert hat, komplett in Rente ist
Jedes Mal, wenn GitHub ausfällt, wechseln wieder ein paar Leute mehr zu ethischen Alternativen, und die Struktur, in der die FOSS-Community bei Microsoft einen SPOF hat, wird dadurch Stück für Stück schwächer
https://sfconservancy.org/GiveUpGitHub/
Zusammenarbeit war einfach, und inzwischen wird es aus vielen Gründen wieder friktionsreicher
Issues werden auch immer häufiger als Spam missbraucht, und noch bösartigere Aktivitäten tauchen ebenfalls zunehmend auf