Mehrere Ausfälle bei GitHub-Diensten
(githubstatus.com)- Bei mehreren GitHub-Diensten, darunter Webhooks, Actions und Copilot, kam es gleichzeitig zu eingeschränkter Verfügbarkeit und Ausfällen
- Zunächst wurde die eingeschränkte Verfügbarkeit von Copilot und Webhooks untersucht, später wurde der Untersuchungsumfang auf mehrere Dienstausfälle ausgeweitet
- Actions war zusätzlich von einer separaten Leistungsverschlechterung betroffen; nachdem das zugrunde liegende Problem identifiziert war, wurden Gegenmaßnahmen eingeleitet
- Nachdem die Beeinträchtigungen bei Actions und Copilot gemildert waren, wurden die Stabilität weiter überwacht und Verifizierungsarbeiten für die verbleibenden Dienste fortgesetzt; auch Webhooks wurde wieder in den Normalbetrieb versetzt
- Der Vorfall wurde schließlich als vollständig behoben abgeschlossen; eine detaillierte Root Cause Analysis soll veröffentlicht werden, sobald sie bereit ist
Verlauf der Störung
- Es kam zu Ausfällen mehrerer GitHub-Dienste, betroffen waren unter anderem Webhooks, Actions und Copilot
- Zunächst wurde die eingeschränkte Verfügbarkeit von Copilot und Webhooks untersucht
- Anschließend zeigten mehrere Dienste Nichtverfügbarkeit, woraufhin der Untersuchungsumfang ausgeweitet wurde
- Actions litt zusätzlich unter einer Leistungsverschlechterung, während die Ursachenanalyse weiterlief
- Nachdem das zugrunde liegende Problem bestätigt worden war, wurden Gegenmaßnahmen umgesetzt
- Die Beeinträchtigungen von Actions und Copilot wurden gemildert, anschließend lief das Monitoring zur Sicherung der Stabilität weiter
- Nach den Gegenmaßnahmen für viele Dienste wurden auch Verifizierungsarbeiten für die verbleibenden Dienste fortgesetzt
- Webhooks wurde ebenfalls wieder in den Normalbetrieb versetzt
- Abschließend wurde der Vorfall als vollständig behoben geschlossen; eine detaillierte Root Cause Analysis soll veröffentlicht werden, sobald sie bereit ist
1 Kommentare
Hacker-News-Kommentare
Ich war gerade dabei, nach und nach verschiedene Dinge zu Hause per Self-Hosting umzuziehen, und habe gestern endlich meine Forgejo-Instanz daheim fertiggestellt.
Mit Linux und Windows als VMs und macOS auf einem Mac Mini, inklusive CI/CD-Runner, liegen jetzt Quellcode, Actions und die tatsächliche Infrastruktur wirklich komplett bei mir zu Hause.
Normalerweise dauert es nach einem Umzug auf Self-Hosting ein bis zwei Monate, bis sich Zufriedenheit einstellt, aber diesmal hatte ich schon am Tag nach der Migration das sichere Gefühl, dass diese Entscheidung richtig war, und das hat sich ziemlich gut angefühlt.
Wenn ich den ganzen Tag im Job kaputte Systeme repariere, möchte ich nicht auch noch nach Hause kommen und den persönlichen Sysadmin für mich selbst spielen.
Ein ordentliches, leistungsstarkes Minisforum, das ich zu Weihnachten gekauft habe, steht auch auf meinem Schreibtisch, aber ich habe es noch nicht einmal eingeschaltet.
Ich betreibe Forgejo zusammen mit mehreren anderen Diensten auf einem NUC und Proxmox, und Seiten laden in etwa 6 ms.
Immich ist nicht ganz so schnell, aber immer noch deutlich schneller als Google Photos.
Die UI ist im Großen und Ganzen ähnlich, aber es ist viel angenehmer als GitHub. Dass die Uptime über 90 % liegt, reicht als Begründung eigentlich schon aus.
In letzter Zeit erlebe ich GitHub-Probleme viel zu häufig, und selbst simples Herumbrowsen auf der Seite ist oft langsam oder bleibt gleich ganz hängen.
Linux und macOS habe ich mit einem Mac Mini und einer von Claude erzeugten Ansible-Task-Datei eingerichtet, aber die Konfiguration der Windows-VM sah ziemlich schmerzhaft aus.
Ich würde gern wissen, ob du einen Weg gefunden hast, den Bereitstellungsprozess zu vereinfachen.
Öffentliche Projekte sind aber wegen des Arbeitsmarkts und der Netzwerkeffekte von GitHub schwer umzuziehen.
Im Moment fühlt es sich an, als würde ich mit rund 20 lokalen Diensten Systemadministrator spielen, und das Wichtigste ist jetzt, dass die Verantwortung, Datenverlust zu verhindern, bei mir liegt, also brauche ich unbedingt regelmäßige Backups.
Wenn man https://mrshu.github.io/github-statuses/ ansieht, ist die Uptime auf 88,15 % gefallen.
Selbst bei den einzelnen Komponenten liegt der Höchstwert nur bei 99,78 %, also gerade mal auf dem Niveau von two nines.
2025 waren es noch 1 Milliarde Commits, jetzt sind es 275 Millionen Commits pro Woche, und selbst bei rein linearem Wachstum entspräche das dieses Jahr einem Tempo von 14 Milliarden Commits.
GitHub Actions ist ebenfalls von 500 Millionen Minuten pro Woche im Jahr 2023 auf 1 Milliarde Minuten pro Woche im Jahr 2025 gestiegen, und diese Woche liegt der Wert bislang bei 2,1 Milliarden Minuten.
Quelle ist ein Beitrag der GitHub-COO vom 2026-04-03: https://x.com/kdaigle/status/2040164759836778878
https://thenewstack.io/github-will-prioritize-migrating-to-azure-over-feature-development/
Ich frage mich, ob GitHub trotz dieser wiederholten Ausfälle tatsächlich nennenswerte Geschäftsverluste sieht.
In der Branche hieß es lange, dass Zuverlässigkeit und Markenwert entscheidend seien, aber inzwischen wirkt es, als würde das kaum noch jemanden kümmern.
Wenn meine Wahrnehmung falsch ist, lasse ich mich gern korrigieren.
Aber sobald LLMs ein bisschen besser wurden, hatte ich das Gefühl, dass diese ganze Diskussion einfach verschwunden ist.
Große Unternehmen sind durch interne Instanzen in gewissem Maß abgesichert, und der Rest ist entweder nicht so stark betroffen oder hat nicht die Ressourcen, eigene Lösungen zu bauen oder umzuziehen.
Es wäre gut, wenn es für Nutzer in größerem Maßstab wirklich brauchbare Alternativen gäbe.
Um auf Basis eines rollierenden 90-Tage-Zeitraums unter two nines zu fallen, bräuchte es wohl noch ungefähr 16 Stunden zusätzliche Ausfälle.
Man müsste wohl sagen, dass es keinen Grund zur Sorge gibt, denn die Statusseite behauptet weiterhin grün, 100 % betriebsbereit.
Und das, obwohl man nicht einmal auf eine statische Seite zugreifen kann.
Inzwischen müsste jedes Mal ein HN-Post auftauchen, wenn es bei GitHub mal keinen Problemtag gibt.
Oder das bedeutet einfach, dass der jetzige Zustand der Normalzustand ist.
Früher gab es bei Bitbucket einmal den Fall, dass über mehrere Repos hinweg ein kompletter Tag Git-History verloren ging.
Das war weniger ein Ausfall als vielmehr ein Datenproblem dort; dank lokaler Klone ließ sich das meiste retten, aber Issues und PRs aus diesem Zeitraum waren einfach weg.
Deshalb habe ich als Side Project angefangen, gitbacker zu bauen.
Das Repo selbst zu sichern ist einfach, aber der wirklich interessante Teil ist das Backup der Metadaten.
Heute gab es schon wieder einen sehr schwerwiegenden Vorfall: https://www.githubstatus.com/incidents/zsg1lk7w13cf
Wegen einer Regression bei der Nutzung von Merge Queue zusammen mit Squash Merge oder Rebase wurden laut GitHub zwischen 2026-04-23 16:05 und 20:43 UTC einige PRs falsch gemergt.
Bei uns wurden in diesem Zeitraum auf dem Default-Branch etwa 8 Commits komplett rückgängig gemacht.
So etwas Schwerwiegendes habe ich bei einem GitHub-Incident noch nie gesehen.
Ironischerweise hat ein Tool, das eigentlich Merge Conflicts verhindern soll, stattdessen direkt kaputte Commits in den Mainline-Branch geschrieben.
Das war extrem stressig.
Downtime ist schon schlimm genug, aber PRs zurückzudrehen, ist noch einmal eine Stufe schwerwiegender.
Das war wirklich ein komplettes Chaos.
Unsere Anforderungen sind mit Git-Repos + Actions relativ einfach, und die gelegentliche Downtime ist nicht völlig kritisch, weil wir kein Team sind, das ständig committet und deployt.
Trotzdem suchen wir inzwischen ernsthaft nach Alternativen.
Offenbar strömten gerade so viele Leute auf Alternativen, dass sogar SourceHut ausgefallen ist. Beim Schreiben dieses Beitrags war es down, jetzt ist es wieder erreichbar.
https://sr.ht/
Allein heute gab es drei Incidents, jeweils fast über eine Stunde, aber der Tagesstatus ist komplett grün und zeigt keine erfasste Downtime.
Sie unterscheiden sich auch nicht grundlegend von früheren Incidents mit roten Balken, außer dass sie offenbar nicht mehrere Stunden dauerten.
Deshalb verstehe ich nicht, was diese grünen Balken überhaupt bedeuten sollen.
Ich frage mich, ob sie erst später auf nicht grün umgestellt werden, wenn sich genug Leute beschweren, oder ob Vorfälle vom selben Tag nur kurz im Tooltip erscheinen und danach stillschweigend vergessen werden.
Wenn man bedenkt, dass bei den bisherigen grünen Tagen im Tooltip gar keine Incidents auftauchen, heute aber mehrere, wirkt es so oder so wie eine absichtlich irreführende Darstellung.