- Ab dem 24. April 2026 werden Nutzerdaten von Copilot Free, Pro und Pro+ für das Training und die Verbesserung von KI-Modellen verwendet; Nutzer können dies per Opt-out-Einstellung ablehnen
- Business- und Enterprise-Nutzer sind von dieser Änderung nicht betroffen; wer zuvor widersprochen hat, bei dem bleibt die bisherige Auswahl bestehen
- Zu den Trainingsdaten gehören Informationen aus realen Entwicklungsinteraktionen wie eingegebener Code, Ausgaben, Kontext rund um den Cursor und Feedback-Bewertungen
- Unternehmens-Repositories, private Inhalte und Daten von Nutzern mit Opt-out werden nicht für das Training verwendet; Daten werden nur mit GitHub-Tochtergesellschaften wie Microsoft geteilt
- GitHub betont, dass Daten aus echten Entwicklerinteraktionen entscheidend für höhere Genauigkeit, mehr Sicherheit und bessere Bug-Erkennung seien, und hebt die freiwillige Teilnahme von Entwicklern hervor
Aktualisierung der Richtlinie zur Nutzung von GitHub-Copilot-Interaktionsdaten
- Ab dem 24. April 2026 werden Interaktionsdaten von Copilot-Free-, Pro- und Pro+-Nutzern (Eingaben, Ausgaben, Code-Snippets, zugehöriger Kontext) für das Training und die Verbesserung von KI-Modellen verwendet
- Wenn Nutzer jedoch ein Opt-out wählen, werden ihre Daten nicht für das Training verwendet
- Copilot Business- und Enterprise-Nutzer sind von dieser Änderung nicht betroffen
- Bei Nutzern, die der Datenerfassung bereits zuvor widersprochen haben, bleibt die bisherige Auswahl bestehen; ihre Daten werden nicht in das Training einbezogen, sofern sie nicht ausdrücklich zustimmen
- GitHub erklärt, dass diese Änderung branchenüblichen Praktiken entspricht und zur Verbesserung der Genauigkeit, Sicherheit und Bug-Erkennung der Modelle beiträgt
- Nutzer können ihre Teilnahme jederzeit im Bereich Privacy auf der Einstellungsseite ändern
Warum Training mit realen Daten notwendig ist
- Die ersten Copilot-Modelle wurden auf Basis von öffentlichen Daten und manuell erstellten Codebeispielen aufgebaut
- Später wurde auch mit Interaktionsdaten von Microsoft-Mitarbeitern trainiert; dabei wurden signifikante Verbesserungen wie eine höhere Akzeptanzrate (acceptance rate) in mehreren Programmiersprachen festgestellt
- Auf Grundlage dieser Ergebnisse will GitHub nun Interaktionsdaten echter Entwickler in das Training einbeziehen, um vielfältige reale Nutzungsszenarien abzubilden
Welche Daten erfasst und genutzt werden
- Für das Modelltraining können unter anderem folgende Daten verwendet werden
- Ausgaben, die Nutzer akzeptiert oder bearbeitet haben
- In Copilot eingegebene Code-Snippets und Anfragen
-
Code-Kontext rund um den Cursor
- Von Nutzern verfasste Kommentare und Dokumentationsinhalte
-
Dateinamen, Repository-Struktur und Navigationsmuster
- Interaktionen mit Copilot-Funktionen (Chat, Inline-Vorschläge usw.)
- Feedback zu Vorschlägen (Bewertungen mit „Gefällt mir“/„Gefällt mir nicht“)
Daten, die nicht in das Training einfließen
- Die folgenden Daten werden nicht für das Modelltraining verwendet
- Interaktionsdaten aus Copilot Business, Enterprise und unternehmenseigenen Repositories
- Daten von Nutzern mit Opt-out
- Inhalte aus Issues, Diskussionen und ruhenden privaten Repositories (private at rest)
- Während der Nutzung von Copilot kann Code aus privaten Repositories jedoch für den Betrieb des Dienstes verarbeitet werden und, sofern kein Opt-out vorliegt, ins Training einfließen
Umfang der Datenweitergabe und Sicherheit
- Die erfassten Daten können mit GitHub-Tochtergesellschaften (z. B. Microsoft) geteilt werden
- Sie werden jedoch nicht mit Drittanbietern von KI-Modellen oder externen Dienstleistern geteilt
- GitHub betont, dass der Fortschritt KI-gestützter Entwicklung von realen Entwicklerinteraktionsdaten abhängt, und nutzt bereits Daten von Microsoft- und GitHub-Mitarbeitern für das Modelltraining
Nutzerwahl und Auswirkungen
- Wenn Nutzer der Datenbereitstellung zustimmen, kann das Modell Verbesserungen bei dem Verständnis von Entwicklungs-Workflows, genaueren und sichereren Code-Vorschlägen sowie stärkerer frühzeitiger Bug-Erkennung erzielen
- Auch ohne Teilnahme bleiben die bestehenden KI-Funktionen von Copilot weiterhin nutzbar
- GitHub begrüßt die freiwillige Teilnahme zur Verbesserung der Qualität für die gesamte Entwickler-Community; weitere Informationen finden sich auf der FAQ- und Community-Diskussionsseite
1 Kommentare
Hacker-News-Kommentare
In den GitHub-Einstellungen gibt es den Punkt „Allow GitHub to use my data for AI model training“, den man ein- oder ausschalten kann
Aber es ist schon absurd, wie das als eine Art „Zugang zu Funktionen“ verpackt wird
Es hat etwas Ironisches, kostenlose Datenweitergabe als Vorteil darzustellen
Sie ist nicht so irreführend wie die Checkbox „public access prevention“ beim Anlegen eines GCS-Buckets
Ich nutze das im privaten Account absichtlich nicht, daher ist unklar, warum das überhaupt erfasst wurde
Tatsächlich gebe ich meine Daten weiter, aber es klingt so, als würde ich sonst etwas verlieren
Es wurde angekündigt, dass ab dem 24. April Interaktionsdaten von GitHub Copilot für AI-Training verwendet werden
Standardmäßig ist das aktiviert, man muss es also selbst ausschalten
Link zur Einstellungsseite
Ich frage mich, ob das auch bei Business-Accounts standardmäßig aktiviert ist. Falls ja, wäre das eine ziemlich fragwürdige Richtlinie
Dass im Blogpost kein Link zum Deaktivieren enthalten ist, ist unnötig unfreundlich
Zum Ausschalten muss man selbst zu diesem Pfad → Privacy → „Allow GitHub to use my data for AI model training“ → Disabled navigieren
werden Daten von Unternehmenskunden vertraglich nicht für Training genutzt, und nur Privatnutzer können das steuern
Es gibt interne Richtlinien, nach denen Kundencode nicht fürs Training verwendet werden darf
Bei Copilot gibt es keine Möglichkeit, sensible Dateien wie API-Keys oder Passwörter zu ignorieren
In dem Moment, in dem man die IDE öffnet, könnten solche Informationen an Microsoft gesendet werden
Link zur relevanten Diskussion
Es gibt aber gleich zwei Ausnahmeeinstellungen, und keine von beiden funktioniert
Selbst wenn man einen PR einreicht, reagiert nur ein Bot, aber kein Mensch schaut drauf
Außerdem verweigert Gemini 3 beim Refactoring von Open-Source-Code die Generierung, wenn es meint, dies widerspreche der Absicht des ursprünglichen Entwicklers
Ich finde, bei zahlenden Nutzern sollte der Standard opt-in sein und nicht opt-out
Ich verstehe nicht, wie GitHubs Mario Rodriguez (@mariorod) so eine Entscheidung treffen konnte
Seit GitHub und dem AI-Zeitalter habe ich meinen gesamten Code in private Git-Repos auf eigenen Servern verschoben
Es gibt keinen Grund mehr, über Open-Source-Lizenzen nachzudenken
Ich habe nicht vor, meinen Code für kommerzielles AI-Training herzugeben
Wer ernsthaft Open Source machen will, sollte jetzt zu Codeberg wechseln
Bestehende Open-Source-Projekte pflege ich nur noch, neue Projekte veröffentliche ich nur noch als SaaS oder Binärdateien
Stattdessen trage ich zu Sprach- und OS-Projekten bei und merke dabei, dass Nachtraining von Modellen durchaus nötig ist
In der EU frage ich mich, was die rechtliche Grundlage für so eine Richtlinie ist
Die gesammelten Daten könnten personenbezogene Informationen (PII) enthalten, und nach der DSGVO
ist eine „freiwillige und eindeutige Einwilligung“ erforderlich
Wenn ich testweise meine Telefonnummer in eine Codezeile schreibe und diese über Copilot übertragen wird, könnte ich rechtliche Schritte einleiten
Die Aussage „Dieser Ansatz entspricht dem Industriestandard“ bedeutet am Ende nur „Andere machen es auch, also ist es okay“
Am Ende wirkt es so, als wolle GitHub die gesamte Codebasis aller Nutzer aufbewahren
Es gibt eine Formulierung, nach der die von Copilot verwendeten Daten mit allen Microsoft-Konzerngesellschaften geteilt werden können
Ich sehe keine Option, das Copilot-Abonnement zu kündigen
Selbst unter den Einstellungen für mobile Abrechnung gibt es nichts dazu
Laut der offiziellen Dokumentation
kann man nicht kündigen, wenn man als Student, Lehrkraft oder Open-Source-Maintainer kostenlosen Zugang erhalten hat
Trotzdem hat GitHub nicht versucht, diese Änderung zu verstecken, sondern den Opt-out-Prozess öffentlich erklärt
Das wirkt wie ein typisches Dark Pattern
In der Android-App ist die Einstellungsseite schwer zu finden, und die Seite funktioniert nicht richtig