1 Punkte von GN⁺ 2026-03-28 | 1 Kommentare | Auf WhatsApp teilen
  • Ab dem 24. April 2026 werden Nutzerdaten von Copilot Free, Pro und Pro+ für das Training und die Verbesserung von KI-Modellen verwendet; Nutzer können dies per Opt-out-Einstellung ablehnen
  • Business- und Enterprise-Nutzer sind von dieser Änderung nicht betroffen; wer zuvor widersprochen hat, bei dem bleibt die bisherige Auswahl bestehen
  • Zu den Trainingsdaten gehören Informationen aus realen Entwicklungsinteraktionen wie eingegebener Code, Ausgaben, Kontext rund um den Cursor und Feedback-Bewertungen
  • Unternehmens-Repositories, private Inhalte und Daten von Nutzern mit Opt-out werden nicht für das Training verwendet; Daten werden nur mit GitHub-Tochtergesellschaften wie Microsoft geteilt
  • GitHub betont, dass Daten aus echten Entwicklerinteraktionen entscheidend für höhere Genauigkeit, mehr Sicherheit und bessere Bug-Erkennung seien, und hebt die freiwillige Teilnahme von Entwicklern hervor

Aktualisierung der Richtlinie zur Nutzung von GitHub-Copilot-Interaktionsdaten

  • Ab dem 24. April 2026 werden Interaktionsdaten von Copilot-Free-, Pro- und Pro+-Nutzern (Eingaben, Ausgaben, Code-Snippets, zugehöriger Kontext) für das Training und die Verbesserung von KI-Modellen verwendet
    • Wenn Nutzer jedoch ein Opt-out wählen, werden ihre Daten nicht für das Training verwendet
    • Copilot Business- und Enterprise-Nutzer sind von dieser Änderung nicht betroffen
  • Bei Nutzern, die der Datenerfassung bereits zuvor widersprochen haben, bleibt die bisherige Auswahl bestehen; ihre Daten werden nicht in das Training einbezogen, sofern sie nicht ausdrücklich zustimmen
  • GitHub erklärt, dass diese Änderung branchenüblichen Praktiken entspricht und zur Verbesserung der Genauigkeit, Sicherheit und Bug-Erkennung der Modelle beiträgt
  • Nutzer können ihre Teilnahme jederzeit im Bereich Privacy auf der Einstellungsseite ändern

Warum Training mit realen Daten notwendig ist

  • Die ersten Copilot-Modelle wurden auf Basis von öffentlichen Daten und manuell erstellten Codebeispielen aufgebaut
  • Später wurde auch mit Interaktionsdaten von Microsoft-Mitarbeitern trainiert; dabei wurden signifikante Verbesserungen wie eine höhere Akzeptanzrate (acceptance rate) in mehreren Programmiersprachen festgestellt
  • Auf Grundlage dieser Ergebnisse will GitHub nun Interaktionsdaten echter Entwickler in das Training einbeziehen, um vielfältige reale Nutzungsszenarien abzubilden

Welche Daten erfasst und genutzt werden

  • Für das Modelltraining können unter anderem folgende Daten verwendet werden
    • Ausgaben, die Nutzer akzeptiert oder bearbeitet haben
    • In Copilot eingegebene Code-Snippets und Anfragen
    • Code-Kontext rund um den Cursor

      • Von Nutzern verfasste Kommentare und Dokumentationsinhalte
    • Dateinamen, Repository-Struktur und Navigationsmuster

      • Interaktionen mit Copilot-Funktionen (Chat, Inline-Vorschläge usw.)
      • Feedback zu Vorschlägen (Bewertungen mit „Gefällt mir“/„Gefällt mir nicht“)

Daten, die nicht in das Training einfließen

  • Die folgenden Daten werden nicht für das Modelltraining verwendet
    • Interaktionsdaten aus Copilot Business, Enterprise und unternehmenseigenen Repositories
    • Daten von Nutzern mit Opt-out
    • Inhalte aus Issues, Diskussionen und ruhenden privaten Repositories (private at rest)
      • Während der Nutzung von Copilot kann Code aus privaten Repositories jedoch für den Betrieb des Dienstes verarbeitet werden und, sofern kein Opt-out vorliegt, ins Training einfließen

Umfang der Datenweitergabe und Sicherheit

  • Die erfassten Daten können mit GitHub-Tochtergesellschaften (z. B. Microsoft) geteilt werden
  • Sie werden jedoch nicht mit Drittanbietern von KI-Modellen oder externen Dienstleistern geteilt
  • GitHub betont, dass der Fortschritt KI-gestützter Entwicklung von realen Entwicklerinteraktionsdaten abhängt, und nutzt bereits Daten von Microsoft- und GitHub-Mitarbeitern für das Modelltraining

Nutzerwahl und Auswirkungen

  • Wenn Nutzer der Datenbereitstellung zustimmen, kann das Modell Verbesserungen bei dem Verständnis von Entwicklungs-Workflows, genaueren und sichereren Code-Vorschlägen sowie stärkerer frühzeitiger Bug-Erkennung erzielen
  • Auch ohne Teilnahme bleiben die bestehenden KI-Funktionen von Copilot weiterhin nutzbar
  • GitHub begrüßt die freiwillige Teilnahme zur Verbesserung der Qualität für die gesamte Entwickler-Community; weitere Informationen finden sich auf der FAQ- und Community-Diskussionsseite

1 Kommentare

 
GN⁺ 2026-03-28
Hacker-News-Kommentare
  • In den GitHub-Einstellungen gibt es den Punkt „Allow GitHub to use my data for AI model training“, den man ein- oder ausschalten kann
    Aber es ist schon absurd, wie das als eine Art „Zugang zu Funktionen“ verpackt wird
    Es hat etwas Ironisches, kostenlose Datenweitergabe als Vorteil darzustellen

    • Die Formulierung selbst ist immerhin nicht verwirrend
      Sie ist nicht so irreführend wie die Checkbox „public access prevention“ beim Anlegen eines GCS-Buckets
    • Obwohl ich alle Copilot-bezogenen Funktionen deaktiviert habe, wird meine Copilot-Chat-Nutzung mit 2 % angezeigt, was mich irritiert
      Ich nutze das im privaten Account absichtlich nicht, daher ist unklar, warum das überhaupt erfasst wurde
    • Die Formulierung „Funktionszugang“ wirkt sehr manipulativ
      Tatsächlich gebe ich meine Daten weiter, aber es klingt so, als würde ich sonst etwas verlieren
    • Vielleicht ist der „Vorteil“ ja, dass das Modell mit meinen Daten nachtrainiert wird und mir später ein wenig hilft
    • Letztlich besteht diese „Funktion“ nur darin, dass mein Coding-Stil im nächsten Modell landet
  • Es wurde angekündigt, dass ab dem 24. April Interaktionsdaten von GitHub Copilot für AI-Training verwendet werden
    Standardmäßig ist das aktiviert, man muss es also selbst ausschalten
    Link zur Einstellungsseite
    Ich frage mich, ob das auch bei Business-Accounts standardmäßig aktiviert ist. Falls ja, wäre das eine ziemlich fragwürdige Richtlinie

    • Ich kann kaum glauben, dass die Voreinstellung eingeschaltet ist
      Dass im Blogpost kein Link zum Deaktivieren enthalten ist, ist unnötig unfreundlich
      Zum Ausschalten muss man selbst zu diesem Pfad → Privacy → „Allow GitHub to use my data for AI model training“ → Disabled navigieren
    • Laut offizieller Community-Antwort
      werden Daten von Unternehmenskunden vertraglich nicht für Training genutzt, und nur Privatnutzer können das steuern
    • Wenn selbst bei Business-Nutzern standardmäßig opt-in aktiv wäre, wäre das ein Verstoß gegen Sicherheits- und Datenschutzrichtlinien
      Es gibt interne Richtlinien, nach denen Kundencode nicht fürs Training verwendet werden darf
    • Es wurde bestätigt, dass Daten von Copilot-Business- oder Enterprise-Kunden nicht fürs Training verwendet werden
    • Im Blog steht auch ausdrücklich, dass „Business- und Enterprise-Nutzer von dieser Änderung nicht betroffen sind“
  • Bei Copilot gibt es keine Möglichkeit, sensible Dateien wie API-Keys oder Passwörter zu ignorieren
    In dem Moment, in dem man die IDE öffnet, könnten solche Informationen an Microsoft gesendet werden
    Link zur relevanten Diskussion

    • Gemini CLI blockiert Umgebungsvariablen, die Zeichenfolgen wie „AUTH“ enthalten
      Es gibt aber gleich zwei Ausnahmeeinstellungen, und keine von beiden funktioniert
      Selbst wenn man einen PR einreicht, reagiert nur ein Bot, aber kein Mensch schaut drauf
      Außerdem verweigert Gemini 3 beim Refactoring von Open-Source-Code die Generierung, wenn es meint, dies widerspreche der Absicht des ursprünglichen Entwicklers
    • Eigentlich ist es schon das Problem, sensible Dateien überhaupt im Repository abzulegen
    • Solche Probleme treten nicht nur bei Copilot auf, sondern wiederholen sich auch im OpenAI-Codex-Issue
    • Ich meine mich zu erinnern, dass man auf Enterprise- oder Organisationsebene einen ignore path setzen konnte
  • Ich finde, bei zahlenden Nutzern sollte der Standard opt-in sein und nicht opt-out
    Ich verstehe nicht, wie GitHubs Mario Rodriguez (@mariorod) so eine Entscheidung treffen konnte

    • In seinem README sieht man, dass „narrative shaping und Veränderungen bei ‚How we Work‘“ zu seinen Hauptinteressen gehören, daher wirkt dieser Ansatz wie eine Fortsetzung davon
  • Seit GitHub und dem AI-Zeitalter habe ich meinen gesamten Code in private Git-Repos auf eigenen Servern verschoben
    Es gibt keinen Grund mehr, über Open-Source-Lizenzen nachzudenken
    Ich habe nicht vor, meinen Code für kommerzielles AI-Training herzugeben
    Wer ernsthaft Open Source machen will, sollte jetzt zu Codeberg wechseln

    • Ich habe dieselbe Entscheidung getroffen
      Bestehende Open-Source-Projekte pflege ich nur noch, neue Projekte veröffentliche ich nur noch als SaaS oder Binärdateien
      Stattdessen trage ich zu Sprach- und OS-Projekten bei und merke dabei, dass Nachtraining von Modellen durchaus nötig ist
    • Vermutlich gibt es in GitHubs TOS eine Lizenzausnahmeklausel für den Betrieb des Dienstes
    • Ich hoste jetzt Forgejo selbst, lasse Runner auf eigener Hardware laufen und bin damit zufrieden
  • In der EU frage ich mich, was die rechtliche Grundlage für so eine Richtlinie ist
    Die gesammelten Daten könnten personenbezogene Informationen (PII) enthalten, und nach der DSGVO
    ist eine „freiwillige und eindeutige Einwilligung“ erforderlich

    • Die DSGVO verbietet opt-out als Standard
      Wenn ich testweise meine Telefonnummer in eine Codezeile schreibe und diese über Copilot übertragen wird, könnte ich rechtliche Schritte einleiten
    • In meinen GitHub-Einstellungen gibt es diese Option überhaupt nicht, daher frage ich mich, ob das vielleicht nur für US-Nutzer gilt
  • Die Aussage „Dieser Ansatz entspricht dem Industriestandard“ bedeutet am Ende nur „Andere machen es auch, also ist es okay“

    • Anthropic verwendet jedoch opt-in, und wenn man es aktiviert, gibt es sogar Rabatte
  • Am Ende wirkt es so, als wolle GitHub die gesamte Codebasis aller Nutzer aufbewahren
    Es gibt eine Formulierung, nach der die von Copilot verwendeten Daten mit allen Microsoft-Konzerngesellschaften geteilt werden können

  • Ich sehe keine Option, das Copilot-Abonnement zu kündigen
    Selbst unter den Einstellungen für mobile Abrechnung gibt es nichts dazu
    Laut der offiziellen Dokumentation
    kann man nicht kündigen, wenn man als Student, Lehrkraft oder Open-Source-Maintainer kostenlosen Zugang erhalten hat

  • Trotzdem hat GitHub nicht versucht, diese Änderung zu verstecken, sondern den Opt-out-Prozess öffentlich erklärt

    • Aber es gibt weder einen direkten Link in der E-Mail noch wird der Name der Einstellung genannt
      Das wirkt wie ein typisches Dark Pattern
    • In der Praxis ist opt-out nicht so einfach
      In der Android-App ist die Einstellungsseite schwer zu finden, und die Seite funktioniert nicht richtig