- GitHub plant, Code und Daten aus privaten Repositories für das Training von KI-Modellen zu verwenden
- Nutzer müssen vor dem 24. April ausdrücklich widersprechen (Opt-out), um die Nutzung ihrer Daten zu verhindern
- Ohne Widerspruch können Informationen aus privaten Projekten in die Trainingsdaten einfließen
- Die Richtlinie steht im Zusammenhang mit der Datenerhebung zur Verbesserung von KI-Funktionen wie GitHub Copilot
- Entwickler sollten zum Schutz von Privatsphäre und Code-Sicherheit ihre Einstellungen überprüfen
Änderung von GitHubs Richtlinie für KI-Trainingsdaten
- GitHub hat seine Richtlinie so geändert, dass Daten aus privaten Repositories zur Verbesserung von KI-Modellen in das Training einbezogen werden können
- Wenn Nutzer nicht gesondert widersprechen, werden ihre Daten automatisch verwendet
- Der Widerspruch kann direkt auf der Einstellungsseite von GitHub vorgenommen werden
- Zu den Trainingsdaten können privater Code, Projekt-Metadaten und Commit-Verläufe gehören
- Diese Maßnahme wird als Beitrag zur Verbesserung der Qualität von Copilot und anderen KI-Funktionen erklärt
Auswirkungen auf Entwickler
- Wenn private Repositories für das Training genutzt werden, besteht das Risiko der Offenlegung sensiblen Codes oder interner Logik
- Unternehmen und einzelne Entwickler sollten Sicherheitsrichtlinien prüfen und das Opt-out-Verfahren durchführen
- Diese Änderung bei GitHub dürfte die Diskussion über Transparenz von KI-Trainingsdaten und die Kontrollrechte der Nutzer weiter anheizen
3 Kommentare
Das wird mir seit ein paar Tagen ständig auf GitHub angezeigt,
Wichtiges Update
Am 24. April werden wir beginnen, Interaktionsdaten von GitHub Copilot für das Training von KI-Modellen zu verwenden, sofern Sie dem nicht widersprechen. Prüfen Sie dieses Update und verwalten Sie Ihre Einstellungen in den Kontoeinstellungen von GitHub.
Ich habe widersprochen, aber ich habe den Eindruck, dass sie es schon seit früher für KI genutzt haben, oder?
Das ist doch eine viel zu dreiste Falschmeldung.
Hacker-News-Kommentare
Das wird seit 2023 immer wieder gesagt. Wenn Informationen in einer Datenbank in einer Form gespeichert sind, auf die ein Unternehmen frei zugreifen kann, wird dieses Unternehmen am Ende die Nutzungsbedingungen so ändern, dass sie als Trainingsdaten für KI verwendet werden können. Die Anreize sind so stark, dass es wohl unvermeidlich ist
Jemand widerspricht mit Verweis auf den offiziellen GitHub-Blog. Nutzer von Free, Pro und Pro+ Copilot werden für das Modelltraining herangezogen, wenn sie sich nicht abmelden (opt-out). Business- oder Pro-Abonnenten sind nicht im Training enthalten. Wer Copilot nicht nutzt, ist nicht betroffen. Wenn man sich jetzt vorab abmeldet, bleibt die Einstellung später erhalten
Der Titel dieser Meldung ist irreführend. GitHub trainiert nicht das private Repo selbst, sondern die Interaktionsdaten, die bei der Nutzung von Copilot entstehen. Wer Copilot nicht nutzt, ist nicht betroffen. Trotzdem sollte man es besser deaktivieren
Genau genommen ist das Opt-out eine Einstellung für das Copilot-Training. Bisher waren nur öffentliche Repos per Opt-in dabei, aber ab dem 24. April sind auch private Repos standardmäßig eingeschlossen. Wenn du Copilot in privaten Repos nutzt, solltest du dich unter github.com/settings/copilot abmelden. Das dauert 30 Sekunden
Ich frage mich, ob Copilot auf das gesamte Repo zugreifen kann, wenn auch nur eine Person im Team kein Opt-out gesetzt hat. Ich würde auch gern wissen, ob es eine Möglichkeit gibt, den Einstellungsstatus der Teammitglieder zu prüfen
Derzeit ist diese Einstellung nur pro Benutzer möglich. Ich frage mich, ob es eine Möglichkeit gibt, sie für die gesamte Organisation gesammelt zu deaktivieren. Ich mache mir Sorgen, ob schon der aktivierte Schalter einer einzelnen Person dazu führt, dass der Code der Organisation als Trainingsdaten gilt
Ich erkenne an, dass GitHub beständig Banner-Hinweise eingeblendet hat. Aber auch ich habe sie vor diesem HN-Beitrag nicht gelesen
Mein privates Repo ist so chaotischer Code, dass ich mir keine Sorgen machen muss. Wenn ein LLM auf meinem Code trainiert, ist das eher ein Nachteil für das Modell
Mit Leuten, die GitHub seit Langem bezahlen und die Ankündigung nicht gesehen haben, habe ich Mitleid