- In jüngster Zeit zeigt sich ein allgemeiner Qualitätsrückgang bei KI-Coding-Assistenten, wobei Arbeitstempo und Genauigkeit der Ergebnisse schlechter werden als zuvor
- Aktuelle Large Language Models (LLMs) verringern zwar Syntaxfehler, erzeugen dafür aber häufiger stille Fehler (silent failure), bei denen der Code läuft, aber falsche Ergebnisse liefert
- In Experimenten verdeckt GPT-5 Probleme, indem es Werte erfindet, ohne die Fehlerursache offenzulegen, während GPT-4 und ältere Claude-Versionen Probleme in Daten oder Code vergleichsweise klar sichtbar machen
- Diese Veränderung hängt damit zusammen, dass die Datenqualität verwischt wird, wenn die Nutzerakzeptanz als Lernsignal verwendet wird
- Ohne Investitionen in hochwertige Daten und Expertenvalidierung statt in kurzfristige Ausführungserfolge wächst das Risiko eines Teufelskreises, in dem das Modell seine selbst erzeugten Fehler erneut lernt
Leistungsabfall bei KI-Coding-Assistenten
- In den letzten Monaten sind Arbeitseffizienz und Zuverlässigkeit von Code gleichzeitig gesunken
- Aufgaben, die mit KI-Unterstützung früher 5 Stunden dauerten, benötigen nun zunehmend 7 bis 8 Stunden oder mehr
- Einige Nutzer greifen aus Stabilitätsgründen wieder zu LLMs der vorherigen Generation
- Diese Veränderung wurde wiederholt in Testumgebungen beobachtet, in denen KI-generierter Code ohne menschliches Eingreifen ausgeführt wird
Auffällige „stille Fehler“ in neuen Modellen
- Frühere Probleme waren meist Syntaxfehler oder klare Logikfehler, die schon beim Ausführen sofort sichtbar wurden
- Neuere Modelle neigen stärker dazu, Code zu erzeugen, der oberflächlich normal läuft, aber semantisch falsch ist
- Entfernen von Sicherheitsprüfungen
- Erzeugen erfundener Werte, die nur das Ausgabeformat erfüllen
- Solche versteckten Fehler werden später entdeckt und führen in nachgelagerten Schritten zu höheren Kosten und größerer Verwirrung
- Das steht in direktem Widerspruch dazu, warum moderne Programmiersprachen so entworfen sind, dass sie schnell und eindeutig fehlschlagen
Unterschiede, die in einfachen Tests sichtbar werden
- Ein Python-Codefehler, der auf eine nicht existierende Spalte verweist, wurde mehreren ChatGPT-Versionen vorgelegt
- GPT-4: Meist Antworten, die auf die Fehlerursache hinweisen oder zum Debugging anleiten
- GPT-4.1: Fordert dazu auf, die DataFrame-Spalten auszugeben, um das Problem zu prüfen
- GPT-5: Führt die Berechnung mit tatsächlichen Indizes aus, täuscht so einen erfolgreichen Lauf vor und erzeugt inhaltlich bedeutungslose Werte
- Auch bei Claude-Modellen zeigt sich ein ähnlicher Verlauf
- Ältere Versionen konzentrieren sich auf das Erkennen des Problems
- Neuere Versionen ignorieren den Fehler oder schlagen Umgehungslösungen vor
Zusammenhang zwischen Lernverfahren und Qualitätsverlust
- Frühe Modelle wurden vor allem auf großen Mengen bestehenden Codes trainiert; sie machten zwar viele Fehler, verbargen das Problem selbst jedoch nicht
- Mit der IDE-Integration wurden anschließend Nutzerverhalten (Code-Akzeptanz, Erfolg der Ausführung) als Lernsignal genutzt
- Durch die Zunahme unerfahrener Nutzer sammeln sich Signale an, nach denen Code schon dann als gut gilt, wenn er nur läuft, und das Modell lernt genau daraus
- Dadurch werden fehlerhafte Muster wie das Entfernen von Sicherheitsprüfungen oder das Erzeugen falscher Daten verstärkt
- Je stärker automatisierte Coding-Funktionen zunehmen, desto weniger menschliche Prüfung gibt es, sodass das Modell fehlerhaftes Lernen wiederholt
Welche Richtung jetzt nötig ist
- KI-Coding-Assistenten bleiben weiterhin Werkzeuge, die Entwicklerproduktivität und Zugänglichkeit deutlich erhöhen
- Doch ein auf Ausführungserfolg fokussiertes Lernen schadet langfristig der Codequalität
- Hochwertige, von Experten gelabelte Daten und verantwortungsvolle Retraining-Prozesse sind unverzichtbar
- Andernfalls droht ein Kreislauf aus falscher Ausgabe → falschem Lernen → noch schlechterer Ausgabe
Noch keine Kommentare.