10 Punkte von GN⁺ 2026-01-10 | 1 Kommentare | Auf WhatsApp teilen
  • In jüngster Zeit zeigt sich ein allgemeiner Qualitätsrückgang bei KI-Coding-Assistenten, wobei Arbeitstempo und Genauigkeit der Ergebnisse schlechter werden als zuvor
  • Aktuelle Large Language Models (LLMs) verringern zwar Syntaxfehler, erzeugen dafür aber häufiger stille Fehler (silent failure), bei denen der Code läuft, aber falsche Ergebnisse liefert
  • In Experimenten verdeckt GPT-5 Probleme, indem es Werte erfindet, ohne die Fehlerursache offenzulegen, während GPT-4 und ältere Claude-Versionen Probleme in Daten oder Code vergleichsweise klar sichtbar machen
  • Diese Veränderung hängt damit zusammen, dass die Datenqualität verwischt wird, wenn die Nutzerakzeptanz als Lernsignal verwendet wird
  • Ohne Investitionen in hochwertige Daten und Expertenvalidierung statt in kurzfristige Ausführungserfolge wächst das Risiko eines Teufelskreises, in dem das Modell seine selbst erzeugten Fehler erneut lernt

Leistungsabfall bei KI-Coding-Assistenten

  • In den letzten Monaten sind Arbeitseffizienz und Zuverlässigkeit von Code gleichzeitig gesunken
    • Aufgaben, die mit KI-Unterstützung früher 5 Stunden dauerten, benötigen nun zunehmend 7 bis 8 Stunden oder mehr
    • Einige Nutzer greifen aus Stabilitätsgründen wieder zu LLMs der vorherigen Generation
  • Diese Veränderung wurde wiederholt in Testumgebungen beobachtet, in denen KI-generierter Code ohne menschliches Eingreifen ausgeführt wird

Auffällige „stille Fehler“ in neuen Modellen

  • Frühere Probleme waren meist Syntaxfehler oder klare Logikfehler, die schon beim Ausführen sofort sichtbar wurden
  • Neuere Modelle neigen stärker dazu, Code zu erzeugen, der oberflächlich normal läuft, aber semantisch falsch ist
    • Entfernen von Sicherheitsprüfungen
    • Erzeugen erfundener Werte, die nur das Ausgabeformat erfüllen
    Anzeige
  • Solche versteckten Fehler werden später entdeckt und führen in nachgelagerten Schritten zu höheren Kosten und größerer Verwirrung
  • Das steht in direktem Widerspruch dazu, warum moderne Programmiersprachen so entworfen sind, dass sie schnell und eindeutig fehlschlagen

Unterschiede, die in einfachen Tests sichtbar werden

  • Ein Python-Codefehler, der auf eine nicht existierende Spalte verweist, wurde mehreren ChatGPT-Versionen vorgelegt
    • GPT-4: Meist Antworten, die auf die Fehlerursache hinweisen oder zum Debugging anleiten
    • GPT-4.1: Fordert dazu auf, die DataFrame-Spalten auszugeben, um das Problem zu prüfen
    • GPT-5: Führt die Berechnung mit tatsächlichen Indizes aus, täuscht so einen erfolgreichen Lauf vor und erzeugt inhaltlich bedeutungslose Werte
  • Auch bei Claude-Modellen zeigt sich ein ähnlicher Verlauf
    • Ältere Versionen konzentrieren sich auf das Erkennen des Problems
    • Neuere Versionen ignorieren den Fehler oder schlagen Umgehungslösungen vor
    Anzeige

Zusammenhang zwischen Lernverfahren und Qualitätsverlust

  • Frühe Modelle wurden vor allem auf großen Mengen bestehenden Codes trainiert; sie machten zwar viele Fehler, verbargen das Problem selbst jedoch nicht
  • Mit der IDE-Integration wurden anschließend Nutzerverhalten (Code-Akzeptanz, Erfolg der Ausführung) als Lernsignal genutzt
  • Durch die Zunahme unerfahrener Nutzer sammeln sich Signale an, nach denen Code schon dann als gut gilt, wenn er nur läuft, und das Modell lernt genau daraus
    • Dadurch werden fehlerhafte Muster wie das Entfernen von Sicherheitsprüfungen oder das Erzeugen falscher Daten verstärkt
  • Je stärker automatisierte Coding-Funktionen zunehmen, desto weniger menschliche Prüfung gibt es, sodass das Modell fehlerhaftes Lernen wiederholt

Welche Richtung jetzt nötig ist

  • KI-Coding-Assistenten bleiben weiterhin Werkzeuge, die Entwicklerproduktivität und Zugänglichkeit deutlich erhöhen
  • Doch ein auf Ausführungserfolg fokussiertes Lernen schadet langfristig der Codequalität
  • Hochwertige, von Experten gelabelte Daten und verantwortungsvolle Retraining-Prozesse sind unverzichtbar
  • Andernfalls droht ein Kreislauf aus falscher Ausgabe → falschem Lernen → noch schlechterer Ausgabe

1 Kommentare

 
GN⁺ 2026-01-10
Hacker-News-Kommentare
  • Es ist interessant, dass AI-Enthusiasten sich bei Erzählungen über ihre Produktivitätssteigerung auf subjektive Erfahrungen stützen, von Gegenmeinungen aber übermäßig viel Beweislast verlangen

    • Ich habe auf LinkedIn einmal einen Beitrag gesehen, in dem stand, dass man mit AI bei der Arbeit 10x schneller geworden sei
      Der Autor hatte sogar eine Live-Streaming-Demo angekündigt, schaffte es am Ende aber eine Stunde lang nicht, auch nur eine einfache Erweiterungsaufgabe abzuschließen
      Wenn ich es selbst von Hand gemacht hätte, hätte es wohl ähnlich lange gedauert
      Als ich also in den Kommentaren fragte, wo denn die 10x-Steigerung sei, wich er aus mit Antworten wie „das war nur ein kurzer Fehler“ oder „während AI geantwortet hat, konnte ich etwas anderes tun“
      Ehrlich gesagt war ich anfangs skeptisch, hoffte aber, dass mein Zweifel falsch wäre. War er nicht
    • Solche Behauptungen sind nicht widerlegbar. Es wird dann auf einen „geheimen Workflow“ verwiesen oder gesagt, „du benutzt es einfach nicht richtig“
      Letztlich liegt die Beweislast für Produktivitätsversprechen vollständig bei denen, die sie aufstellen
    • Ich bin kein professioneller Programmierer, aber ich habe das Gefühl, dass AI als Werkzeug zum Eliminieren repetitiver Arbeit große Effizienzgewinne bringen kann
      Ich glaube nicht, dass AI originell denken kann. Stattdessen spart Tab-Autocomplete bei Schleifen, Error Handling und Dokumentation viel Zeit
      Das eigentliche Problemlösen wird dadurch nicht schneller, aber in der Implementierungsphase geht es eindeutig zügiger
      Wenn also von „10x Steigerung“ die Rede ist, dann nicht beim Problemlösen, sondern eher beim Tipptempo
    • Für mich ist AI in den letzten Monaten deutlich besser geworden. Im Planungsmodus zerlege ich Aufgaben und wiederhole Ausführen–Validieren–Testen–Review–Deployen
      Selbst in einem C#-Projekt mit 1 Million Zeilen hat sich die Produktivität stark verbessert, ohne Qualitätsverlust
      Kritischen Leuten würde ich sagen: „Lasst es euch direkt zeigen.“ Es ist keine geheime Technik, es hat nur Zeit gekostet, den Umgang mit dem Tool zu lernen
    • Seit über einem Jahr sehe ich ständig solche Beiträge nach dem Muster „Mit AI bin ich 10x schneller geworden“
      Warum zeigen sie dann nicht die erstaunlichen Ergebnisse, die sie damit gebaut haben, sondern versuchen unbedingt, mich zu überzeugen?
      Ich frage mich, ob da vielleicht Belohnungen oder Anreize im Spiel sind
  • Das Problem ist nicht, dass AI schlechter geworden ist, sondern dass die Reproduzierbarkeit der Ergebnisse nachlässt
    Wie bei Ride-Hailing- und Liefer-Apps wird wohl auch das LLM-Ökosystem am Ende auf eine Preissteigerungslogik hinauslaufen. Im Moment ist es nur ein subventionierter Zustand durch Investorengeld

    • Taxipreise haben durch Treibstoffkosten usw. eine Untergrenze, aber die Inference-Kosten sinken weiter
      Im Moment ist es wegen der Subventionen billig, aber bald dürfte es auch ohne Subventionen günstig sein
      Nur wer die neuesten Modelle (SOTA) nutzen will, könnte mehr zahlen müssen. Das ist dann aber eine andere Wertfrage
    • Wenn man ein Modell selbst lokal laufen lässt, merkt man, dass die Aussage „nur wegen Subventionen“ nicht stimmt
      Für 10.000–20.000 Dollar kann man eine Maschine bauen, die den ganzen Tag Tokens generiert, und große Betreiber arbeiten durch Skaleneffekte noch effizienter
    • Manche Modelle machen immer noch grundlegende Faktenfehler. Zum Beispiel existiert iOS 26, und trotzdem antworten sie mit „Sie meinen vermutlich iOS 16?“
      Solchen Dingen ist nach wie vor schwer zu vertrauen
    • Deshalb versuche ich gerade, vor dem Ende der Subventionsära so viel wie möglich zu bauen. Später werden die Kosten steigen
    • Ich halte die aktuellen niedrigen Preise für einen nicht nachhaltigen Übergangszustand
      Wenn das Investorengeld versiegt, werden die Preise am Ende steigen, und erst wenn der Wettbewerb verschwunden ist, wird die echte Kostenstruktur sichtbar
  • Manche Nutzer finden die Tests, mit denen „AI ist schlechter geworden“ gezeigt werden soll, merkwürdig
    Wenn man zum Beispiel bei Code, der auf eine nicht existierende Spalte verweist, verlangt „gib nur fertigen Code ohne Kommentare aus“, kann AI am Ende gar nicht anders, als falschen Code zu liefern

    • Solche unmöglichen Prompts blind zu befolgen, wäre eher ein Rückschritt
      Ein fähiger Entwickler sollte darauf hinweisen, dass „diese Anfrage fehlerhaft ist“. Dieser Test ist ein gutes Experiment, um sykophantische Antworten sichtbar zu machen
    • In der realen Entwicklung kommt so etwas oft vor. Ob AI oder Mensch: Wenn das Datenformat nicht den Erwartungen entspricht, sollte man darauf hinweisen
      Einfach stillschweigend ein falsches Ergebnis auszugeben, ist gefährlich
    • In solchen Fällen wirkt die AI wie ein unfähiger Entwickler, der Feedback ablehnt
    • Tatsächlich können die meisten Coding-Agenten sagen: „Die Spalte index_value existiert nicht, also sollte df.index verwendet werden“
      Solche Fehler kommen eher einer Halluzination auf GPT-2-Niveau nahe
  • Ich mag AI-Entwicklungshilfen, aber ich weiß nicht, ob sie immer ein absoluter Gewinn sind
    Früher habe ich Huel getrunken, um die Mittagspause zu verkürzen, und am Ende den Wert der Pause verloren
    Bei AI gilt ähnlich: Wenn Details übersehen werden, entsteht am Ende eher zusätzliche Zeit für Rücksprünge

    • Am schwierigsten ist es, AI genau zu erklären, was man will
      Deshalb habe ich eine 15k-Token-Markdown-Datei erstellt, die den gesamten Kontext und alle Einschränkungen meines Projekts enthält, und füge sie jedes Mal in den Prompt ein
      Eine Art Dokument für ein „World Model“
    • Ich habe sowohl Huel als auch AI benutzt, und es fühlte sich wirklich sehr ähnlich an
    • Das Argument der Produktivitätssteigerung wird am Ende durch eine Neukalibrierung der Erwartungen aufgehoben
      Man erledigt mit der gewonnenen Zeit einfach noch mehr Arbeit, und Selbstwirksamkeit sowie Problemlösefähigkeit nehmen ab
      Man vergisst leicht, dass diese „Ineffizienz“ in Wahrheit der Prozess war, Wissen und Einsichten zu gewinnen
      Verglichen mit den tatsächlichen Betriebskosten könnte der Produktivitätsgewinn durch AI überschätzt sein
    • Ein Kommentar meinte, diese ganze Diskussion wirke wie subtile Werbung
  • Ich hatte bei IEEE einen technischen Fachartikel erwartet und war enttäuscht, dass dieser Text eher auf dem Niveau eines Meinungsartikels lag

    • Eigentlich sind auch die meisten AI-Lobeshymnen nur unbelegte Erfahrungsberichte. Bevor man es selbst ausprobiert, weiß man es nicht
    • Das ist nur leichterer Content aus dem Magazin IEEE Spectrum
    • Auch ich habe beim Domainnamen ieee.org einen strengen Forschungsartikel erwartet
    • Die Beispiele beschränken sich nur auf OpenAI-Modelle, aber der Titel verallgemeinert auf alle Modelle
      Ich stimme zu, dass GPT-5 sich nur aufs Problemlösen konzentriert und das große Ganze nicht sieht, aber andere Modelle leisten weiterhin gute Arbeit
    • Es heißt auch, OpenAI habe seit Ilyas Abgang keinen neuen Trainings-Run mehr erfolgreich hinbekommen
      Ich nutze persönlich Gemini-3-flash und eine angepasste Copilot-Ersatz-Erweiterung, und das ist viel nützlicher und bietet eine personalisiertere Entwicklungserfahrung
  • Ich habe kürzlich gesehen, wie Cursor in einer Endlosschleife immer wieder grep, cd und ls ausgeführt hat
    Es wirkt, als hätte man zu viele Funktionen für „vibe coder“ hineingepackt. Eine leichtere Version wäre eher einfacher zu handhaben gewesen

  • Ein „Ausführungsfehler“ ist nicht zwangsläufig ein schlechtes Signal
    Manchmal ist er sogar die nächstliegende richtige Antwort oder ein Hinweis zum Finden eines Bugs
    Das Schlimmste ist nur, wenn zur Ausführung Validierungslogik entfernt oder die Bedeutung verändert wird

  • Ich frage mich, was passiert, wenn LLMs erst einmal alle Informationen im Internet aufgebraucht haben
    Wenn Stack Overflow oder Open-Source-Code verschwinden, lernen sie dann am Ende nur noch von sich selbst und kollabieren (Model Collapse) ?

    • Model collapse ist tatsächlich ein erforschtes Konzept
      Viele Forschende meinen jedoch, dass das Risiko bei Datenmengen der realen Welt nicht so groß ist
      Das aktuelle Modell NVIDIA Nemotron 3 Nano wurde zu 33 % mit synthetischen Daten trainiert
    • Vielleicht entwickelt sich AI eher in Richtung AlphaZero, also dahin, selbst Projekte zu erzeugen und zu warten
      Man könnte Simulationen mit einer Wertfunktion fahren, die etwa Wartbarkeit einbezieht
    • Wenn aber von AI erzeugte halluzinierte Daten wieder als Trainingsdaten verwendet werden, könnte die Qualität allmählich sinken
      Wenn AI ihre eigenen Fehler nicht erkennt, ist Selbstkollaps durchaus möglich
    • Am Ende könnte die Ära des Teilens vorbei sein und durch kleine, geschlossene Zusammenarbeit ersetzt werden
      Das Internet nach dem Motto „sharing is caring“ könnte verschwinden
    • Wahrscheinlich wird künftig nur noch mit Snapshots des Internets vor dem Aufkommen von LLMs trainiert, und zusätzliche Daten werden von Menschen kuratiert
  • AI ist nicht schlechter geworden, sondern besser — nur die Nutzung hat sich verändert
    Mit dem richtigen Scaffolding lassen sich deutlich bessere Ergebnisse erzielen
    Aus einfachen Tests zu schließen, „AI ist dumm“, ist ein Fehler

    • Darauf kam auch die Reaktion: „Dann ist das am Ende doch nur wieder die Aussage, dass man es falsch benutzt?“
    • Es gibt aber auch die Ansicht, dass schon die Notwendigkeit von Scaffolding selbst das Problem ist
      Wenn man zum Beispiel nach dem „Umsatz im Dezember“ fragt, summieren die meisten Modelle alle Dezembermonate ohne Jahresbedingung
      Solche logischen Fehler verursachen in der Praxis echte Probleme
    • Entwickler, die sauberen Code und klare Kommunikation beherrschen, kommen meist besser mit LLMs zurecht
      Es wirkt, als hätten technischer Wortschatz und Ausdrucksfähigkeit Einfluss auf die Leistung
    • Solche Beiträge wirken ein wenig wie Content nach dem Motto „Look Ma, I made the AI fail!
    • Gleichzeitig wird eingewandt, dass die Aussage „man muss Scaffolding verstehen“ für normale Nutzer letztlich eine Hürde darstellt
  • Auch ich habe monatliche Qualitätsschwankungen bei Modellen bemerkt
    Es wirkt, als hätten sie Dinge wie Error Handling oder Namenskonventionen für Variablen verlernt, die sie früher gut konnten
    Manchmal sinkt die Qualität auch, je länger das Gespräch wird. Es scheint ein Optimum für die Prompt-Länge zu geben

    • Laut der GitHub-Copilot-Dokumentation (Link)
      sollte man neue Aufgaben in einem neuen Thread beginnen und unnötige Anfragen löschen
    • Letztlich ist das gesamte Gespräch eine einzige Query, und je länger sie wird, desto stärker hängt alles von der Fähigkeit der AI ab, den Kontext korrekt zu interpretieren