• Die Bewertung von LLMs steckt noch immer auf dem Niveau von „SAT-Punkten“ fest — MMLU, HumanEval und SWE-bench folgen alle dem Paradigma einer einzelnen Sitzung mit einer einzigen richtigen Antwort. Echte Coding-Agenten arbeiten über mehrere Sitzungen hinweg, lernen aus Fehlern und lesen bestehende Konventionen. Das ist keine Frage von Wissen, sondern von Verhalten.
• Wenn wir Menschen einstellen, schauen wir nicht nur auf Noten, sondern darauf, „wie sie denken“ — warum tun wir das bei der Bewertung von LLMs nicht? Derzeit stecken wir in einer Phase des „GPA-Prüfens“ fest, in der alle Modelle das 90. Perzentil erreichen.
• Selbst wenn derselbe Bug behoben wird, können die Herangehensweisen völlig unterschiedlich sein — Modell A nutzt in 30 Sekunden grep und patcht direkt (Prototyping-Typ), Modell B zerlegt das Problem in Teilaufgaben und geht systematisch vor (Architektur-Typ), Modell C lernt aus Präzedenzfällen im git log und nimmt dann die Änderung vor (Wartungs-Typ). Alle drei beheben den Bug. Die Punktzahl ist identisch. Die Eignung für eine Rolle ist völlig unterschiedlich.
• Vorschlag für vier Beobachtungsdimensionen des Verhaltens — Decomposition (zerlegt es das Problem oder handelt es sofort), Approach (sucht es nach Mustern oder leitet es aus Prinzipien ab), Recovery (ändert es die Strategie, wenn es nicht weiterkommt, oder drückt es einfach weiter durch), Consistency (zeigt es bei ähnlichen Problemen denselben Ansatz).
Wissensbewertung vs. Verhaltensbewertung
| Bestehende Benchmarks | Was sie messen | Was sie übersehen |
|---|---|---|
| MMLU | Ausmaß des auswendig gelernten Wissens | Urteilsvermögen bei der Anwendung, „Bewusstsein über das Nichtwissen“ |
| HumanEval | Erfolgsquote im ersten Versuch | Debugging, Iteration, Anpassungsprozess |
| SWE-bench | Ob ein Patch besteht | Zugangsweg, Architekturverständnis, sitzungsübergreifendes Lernen |
2026: Die wirklich wichtigen Fragen
Jetzt, da Coding-Agenten nicht mehr nur Demos, sondern echte Werkzeuge für Teams sind, lautet die Frage, die wir stellen sollten, nicht „Wie viele Punkte hat es?“:
- „Welches Modell eignet sich für die Wartung von Legacy-Systemen?“
- „Welcher Debugging-Stil passt zu Junior-Pair-Programming?“
- „Welches Modell zeigt über Wochen hinweg das am besten vorhersagbare Verhalten?“
Das sind Fragen nach dem Role-Fit. Das sind Hiring-Fragen. Wir beantworten sie noch immer mit SAT-Punkten.
Der Beitrag präsentiert das Framework nicht als fertige Lösung. Stattdessen werden vier Annahmen explizit offengehalten, mit der Haltung „Korrigiert mich, wenn ich falsch liege“, um eine Diskussion in den Kommentaren anzustoßen. Die Arbeit „In-Situ Behavioral Evaluation for LLM Fairness“ von Tang et al. aus dem April 2026 weist in eine ähnliche Richtung.
Noch keine Kommentare.