Der blinde Fleck der LLM-Bewertung: Warum betrachten wir nur „Wissen“ statt „Verhalten“?

(dev.to/johnonlee)

14 Punkte von johnonlee 2026-05-27 | 5 Kommentare | Auf WhatsApp teilen

• Die Bewertung von LLMs steckt noch immer auf dem Niveau von „SAT-Punkten“ fest — MMLU, HumanEval und SWE-bench folgen alle dem Paradigma einer einzelnen Sitzung mit einer einzigen richtigen Antwort. Echte Coding-Agenten arbeiten über mehrere Sitzungen hinweg, lernen aus Fehlern und lesen bestehende Konventionen. Das ist keine Frage von Wissen, sondern von Verhalten.

• Wenn wir Menschen einstellen, schauen wir nicht nur auf Noten, sondern darauf, „wie sie denken“ — warum tun wir das bei der Bewertung von LLMs nicht? Derzeit stecken wir in einer Phase des „GPA-Prüfens“ fest, in der alle Modelle das 90. Perzentil erreichen.

• Selbst wenn derselbe Bug behoben wird, können die Herangehensweisen völlig unterschiedlich sein — Modell A nutzt in 30 Sekunden grep und patcht direkt (Prototyping-Typ), Modell B zerlegt das Problem in Teilaufgaben und geht systematisch vor (Architektur-Typ), Modell C lernt aus Präzedenzfällen im git log und nimmt dann die Änderung vor (Wartungs-Typ). Alle drei beheben den Bug. Die Punktzahl ist identisch. Die Eignung für eine Rolle ist völlig unterschiedlich.

• Vorschlag für vier Beobachtungsdimensionen des Verhaltens — Decomposition (zerlegt es das Problem oder handelt es sofort), Approach (sucht es nach Mustern oder leitet es aus Prinzipien ab), Recovery (ändert es die Strategie, wenn es nicht weiterkommt, oder drückt es einfach weiter durch), Consistency (zeigt es bei ähnlichen Problemen denselben Ansatz).

Wissensbewertung vs. Verhaltensbewertung

Bestehende Benchmarks	Was sie messen	Was sie übersehen
MMLU	Ausmaß des auswendig gelernten Wissens	Urteilsvermögen bei der Anwendung, „Bewusstsein über das Nichtwissen“
HumanEval	Erfolgsquote im ersten Versuch	Debugging, Iteration, Anpassungsprozess
SWE-bench	Ob ein Patch besteht	Zugangsweg, Architekturverständnis, sitzungsübergreifendes Lernen

2026: Die wirklich wichtigen Fragen

Jetzt, da Coding-Agenten nicht mehr nur Demos, sondern echte Werkzeuge für Teams sind, lautet die Frage, die wir stellen sollten, nicht „Wie viele Punkte hat es?“:

„Welches Modell eignet sich für die Wartung von Legacy-Systemen?“
„Welcher Debugging-Stil passt zu Junior-Pair-Programming?“
„Welches Modell zeigt über Wochen hinweg das am besten vorhersagbare Verhalten?“

Das sind Fragen nach dem Role-Fit. Das sind Hiring-Fragen. Wir beantworten sie noch immer mit SAT-Punkten.

Der Beitrag präsentiert das Framework nicht als fertige Lösung. Stattdessen werden vier Annahmen explizit offengehalten, mit der Haltung „Korrigiert mich, wenn ich falsch liege“, um eine Diskussion in den Kommentaren anzustoßen. Die Arbeit „In-Situ Behavioral Evaluation for LLM Fairness“ von Tang et al. aus dem April 2026 weist in eine ähnliche Richtung.

5 Kommentare

husky81 2026-05-28

Wenn man darüber nachdenkt, bewertet auch die CSAT-Prüfung für Menschen nicht Verhalten, sondern nur Wissen.

cronex 2026-05-27

Wenn es ein konsistentes Muster gäbe, wäre es vielleicht noch nachvollziehbar, aber da es jedes Mal anders ist, wusste ich irgendwann nicht mehr, wie man das überhaupt bewerten soll.

johnonlee 2026-05-27

Stimmt. Es gibt zwar keine eindeutige richtige Antwort, aber ich denke, man sollte die Sache auch einmal aus dieser Richtung betrachten. Im Moment lässt man ein einzelnes Modell eine Aufgabe von Anfang bis Ende erledigen, aber vielleicht gehen wir morgen eher dazu über, dass zwischendurch jeweils nur die Bereiche von den einzelnen Modellen übernommen werden, in denen sie besonders gut sind. Wenn alle fleißig lernen, werden sie zwar bis zu einem gewissen Grad ein ähnliches Wissensniveau haben, aber je nach Verhaltensmuster können sich Unterschiede in den Ergebnissen zeigen.

b8g6pn 2026-05-27

Da es keine eindeutige richtige Antwort gibt und selbst menschliche Maßstäbe darauf ankommen, präzise zu sein und möglichst wenig Ressourcen zu verbrauchen, wäre es dann nicht sinnvoll, anhand der Token-Menge und des erreichten Niveaus zu bewerten? Wenn man sich dann noch in die Methode einmischt, wird es wirklich schwierig ...

aliveornot 2026-05-27

Ganz falsch ist das nicht, aber gibt es darauf überhaupt eine Antwort? In der realen Einstellungspraxis ist es ja auch schwierig, so etwas zu bepunkteten, deshalb stellt man Menschen erst ein, probiert es aus und trennt sich dann wieder von ihnen ... genau wie beim Einsatz von AI-Modellen, die man später austauscht.

Der blinde Fleck der LLM-Bewertung: Warum betrachten wir nur „Wissen“ statt „Verhalten“?

Wissensbewertung vs. Verhaltensbewertung

2026: Die wirklich wichtigen Fragen

Verwandte Beiträge

5 Kommentare