- Vor 9 Monaten wurde ein Startup gegründet, weil die Einschätzung bestand, dass KI Code-Sicherheitsanalysen gut genug durchführen könne, um Menschen tatsächlich zu ersetzen
- Anfangs gab es beim Wechsel von GPT-4o zu Claude 3.5 Sonnet eine große qualitative Verbesserung bei der Erklärung von Sicherheitslücken und der Bewertung ihrer Schwere
- Danach zeigten jedoch die meisten Modelle, darunter Claude 3.6 und 3.7, weder bei internen Benchmarks noch bei der Bug-Erkennung eine nennenswerte tatsächliche Verbesserung
- Leistungssteigerungen waren vor allem allgemeinen Engineering-Verbesserungen zu verdanken, nicht dem KI-Modell selbst
- Andere Startups machten ähnliche Erfahrungen und durchliefen meist den Zyklus neues Modell angekündigt → gute Benchmark-Werte → in der Praxis nur minimale Verbesserung
- Der Autor kommt zu dem Schluss, dass der aktuelle Fortschritt von KI-Modellen in Bezug auf wirtschaftlichen Nutzen oder Generalisierungsfähigkeit kein bedeutendes Niveau erreicht hat
Die Kluft zwischen KI-Benchmarks und realer Leistung
- KI-Modelle erzielen in Tests gute Ergebnisse, aber das spiegelt sich in der tatsächlichen Arbeitsleistung kaum wider
- Benchmarks konzentrieren sich meist auf kurze, isolierte Probleme und sind für reale Anwendungen ungeeignet
- Als Beispiel haben Claude-Modelle Schwierigkeiten, Langzeitgedächtnis aufrechtzuerhalten, so sehr, dass sie nicht einmal ein Pokémon-Spiel beenden können
- Benchmarks wie „Humanity’s Last Exam“ wirken auf den ersten Blick wichtig, bewerten den tatsächlichen Nutzen aber nicht angemessen
- Der Autor will bei der Bewertung künftiger KI-Leistung nur noch Benchmarks vertrauen, die auf realer Nutzung basieren, wie Claude Plays Pokemon
Vertrauensprobleme bei KI-Laboren
- KI-Labore stehen in einem zivilisatorischen Wettbewerb, und einige haben einen Anreiz, Leistungen zu übertreiben oder selektiv nur gute Ergebnisse zu veröffentlichen
- Tatsächlich basieren die von OpenAI, Anthropic und anderen verwendeten Benchmarks meist auf öffentlichen Testsets und sind daher potenziell manipulierbar
- Abgesehen von halbwegs nicht öffentlichen Evaluierungen wie ARC-AGI könnten fast alle Ergebnisse auf trainierten Datensätzen beruhen
- Die optimistischste Interpretation ist, dass das Problem nicht in technischen Grenzen, sondern im menschlichen Schummeln liegt
Strukturelle Gründe, warum Benchmarks den realen Nutzen nicht abbilden
- IQ-Tests beim Menschen korrelieren mit verschiedenen realen Leistungen, KI-Benchmarks tun das jedoch nicht
- KI-Benchmarks bestehen überwiegend aus isolierten Rätseln oder sind auf kurzfristige Problemlösung ausgerichtet
- KI ist bei Gedächtnis, Situationsverständnis und Zielverfolgung, wie sie in realen Problemen erforderlich sind, sehr schwach
- Benchmarks sind für Entwicklung und Bewertung bequem, haben aber nur geringe Relevanz für die ganzheitliche Leistungsfähigkeit in der Realität
KI-Modelle könnten zwar intelligent sein, ihre Leistung aber durch Alignment-Probleme begrenzt werden
- Das Unternehmen des Autors nutzt KI für echte Code-Sicherheitsprüfungen, doch das Modell versteht den Arbeitskontext nicht gut
- Das Modell kann Anweisungen nicht befolgen, nur Probleme zu melden, die sich tatsächlich auf den Dienst auswirken, und gibt häufig unnötige Warnungen aus
- Das liegt daran, dass das Modell darauf trainiert wurde, Reaktionen zu bevorzugen, die „intelligent wirken“
- Für Gespräche mag das in Ordnung sein, doch wenn man es in Systeme integriert, summieren sich die Fehler und führen zu Problemen
- Versuche, nur die äußeren Symptome zu beheben, sind langfristig riskant; nötig ist die Lösung grundlegender Alignment-Probleme
Abschließende Gedanken und gesellschaftliche Implikationen
- Gemessen an den überhöhten Erwartungen ist die tatsächliche Leistung heutiger KI schwach, was mit der „Lebenserfahrung“ vieler Nutzer übereinstimmt
- Bevor nicht ausgerichtete KI-Systeme Auswirkungen auf die gesamte Gesellschaft haben, braucht es ein grundlegenderes Verständnis und besseres Design
- Wichtiger als reine ergebnisorientierte Benchmarks sind qualitative Bewertungen, die reale Nutzungsszenarien widerspiegeln
5 Kommentare
Dem stimme ich zu. Ich nutze bei Perplexity zwar das Modell Claude 3.7 gut, verwende in letzter Zeit aber auch Gemini 2.5 und merke beim Einsatz wirklich, dass die Leistung sehr gut ist.
Warum werden in letzter Zeit nur noch Nachrichten veröffentlicht, die wie aus einer Wirtschaftszeitung wirken?
Ich finde es einfach super...
Heutzutage muss man wohl schon so eine Überschrift schreiben, damit der Clickbait funktioniert.
Hacker-News-Meinungen
Meine Mutter sagte, Paul Newman habe ein Alkoholproblem gehabt. Als ich ChatGPT fragte, antwortete es, dass Paul Newman nicht besonders für Alkoholprobleme bekannt sei
Beim jüngsten USAMO erreichten SOTA-Modelle im Schnitt 5 % der Punkte. Das deutet darauf hin, dass AI-Modelle die Aufgaben nicht wirklich lösen, sondern frühere Ergebnisse auswendig gelernt haben
LLMs neigen dazu, etwas berichten zu wollen, und übertreiben daher oft
Die Reaktionen auf diesen Beitrag zu lesen, ist interessant. Es zeigt, wie vielfältig und anekdotenbasiert unsere kollektive Reaktion ist
Meine persönliche Erfahrung deckt sich mit der Meinung des Autors
Die Verbesserungen bei Benchmark-Ergebnissen und das Ausbleiben von Verbesserungen bei realen Aufgaben spiegeln die Natur von LLMs wider
Ich habe am Wochenende Gemini 2.5 verwendet, und es war sehr stark
Selbst wenn die Entwicklung von LLMs jetzt stoppen würde, würden wir noch die nächsten zehn Jahre neue Anwendungsfälle dafür finden
Als jemand, der LLMs und Coding-Assistant-Plugins nutzt, habe ich das Gefühl, dass GPT/Claude in den letzten 12 Monaten schlechter geworden sind