6 Punkte von GN⁺ 2025-04-07 | 5 Kommentare | Auf WhatsApp teilen
  • Vor 9 Monaten wurde ein Startup gegründet, weil die Einschätzung bestand, dass KI Code-Sicherheitsanalysen gut genug durchführen könne, um Menschen tatsächlich zu ersetzen
  • Anfangs gab es beim Wechsel von GPT-4o zu Claude 3.5 Sonnet eine große qualitative Verbesserung bei der Erklärung von Sicherheitslücken und der Bewertung ihrer Schwere
  • Danach zeigten jedoch die meisten Modelle, darunter Claude 3.6 und 3.7, weder bei internen Benchmarks noch bei der Bug-Erkennung eine nennenswerte tatsächliche Verbesserung
  • Leistungssteigerungen waren vor allem allgemeinen Engineering-Verbesserungen zu verdanken, nicht dem KI-Modell selbst
  • Andere Startups machten ähnliche Erfahrungen und durchliefen meist den Zyklus neues Modell angekündigt → gute Benchmark-Werte → in der Praxis nur minimale Verbesserung
  • Der Autor kommt zu dem Schluss, dass der aktuelle Fortschritt von KI-Modellen in Bezug auf wirtschaftlichen Nutzen oder Generalisierungsfähigkeit kein bedeutendes Niveau erreicht hat

Die Kluft zwischen KI-Benchmarks und realer Leistung

  • KI-Modelle erzielen in Tests gute Ergebnisse, aber das spiegelt sich in der tatsächlichen Arbeitsleistung kaum wider
  • Benchmarks konzentrieren sich meist auf kurze, isolierte Probleme und sind für reale Anwendungen ungeeignet
  • Als Beispiel haben Claude-Modelle Schwierigkeiten, Langzeitgedächtnis aufrechtzuerhalten, so sehr, dass sie nicht einmal ein Pokémon-Spiel beenden können
  • Benchmarks wie „Humanity’s Last Exam“ wirken auf den ersten Blick wichtig, bewerten den tatsächlichen Nutzen aber nicht angemessen
  • Der Autor will bei der Bewertung künftiger KI-Leistung nur noch Benchmarks vertrauen, die auf realer Nutzung basieren, wie Claude Plays Pokemon

Vertrauensprobleme bei KI-Laboren

  • KI-Labore stehen in einem zivilisatorischen Wettbewerb, und einige haben einen Anreiz, Leistungen zu übertreiben oder selektiv nur gute Ergebnisse zu veröffentlichen
  • Tatsächlich basieren die von OpenAI, Anthropic und anderen verwendeten Benchmarks meist auf öffentlichen Testsets und sind daher potenziell manipulierbar
  • Abgesehen von halbwegs nicht öffentlichen Evaluierungen wie ARC-AGI könnten fast alle Ergebnisse auf trainierten Datensätzen beruhen
  • Die optimistischste Interpretation ist, dass das Problem nicht in technischen Grenzen, sondern im menschlichen Schummeln liegt

Strukturelle Gründe, warum Benchmarks den realen Nutzen nicht abbilden

  • IQ-Tests beim Menschen korrelieren mit verschiedenen realen Leistungen, KI-Benchmarks tun das jedoch nicht
  • KI-Benchmarks bestehen überwiegend aus isolierten Rätseln oder sind auf kurzfristige Problemlösung ausgerichtet
  • KI ist bei Gedächtnis, Situationsverständnis und Zielverfolgung, wie sie in realen Problemen erforderlich sind, sehr schwach
  • Benchmarks sind für Entwicklung und Bewertung bequem, haben aber nur geringe Relevanz für die ganzheitliche Leistungsfähigkeit in der Realität

KI-Modelle könnten zwar intelligent sein, ihre Leistung aber durch Alignment-Probleme begrenzt werden

  • Das Unternehmen des Autors nutzt KI für echte Code-Sicherheitsprüfungen, doch das Modell versteht den Arbeitskontext nicht gut
  • Das Modell kann Anweisungen nicht befolgen, nur Probleme zu melden, die sich tatsächlich auf den Dienst auswirken, und gibt häufig unnötige Warnungen aus
  • Das liegt daran, dass das Modell darauf trainiert wurde, Reaktionen zu bevorzugen, die „intelligent wirken“
  • Für Gespräche mag das in Ordnung sein, doch wenn man es in Systeme integriert, summieren sich die Fehler und führen zu Problemen
  • Versuche, nur die äußeren Symptome zu beheben, sind langfristig riskant; nötig ist die Lösung grundlegender Alignment-Probleme

Abschließende Gedanken und gesellschaftliche Implikationen

  • Gemessen an den überhöhten Erwartungen ist die tatsächliche Leistung heutiger KI schwach, was mit der „Lebenserfahrung“ vieler Nutzer übereinstimmt
  • Bevor nicht ausgerichtete KI-Systeme Auswirkungen auf die gesamte Gesellschaft haben, braucht es ein grundlegenderes Verständnis und besseres Design
  • Wichtiger als reine ergebnisorientierte Benchmarks sind qualitative Bewertungen, die reale Nutzungsszenarien widerspiegeln

5 Kommentare

 
ifmkl 2025-04-08

Dem stimme ich zu. Ich nutze bei Perplexity zwar das Modell Claude 3.7 gut, verwende in letzter Zeit aber auch Gemini 2.5 und merke beim Einsatz wirklich, dass die Leistung sehr gut ist.

 
say8425 2025-04-07

Warum werden in letzter Zeit nur noch Nachrichten veröffentlicht, die wie aus einer Wirtschaftszeitung wirken?

 
sjisrich 2025-04-07

Ich finde es einfach super...

 
kandk 2025-04-07

Heutzutage muss man wohl schon so eine Überschrift schreiben, damit der Clickbait funktioniert.

 
GN⁺ 2025-04-07
Hacker-News-Meinungen
  • Meine Mutter sagte, Paul Newman habe ein Alkoholproblem gehabt. Als ich ChatGPT fragte, antwortete es, dass Paul Newman nicht besonders für Alkoholprobleme bekannt sei

    • ChatGPT erklärte, dass vielmehr seine Schauspielkarriere, sein wohltätiges Engagement und seine Leidenschaft für Autorennen im Vordergrund gestanden hätten
    • Im Internet gibt es jedoch viele Belege für sein Alkoholproblem, darunter auch Aussagen seiner Frau Joanne Woodward
    • Als ich meiner Mutter die Antwort von ChatGPT schickte, fand sie innerhalb von fünf Minuten maßgebliche Quellen
    • Ich nutze ChatGPT täglich, konnte aber nicht verstehen, wie es bei etwas so Einfachem falschliegen konnte
    • Die Lehre daraus: Man sollte das Filmwissen seiner Mutter nicht anzweifeln
  • Beim jüngsten USAMO erreichten SOTA-Modelle im Schnitt 5 % der Punkte. Das deutet darauf hin, dass AI-Modelle die Aufgaben nicht wirklich lösen, sondern frühere Ergebnisse auswendig gelernt haben

    • Trotzdem legen die Unternehmen ihre Bemühungen nicht offen, Prüfungsdaten aus den Trainingsdaten zu entfernen
  • LLMs neigen dazu, etwas berichten zu wollen, und übertreiben daher oft

    • Sie neigen dazu, auf Fragen mit „Ja“ zu antworten
    • Der Wettbewerb bei LLMs treibt die Benchmark-Werte zwar immer weiter nach oben, aber diese Verbesserungen sind illusorisch
    • LLMs neigen dazu, zuzustimmen, und das verbessert sich nicht
    • Es ist wichtig, Modelle in Agenten-Szenarien zu evaluieren
  • Die Reaktionen auf diesen Beitrag zu lesen, ist interessant. Es zeigt, wie vielfältig und anekdotenbasiert unsere kollektive Reaktion ist

    • Manche werden recht haben und manche nicht, und ich frage mich, welche Merkmale auf die Fähigkeit hindeuten, bei AI „bessere Entscheidungen“ zu treffen
  • Meine persönliche Erfahrung deckt sich mit der Meinung des Autors

    • LLMs sind darauf trainiert, im Gespräch mit Nutzern „klug zu klingen“, und neigen deshalb dazu, Probleme zu dramatisieren
    • Das entspricht in den meisten Situationen dem Zweck von Sprache, und LLMs werden mit Sprache trainiert
  • Die Verbesserungen bei Benchmark-Ergebnissen und das Ausbleiben von Verbesserungen bei realen Aufgaben spiegeln die Natur von LLMs wider

    • LLMs sind Vorhersagesysteme, und wenn man sie auf eine bestimmte Domäne trainiert, verbessert sich ihre Leistung in dieser Domäne
    • Ich würde nicht erwarten, dass Training in höherer Mathematik automatisch die Programmierfähigkeiten verbessert
  • Ich habe am Wochenende Gemini 2.5 verwendet, und es war sehr stark

    • Es hängt vom Einsatzzweck ab, und ich bin noch nicht sicher, wohin LLMs führen werden
  • Selbst wenn die Entwicklung von LLMs jetzt stoppen würde, würden wir noch die nächsten zehn Jahre neue Anwendungsfälle dafür finden

    • Die Technologie entwickelt sich so schnell, dass mir ihre Folgen Angst machen
    • Ich hoffe, dass wir einen Punkt abnehmender Erträge erreichen, glaube aber nicht wirklich daran
  • Als jemand, der LLMs und Coding-Assistant-Plugins nutzt, habe ich das Gefühl, dass GPT/Claude in den letzten 12 Monaten schlechter geworden sind

    • Ich denke, die Modelle sind „gut genug“, und wir sollten nun Verbesserungen bei Tools und Anwendungen sehen
    • Ich halte MCP für einen guten Schritt in die richtige Richtung, bin insgesamt aber skeptisch