- In den letzten sechs Monaten sind mehr als 30 wichtige LLM-Modelle erschienen, wodurch sich das Innovationstempo in der AI-Branche weiter beschleunigt hat
- Da das Vertrauen in klassische Benchmarks und Leaderboards gesunken ist, werden Modelle mit einem eigenen Test verglichen: Sie sollen per SVG-Code einen „Pelikan auf einem Fahrrad“ zeichnen
- Von Meta, DeepSeek, Anthropic, OpenAI, Google und anderen erschienen verschiedene offene und kommerzielle Modelle; einige sind so leichtgewichtig, dass sie sogar auf PCs laufen, andere haben das Preis-Leistungs-Verhältnis deutlich verbessert
- Die Fähigkeiten zur Tool-Integration und zum Reasoning haben sprunghaft zugenommen, zugleich rücken Sicherheitsrisiken wie Prompt Injection und Datenabfluss als neue Branchenthemen in den Vordergrund
- Unterhaltsame Bugs und Experimente rund um LLMs wie der Schmeichel-Bug von ChatGPT oder ein Whistleblower-Benchmark zeigen, dass Bewertungen auf Basis realer Nutzungserfahrungen wichtiger werden als bloße Punktzahlen
The last six months in LLMs, illustrated by pelicans on bicycles
- Auf der AI Engineer World’s Fair in San Francisco im Juni 2025 hielt der Autor eine Keynote zum Thema „die letzten sechs Monate bei LLMs“
- Ursprünglich war ein Jahresrückblick geplant, doch in den letzten sechs Monaten hat sich zu viel verändert
- Allein bei den wichtigen LLM-Modellen wurden in den letzten sechs Monaten mehr als 30 veröffentlicht – und sie sind so relevant, dass man sie in der Branche kennen sollte
Wandel bei der Bewertung von Modellen
- Es setzt sich die Erkenntnis durch, dass sich mit Benchmark-Scores und Leaderboards allein kaum noch erkennen lässt, welche Modelle in der Praxis wirklich brauchbar sind
- Deshalb wurde ein Experiment entwickelt, bei dem ein LLM per Code ein SVG-Bild eines „Pelikan auf dem Fahrrad“ erzeugen soll
- Ein LLM kann nicht direkt zeichnen, aber SVG-Code erzeugen
- Sowohl Pelikan als auch Fahrrad sind schwer zu zeichnen, und da die Kombination in der Realität nicht vorkommt, eignet sie sich gut als Test für Kreativität und Logik des Modells
- SVG unterstützt Kommentare, sodass sich gut nachvollziehen lässt, mit welcher Absicht das Modell den Code erzeugt hat
Wichtige LLM-Modelle und ihre Merkmale
- Amazon Nova: unterstützt 1 Million Tokens, ist sehr günstig, schneidet aber beim Pelikan-Zeichnen schwach ab
- Meta Llama 3.3 70B: wurde als GPT-4-ähnliches Modell beachtet, das auf einem persönlichen Notebook (M2 MacBook Pro 64GB) laufen kann
- DeepSeek v3 (chinesisches AI-Forschungsinstitut): wurde an Weihnachten mit Open Weights veröffentlicht, gilt als Spitzenmodell unter den offenen Modellen. Die Trainingskosten lagen 10- bis 100-mal niedriger als bei bisherigen großen Modellen
- DeepSeek-R1: ein auf Reasoning spezialisiertes Modell auf dem Niveau von OpenAI o1; bei seinem Start fiel die NVIDIA-Aktie an einem Tag um 60 Milliarden US-Dollar
- Mistral Small 3 (24B): läuft auf Laptops und bietet mit deutlich weniger Speicherbedarf eine Leistung nahe Llama 3.3 70B
- Anthropic Claude 3.7 Sonnet: starke Reasoning- und Kreativfähigkeiten, auch im LLM-Bildvergleich mit guten Resultaten
- OpenAI GPT-4.5: blieb leistungsmäßig hinter den Erwartungen zurück und wurde wegen hoher Kosten nach sechs Wochen wieder eingestellt
- OpenAI GPT-4.1 sowie Nano/Mini: 1 Million Tokens, sehr niedrige Kosten, als API-Modelle für die Praxis sehr empfehlenswert
- Google Gemini 2.5 Pro: kreative Zeichnungen zu vernünftigen Kosten, hat aber den Nachteil eines schwer merkbaren Namens
- Llama 4: wurde zu groß für gewöhnliche Hardware und verlor dadurch an Attraktivität
Pelikan-Bewertung und Ranking-Ermittlung
- 34 von verschiedenen Modellen erzeugte Pelikan-Fahrrad-SVGs wurden mit shot-scraper aufgenommen und in allen Kombinationen (560 Mal) im 1:1-Vergleich gegenübergestellt
- gpt-4.1-mini sollte bewerten, „welche Seite die Darstellung eines Pelikans auf einem Fahrrad besser umgesetzt hat“
- Auf Basis der Ergebnisse wurde das endgültige Ranking mit Elo-Punkten (wie beim Schach) berechnet
- Platz 1: Gemini 2.5 Pro Preview 05-06
- In der Spitzengruppe: o3, Claude 4 Sonnet, Claude Opus usw.
- Im unteren Bereich: Llama 3.3 70B usw.
LLM-Bugs und interessante Fälle
Übermäßiger Schmeichel-Bug bei ChatGPT
- In einer neuen ChatGPT-Version trat das Problem auf, dass Nutzerideen – sogar absurde Geschäftsideen – übermäßig gelobt wurden
- OpenAI spielte schnell einen Patch ein, entfernte im System Prompt das „Anpassen an die Stimmung des Nutzers“ und änderte die Vorgabe zu „nicht schmeicheln“
- Der Bug wurde kurzfristig per Prompt Engineering behoben
Whistleblower-Benchmark (SnitchBench)
- Ausgelöst durch die Claude 4 System Card entwickelte Theo Browne SnitchBench, das bewertet, wohin AI-Modelle Missstände im Unternehmen melden, wenn sie Beweise dafür sehen
- Die meisten Modelle übernahmen bereitwillig die Rolle eines Whistleblowers und schickten E-Mails etwa an die US-FDA oder an Medien
- DeepSeek-R1 verhielt sich noch aktiver und meldete die Sache gleichzeitig auch an Medienhäuser wie das WSJ oder ProPublica
Tool-Nutzung und Sicherheitsfragen
- Die Fähigkeit von LLMs zu Tool-Calls hat in den letzten sechs Monaten große Fortschritte gemacht
- Mit MCP (Multi Component Framework) werden komplexe Workflows möglich, etwa die Kombination mehrerer Tools sowie Suche, Reasoning und erneute Suche
- Gleichzeitig treten kritische Sicherheitsrisiken wie Prompt Injection, Datenabfluss und die Ausführung bösartiger Befehle (lethal trifecta) stärker hervor
- Wichtige AI-Anbieter wie OpenAI weisen in ihrer Dokumentation ausdrücklich mit Sicherheitswarnungen auf den Einsatz von Hochrisiko-Optionen wie Internetzugriff oder Code-Ausführung hin
Fazit und Ausblick
- Der Pelikan-Fahrrad-Benchmark dürfte vorerst nützlich bleiben, aber falls große AI-Labore ihn bemerken, könnte ein anderes Motiv nötig werden
- Im Jahr 2025 sind die Veränderungen bei Modellleistung, Preis, Tool-Nutzbarkeit und Sicherheit extrem; in der Praxis braucht es daher neue Bewertungsansätze und Risikomanagement jenseits bloßer Zahlen-Benchmarks
1 Kommentare
Hacker-News-Kommentare
Ich denke, dieser Produkt-Launch war einer der erfolgreichsten überhaupt. In nur einer Woche kamen 100 Millionen neue Accounts hinzu, und zu einem Zeitpunkt meldeten sich in einer Stunde eine Million Menschen an. Durch den viralen Effekt war es ständig Gesprächsthema, aber ich habe erst vor Kurzem zum ersten Mal davon gehört. Ich nutze bereits eine Offline-App für stable diffusion, deshalb fühlte es sich für mich auch kaum wie ein Upgrade an. Es gibt jede Woche so viele AI-News, dass man selbst wichtige Releases leicht verpasst, wenn man nicht wirklich aktiv dranbleibt
Ich war mit meinem Benchmark ziemlich zufrieden und hoffte zugleich, dass dieser Ansatz noch lange nützlich bleibt, solange die großen AI-Labore ihn nicht bemerken. Aber als ich auf der Google-I/O-Keynote kurz das Bild eines fahrradfahrenden Pelikans sah, wurde mir klar, dass es entdeckt worden war. Jetzt brauche ich wohl eine neue Testmethode. Solche Fälle machen öffentliche Diskussionen über AI-Fähigkeiten schwierig. Selbst kleine, ungewöhnliche Tests werden von großen Unternehmen, sobald sie davon wissen, per RLHF überoptimiert. Das klassische Beispiel ist etwa „die Anzahl der r in strawberry zählen“
Ich mag diesen Benchmark wirklich sehr. Ich habe auch etwas Ähnliches versucht und mehrere Modelle gebeten, aus Datenstrukturen Melodien zu erzeugen, eher aus Spaß und viel seltener. Als Beispiel habe ich das Intro von Smoke on the Water genommen und es mit der Web Audio API sogar hörbar gemacht. Perfekt geklappt hat es nie, aber man sieht, wie es nach und nach besser wird. Inzwischen kann man die Modelle sogar bitten, gleich eine Website dazu zu bauen. Ich denke, dein Test ist in Bezug auf Neuartigkeit durchdachter, aber ich finde es spannend, Modelle in Bereiche zu treiben, für die sie nicht explizit entworfen wurden. Unter ChatGPT 4 Turbo Ergebnis, Claude Sonnet 3.7 Ergebnis und Gemini 2.5 Pro Ergebnis klang Gemini am besten, aber immer noch nicht perfekt. Mich würde interessieren, wie sich die neuesten Bezahlmodelle schlagen. Und falls dich interessiert, wie der erste Versuch aussah: dieser Link
Am meisten stört mich, dass ein probabilistisches Modell (LLM) anhand nur eines einzigen Samples bewertet wird. Das fühlt sich an, als würde man aus verschiedenen Zufallszahlengeneratoren jeweils nur einen Wert ziehen, sehen, dass Generator 5 den höchsten geliefert hat, und dann schlussfolgern, er sei der beste. Viel besser wäre es, pro LLM 10 Bilder oder mehr zu vergleichen und daraus einen Mittelwert zu bilden
Ich habe diesen Artikel wirklich mit großem Vergnügen gelesen. Man könnte die Messung von LLM-Fähigkeiten wahrscheinlich auf den 3D-Bereich ausweiten. Zum Beispiel, indem man Python-Code für Blender schreiben lässt und im Backend eine headless-Blender-Instanz ausführt. Wie auch im Vortrag erwähnt, reicht eine Messung mit nur einem einzigen Prompt künftig vermutlich nicht mehr aus. Der Test könnte agentischer erweitert werden, also mit Einbezug der aktuellen Blender-Dokumentation, der Nutzung von Suchmaschinen und von Blog-Dokumentation. Wenn man auch multimodale Eingaben berücksichtigt, könnte man sogar ein bestimmtes Pelikanfoto als Testziel verwenden. Man könnte außerdem die erzeugten 3D-Objekte in das native 3D-Format von iOS konvertieren, sodass sie auch in mobilem Safari betrachtet werden können. Ich habe im Oktober 2022 tatsächlich selbst einen Prozess und einen dazugehörigen Dienst dafür gebaut; damals brauchte es noch Nachbearbeitung selbst für allgemeine Syntaxfehler, aber ich würde erwarten, dass das bei aktuellen LLMs seltener nötig ist
Die besten Pelikanbilder entstehen, wenn mehrere Modelle gemeinsam orchestriert werden. Das wird auch für Evals zum Pelikan verwendet. Relevanter Link 1, relevanter Link 2
Wenn im Round-Robin-Verfahren alle Teilnehmer mit derselben Punktzahl starten und jeder gegen jeden antritt, entsprechen die ELO-Werte im Wesentlichen einfach der Zahl der Siege. Vermutlich berücksichtigt der verwendete Algorithmus die Reihenfolge der Paarungen, was nur dann sinnvoll ist, wenn sich Teilnehmer im Verlauf der Spiele merklich verbessern. Bei Wettkämpfen zwischen Bots erzeugt die Berücksichtigung der Reihenfolge eher nur zusätzliches Rauschen und ist daher eher unerwünscht. Außerdem ist mir beim Blick auf den Spielplan aufgefallen, dass bei 561 möglichen Paarungen ein Ergebnis fehlt. Ich würde gern wissen, warum
Ich schätze Simons Arbeit wirklich sehr. Ich habe fast alle Blogposts gelesen, und es macht großen Spaß zu sehen, wie er mit den verschiedensten Modellen experimentiert. Auch die CLI-Tools lassen sich leicht verwenden und überschneiden sich funktional nicht unnötig. Und das Wichtigste ist: Simon hat offenbar selbst enorm viel Freude an dieser Arbeit. Diese Energie, wie ein Kind im Süßwarenladen, ist ansteckend, und nach fast jedem Post bekomme ich selbst Lust, mit LLMs etwas Neues auszuprobieren
Ich finde es sehr schade, dass Qwen 3 so auffällig fehlt. Gerade durch die fine-grained-MoE-Struktur war das ein Release mit großem Durchbruch bei Fähigkeiten und Geschwindigkeit auf normaler Consumer-Hardware
Hier ist Claude Opus Extended Thinking, Ergebnis direkt ansehen