Die vergangenen 6 Monate der LLMs in 5 Minuten

(simonwillison.net)

9 Punkte von GN⁺ 2026-05-20 | 1 Kommentare | Auf WhatsApp teilen

November 2025 wurde zum Bezugspunkt für die jüngsten Veränderungen bei LLMs, wobei die Praxistauglichkeit von Coding-Agenten und der Aufstieg lokal auf Laptops laufender Modelle im Mittelpunkt standen
Nach Claude Sonnet 4.5 lieferten sich GPT-5.1, Gemini 3 und Claude Opus 4.5 schnell einen Wettlauf, wobei Opus 4.5 für einige Monate die Führung zu übernehmen schien
Das Reinforcement Learning from Verifiable Rewards von OpenAI und Anthropic zeigte sich in besserer Codequalität in Harnesses wie Codex und Claude Code
Experimente in der Ferienzeit brachten interessante Ergebnisse wie micro-javascript hervor, doch wegen Bugs, Geschwindigkeit und Sicherheit blieb der reale Bedarf begrenzt
Open-Weight-Modelle wie Gemma 4, GLM-5.1 und Qwen3.6-35B-A3B begannen die Erwartungen deutlich zu übertreffen, auch wenn sie schwächer als Frontier-Modelle waren

Zwei Entwicklungen, die die sechs Monate prägten

Der Wendepunkt im November 2025 ist ein guter Bezugspunkt, um die Veränderungen bei LLMs in den vergangenen sechs Monaten zu betrachten, und war besonders im Coding-Bereich ein wichtiger Monat
Die zentralen Veränderungen der letzten sechs Monate lassen sich auf zwei Punkte verdichten
- Coding-Agenten wurden gut genug, um für echte Alltagsaufgaben eingesetzt zu werden
- Modelle, die auf einem Laptop laufen, sind zwar schwächer als Frontier-Modelle, begannen die Erwartungen aber deutlich zu übertreffen
Für Modellvergleiche wurde der Test SVG eines Pelikans auf einem Fahrrad erzeugen verwendet
- Der Hintergrund des Tests: Pelikane sind schwer zu zeichnen, Fahrräder ebenfalls, Pelikane können kein Fahrrad fahren, und es ist unwahrscheinlich, dass irgendein AI-Labor Modelle gezielt für solche Aufgaben trainiert hat

Der Wettbewerb der Frontier-Modelle im November

Das Modell, das Anfang November weithin als „das beste“ galt, war Claude Sonnet 4.5, veröffentlicht am 29. September
Danach wechselte der Platz des „besten“ Modells schnell zwischen drei großen Anbietern
Gemini 3 zeichnete in dieser Vergleichsgruppe den besten Pelikan, aber der Pelikan-Test allein reicht nicht aus, um ein Modell insgesamt zu bewerten
Claude Opus 4.5 schien danach für einige Monate das führende Modell zu bleiben

Coding-Agenten durchbrechen die Qualitätsbarriere

Die eigentliche Veränderung im November war die Qualitätssteigerung bei Coding-Agenten
OpenAI und Anthropic investierten den Großteil des Jahres 2025 in Reinforcement Learning from Verifiable Rewards, um die Qualität von durch Modelle geschriebenem Code zu verbessern
Diese Verbesserung fiel besonders auf, wenn sie mit Agent-Harnesses wie Codex und Claude Code kombiniert wurde
Im November gingen Coding-Agenten von „funktioniert manchmal“ zu „funktioniert meistens“ über
Sie erreichten das Niveau eines Alltagswerkzeugs, dem man reale Aufgaben anvertrauen kann, ohne den Großteil der Zeit mit dem Korrigieren dummer Fehler zu verbringen

Experimente in der Ferienzeit und Überhitzung

Von Dezember bis Januar nutzten viele Anwender die Ferienzeit, um auszuprobieren, was neue Modelle und Coding-Agenten leisten können
Modelle und Agenten erledigten vieles, und einige Nutzer begannen, schnell ambitionierte Projekte zu bauen
micro-javascript war eine lockere Python-Portierung von MicroQuickJS, also eine JavaScript-Implementierung
Der Browser-Playground war so aufgebaut, dass JavaScript-Code mit der Bibliothek micro-javascript lief, deren Python-Code wiederum in Pyodide, in WebAssembly, in JavaScript und im Browser ausgeführt wurde
Das Ergebnis war interessant, aber niemand brauchte wirklich eine halbfertige Python-Implementierung von JavaScript, die fehlerhaft, langsam und unsicher ist, und auch andere in diesem Zeitraum gebaute Projekte verschwanden still wieder

OpenClaw und der Boom persönlicher AI-Assistenten

Ein Repository namens „Warelay“, das Ende November beim ersten Commit noch kaum bekannt war, zog danach schnell Aufmerksamkeit auf sich
Nach mehreren Umbenennungen zwischen Dezember und Januar bekam es im Februar unter dem endgültigen Namen OpenClaw große Aufmerksamkeit
OpenClaw ist ein „persönlicher AI-Assistent“, und als Sammelbegriff für Projekte wie NanoClaw und ZeroClaw entstand die Bezeichnung Claws
Rund um Silicon Valley begannen Mac Minis ausverkauft zu sein, weil Menschen sie kauften, um Claw darauf laufen zu lassen
Drew Breunig verglich Claw mit einem neuen digitalen Haustier und scherzte, der Mac Mini sei das perfekte Aquarium für Claw
Als Metapher für Claws wurde Doc Ock genannt, gespielt von Alfred Molina im Film Spider-Man 2 von 2004
- Seine Klauen wurden von AI angetrieben und waren sicher, solange der Inhibitor-Chip nicht beschädigt war; nachdem er beschädigt wurde, wurden sie böse und übernahmen die Kontrolle über ihn

Gemini 3.1 Pro und die Ausweitung des Pelikan-Tests

Im Februar wurde Gemini 3.1 Pro veröffentlicht und zeichnete einen Pelikan auf einem Fahrrad sehr gut
Das Ergebnis enthielt sogar einen Fisch im Korb
Googles Jeff Dean veröffentlichte ein animiertes Video eines Pelikans auf einem Fahrrad
Das gleiche Video zeigte auch einen Frosch auf einem Hochrad, eine Giraffe am Steuer eines kleinen Autos, einen Strauß auf Rollschuhen, eine Schildkröte, die auf einem Skateboard einen Kickflip macht, und einen Dackel, der eine Stretchlimousine fährt
Das Ergebnis ließ scherzhaft daran denken, dass AI-Labore vielleicht sogar seltsamen Aufgaben wie dem Pelikan-Test Aufmerksamkeit geschenkt haben könnten

Open-Weight-Modelle im April

Google veröffentlichte die Modellreihe Gemma 4
Gemma 4 wurde als das leistungsfähigste Open-Weight-Modell eingeschätzt, das man von einem US-Unternehmen gesehen hatte
Das chinesische AI-Labor GLM veröffentlichte GLM-5.1
- GLM-5.1 ist ein Open-Weight-Modell mit 1,5 TB Größe
- Wenn man die Hardware für den Betrieb aufbringen kann, ist es ein sehr leistungsfähiges Modell
GLM-5.1 zeichnete einen Pelikan auf einem Fahrrad recht geschickt, aber beim Animationsversuch sprang das Fahrrad nach oben und verzerrte sich
Bei der von Charles auf Bluesky vorgeschlagenen Aufgabe „North-Virginia-Opossum auf einem E-Scooter“ lieferte es ein Ergebnis, an das andere Modelle nicht herankamen
- Der Satz „Cruising the commonwealth since dusk“ war im Ergebnis enthalten
- Das Resultat ist auch als Animation verfügbar

Modelle auf dem Laptop übertreffen die Erwartungen

Ein weiteres bemerkenswertes chinesisches Open-Weight-Modell im April kam von Qwen
Qwen3.6-35B-A3B zeichnete auf einem Laptop einen besseren Pelikan als Claude Opus 4.7
Dieses Modell ist ein 20,9-GB-Open-Weight-Modell und kann auf einem Laptop ausgeführt werden
Dieses Ergebnis zeigte auch, dass „ein Pelikan auf einem Fahrrad“ seine Grenzen als nützlicher Benchmark bereits überschritten hat
Modelle, die auf einem Laptop laufen können, sind zwar deutlich schwächer als Frontier-Modelle, haben in den letzten sechs Monaten aber begonnen, die Erwartungen klar zu übertreffen

1 Kommentare

GN⁺ 2026-05-20

Hacker-News-Kommentare

Viele sagen, dieser Pelikan-auf-dem-Fahrrad-Test sei eine absurde Metrik, aber offenbar erinnern sich nicht viele daran, dass er tatsächlich schon vor etwa drei Jahren im frühen Microsoft-GPT-Bericht „Sparks of Artificial General Intelligence: Early experiments with GPT-4“ [1] vorgestellt wurde
Direkt danach wurde er von einem Netzwerk aus Promo-Accounts weiterverbreitet und ist seither genau das geworden, was AI-Hype-Leute jedes Mal verwenden, wenn sie Modelle „testen“
100 % Marketing, 0 % Wissenschaft
[1] https://arxiv.org/pdf/2303.12712
- Für Neugierige als Ergänzung: Simon scheint das erstmals am 25. Oktober 2024 öffentlich verwendet zu haben [0]
  Ich kenne keinen konkreten Fall [1], in dem im Paper genau der Prompt „Pelikan auf einem Fahrrad“ getestet wurde, aber im GPT-Paper gab es mehrere SVG- und tikz-Tests, und die tatsächlichen Bilder wirken ziemlich beliebig
  Es ist zwar nicht wünschenswert, auf ein einzelnes Bild hin zu optimieren, aber wenn das Training halbwegs ordentlich gelaufen ist, sollte ein Pelikan auf einem Fahrrad eigentlich nicht so schwierig sein, und auf mehreren Seiten von [0] gibt es durchaus einige ziemlich gute Beispiele
  [0] https://simonwillison.net/tags/pelican-riding-a-bicycle/?pag...
  [1] Wegen Simons Bekanntheit wird es sicher irgendwo etwas dazu geben
- Mein inoffizieller Test, den ich seit dem Aufkommen generativer AI privat verwendet habe, war „eine Zeichnung eines alten Mannes, der auf einem Fluss Fahrrad fährt“
  Gerade eben mit ChatGPTs Standardmodell (5.5) getestet: Der alte Mann fährt ein altes Fahrrad, aber das Fahrrad steht auf einem lockeren Seil, das über den Fluss gespannt ist, mit einer mittelalterlichen Stadt im Hintergrund
  Der Kern ist, dass der Prompt eine subtile Mehrdeutigkeit enthält. Bei der Frage „Wie überquert der alte Mann den Fluss?“ stellen sich die meisten Menschen wohl sofort eine gewöhnliche Brücke mit einer Straße darüber vor und entsprechend einen Fluss in einer Gegend, die entwickelt genug für so eine Brücke ist
  Deshalb denke ich, dass diese Modelle zwar immer besser darin werden, etwas zu finden oder zu erzeugen, das die Bedingungen ungefähr erfüllt, aber immer noch dort scheitern, wo Menschen ganz natürlich vernünftige Annahmen aus dem Alltagswissen ergänzen würden
Ich frage mich, ob dieser „Wendepunkt“ ein reales Phänomen oder eher Marketing ist
Die Modelle sind sicher etwas besser geworden, aber wenn ich selbst mit den neuesten Modellen (Codex + gpt5.5, Kombinationen mit gpt5.3-codex) versuche, ein Spiel per Vibe Coding zu bauen, tun sie sich immer noch ziemlich schwer
Sie erstellen zwar zuverlässig ein Grundgerüst, das läuft, aber bis zu einer ausgereiften Anwendung ist es noch ein weiter Weg
- Vor Opus 4.5 musste ich sie stark an die Hand nehmen und selbst viel coden, aber ich erinnere mich sehr klar daran, dass ich seit diesem Tag praktisch keinen Code mehr geschrieben habe
  Ich habe zwar einmal etwas geschrieben, um zu lernen, wie die Enigma-Maschine funktioniert, aber das war zu Lernzwecken
  Beruflich gesehen habe ich seit November mit dem Coden aufgehört
- Paradoxerweise kann es meiner Ansicht nach mehrere Wendepunkte geben, selbst wenn der Grenznutzen der Kernfähigkeiten bereits sinkt
  Wenn für einen bestimmten Einsatzfall ein Schwellenwert von „gut genug“ überschritten wird, öffnen sich plötzlich neue Möglichkeiten
  Alte Nagelpistolen waren schwer, brauchten dicke Stromkabel und waren sehr teuer
  Als sie leichter und billiger wurden und Akkupacks bekamen, passten sie ab einem gewissen Punkt ganz natürlich in den Arbeitsablauf von Dachdeckern und steigerten das Arbeitspensum dramatisch
  Weitere Verbesserungen an der Grenze müssen danach nicht mehr dieselbe Art von „Freischaltung“ bewirken, weil die Schwelle bereits überschritten wurde
- Ich habe kürzlich mit einer Kombination aus Codex 5.5 und Claude Code Opus 4.7 auch ziemlich komplexe Dinge „per Vibe“ gebaut
  Entscheidend war, früh viel Zeit in ein übergreifendes Designdokument zu investieren und es in konkrete, begrenzte Schritte herunterzubrechen
  Dieses Dokument habe ich zwischen beiden Modellen hin- und hergereicht und so lange verfeinert, bis beide zufrieden waren
  Für jeden Schritt wurde ein Implementierungsplan erstellt, und nach Abschluss blieb ein Zusammenfassungsdokument zurück: was geliefert wurde und was entdeckt wurde. Das wurde dann zum Input für den nächsten Schritt
  Ich habe die Dokumente und die tatsächliche Arbeit überprüft, Tests angesehen und manches detaillierter geprüft. Auch ob mir die Codestruktur gefiel, habe ich stichprobenartig kontrolliert
  Meistens habe ich Claude fürs Coden und Codex für Design und schrittweise Code-Reviews verwendet und beide nach jedem Schritt die Testabdeckung prüfen lassen
  So habe ich Tools und Libraries implementiert, ohne selbst eine Zeile Code zu schreiben, und es war tatsächlich ziemlich nützlich
  Weil das asynchron läuft, kann man während der langsamen Modellverarbeitung andere Dinge tun
  Ich halte das aber nicht für universell. Beeindruckend war es bei Aufgaben, die leicht testbar sind, bei denen man das Ziel sehr gut versteht, aber den genauen Weg dorthin noch nicht festgelegt hat
- Sie bringen einen zwar über die Startlinie, aber sobald man in den Code schaut, sieht man duplizierten Code, vermischte Verantwortlichkeiten, schlechte Struktur und chaotische 10.000-Zeilen-Dateien, die nur Tokens verschlingen
  Ich verwende LLMs, um unstrukturierte Event-Daten mit gemischtem Text/Bild-Inhalt von Websites und aus Social Media zu scrapen, und um zu vertretbaren Kosten wirklich 100 % konsistente Ergebnisse zu bekommen, blieb nichts anderes übrig, als die Arbeit in sehr kleine Teile zu zerlegen und damit den Fehlerbereich stark zu verkleinern
  Bei derzeit mäßig komplexen Aufgaben können Codex/Claude einen Nutzer durchaus bereitwillig in eine teure Sackgasse hineincoden
- Opus 4.5 im November 2025 war für mich wirklich, ganz ohne Ironie, ein echter Wendepunkt und der einzige Grund für den aktuellen Hype
  GPT 5.5 ist gegenüber GPT 5.4 deutlich verbessert, aber ich würde es keinen Wendepunkt nennen
Wenn Leute sagen, „Coding-Agenten sind wirklich gut geworden“, frage ich mich auch nach dem sogenannten „Wendepunkt“ im November 2025 immer noch: für wen genau?
Nach allem, was ich beobachtet habe, sind sie besser geworden bei Tool-Calling und beim Beantworten von Fragen zu großen Codebasen, besonders wenn die zu suchenden Muster vage sind, und dafür sind sie sehr nützlich
Aber Produktionscode zu erzeugen, selbst mit viel Anleitung und Aufsicht, ist meiner Erfahrung nach noch längst nicht drin
In diesem Marketingrausch sollten wir aufhören, darüber in 1-und-0-Begriffen zu sprechen. Die Fähigkeiten von Agenten liegen auf einem kontinuierlichen Spektrum und hängen stark von der Komplexität der Codebasis ab, an der man arbeitet
Ich denke, wir versuchen alle noch herauszufinden, wie man diese Tools im Alltag sinnvoll einsetzt
Das kollidiert aber mit der aktuellen Erzählung, die unsere Arbeit als etwas immer Gleichförmiges und leicht Automatisierbares plattwalzt, obwohl sie das in Wirklichkeit nicht ist
Ich glaube, deshalb ist die Debatte so polarisiert. Es gibt keine geteilte Erfahrung
- Die Polarisierung entsteht, weil verschiedene Menschen beim Einsatz dieser Tools sehr unterschiedliche Coding-Erfahrungen und Ausgabequalitäten erleben
  Meine Erfahrung war zum Beispiel das genaue Gegenteil, und ich habe mit Claude Arbeiten von sehr hoher Qualität erstellt (https://github.com/kstenerud/yoloai)
  Beim Umgang mit Bugs und Eigenheiten der verwendeten Technologien hat der Agent enorm geholfen, diese früh zu entdecken und zu katalogisieren, damit man bei der Implementierung nicht ständig darüber stolpert: https://github.com/kstenerud/yoloai/blob/main/docs/dev/backe...
  Die Agenten werden weiter besser. Allein im letzten Monat waren sie bei Forschung, Design, Architektur und Planungsdokumenten ziemlich stark darin, Probleme vorherzusehen und Implikationen sauber herzuleiten
  In der Coding-Phase ist das meiste dann ein mechanischer Prozess, und selbst wenn ich es an Sonnet abgebe, ist die Fehlerquote minimal
- Es überrascht mich, dass du die neuesten Modelle selbst mit Anleitung und Aufsicht nicht gut genug für Produktionscode findest
  In meiner Erfahrung ist Claude Code, vor allem Opus 4.6, dafür fantastisch. Zumindest in JS, TS, Elixir und Ruby
  Natürlich braucht es Aufsicht, und mein mentales Modell ist nicht „Junior-Entwickler“, sondern eher ein Exoskelett. Aber subjektiv ist es ein extrem starkes Exoskelett, das meine Geschwindigkeit bei den meisten Aufgaben leicht verzehnfacht
  Besonders wichtig: Ich verwende weder --dangerously-skip-permissions noch den Auto-Modus von Claude Code. Ich prüfe jede geschriebene Zeile leicht mit und steuere granular, daher habe ich normalerweise auch nicht mehr als zwei parallel generierende Sessions
  Meine Vermutung ist, dass die Enttäuschung oft dann entsteht, wenn Leute das delegieren und darauf vertrauen wollen, dass es nicht entgleist. Dieses Vertrauen hat es sich bei mir noch nicht verdient, und bisher musste es das auch nicht
  Ich arbeite allerdings meist an kleinen bis mittleren Codebasen mit etwa 20.000 bis 30.000 Zeilen inklusive Tests. Vielleicht ist das ein Faktor für die positiven Erfahrungen
- Dass es beim Coden gut funktioniert, ist einfach sehr ungleich verteilt
  In der Praxis gibt es (a) unzählige kleine Inseln völlig unterschiedlicher Arbeitsweisen im Umgang mit AI und (b) sehr unterschiedliche Engpässe je nach Entwickler und Codebasis/Aufgabe
  Außerdem gibt es in unserer Zeit eine eingebaute Verzerrung: Veränderung = Fortschritt = Produktivität
  Schaut man auf die „Revolution des Network Computing“ von 1990 bis 2000, dann kamen Computer auf jeden Schreibtisch und in jede Tasche und waren für Verwaltungstätigkeiten extrem leistungsfähig
  Aber das Endergebnis war vor allem „Veränderung“. Wir verschicken viel mehr E-Mails als früher Briefe, kommunizieren viel mehr, Sekretärinnen verschwanden, aber die Verwaltung selbst wurde mehr statt weniger
  An Universitäten gibt es typischerweise mehr Verwaltungsangestellte, und Firmen beschäftigen mehr Leute für Buchhaltung, HR und Projektmanagement
  Vielleicht war Verwaltung von Anfang an gar nicht der echte Engpass
  Bei Code ist es oft ähnlich. Jeder hat eine Roadmap und eine Wishlist, und die „Fähigkeit, Code zu produzieren“ sieht wie der Engpass aus
  Aber vielleicht können die meisten Unternehmen gar nicht mehr Wert schaffen, nur weil sie mehr Software bauen
  Viele mittelgroße Firmen, so mein Eindruck, sind eher mit Stack-Migrationen oder Modernisierung beschäftigt. Dass sie einfach massenhaft Features herauspumpen und damit Preise oder Umsatz steigern, höre ich selten
  Die meisten Engpässe liegen nur stromaufwärts eines anderen Engpasses; einen echten „Damm“ gibt es selten
- Ich weiß nicht, ob es einen Wendepunkt gab, aber im letzten Jahr ist es definitiv für mehr als nur Autocomplete nützlich geworden
  Mein jüngstes Privatprojekt ist ein Transpiler von Wasm nach Go, und ich finde es sehr beeindruckend, dass die neuesten Modelle (ich habe Sonnet, Opus und Gemini verwendet, deutlich erfolgreicher als GPT) das Projekt aufnehmen und mit mehreren Ebenen gleichzeitig arbeiten können
  Sie befassen sich mit dem Go-Code, der den Transpiler implementiert (Wasm-Parsing, AST-Aufbau), mit dem generierten Go-Code, der durch Serialisierung des AST in .go-Dateien entsteht, mit Go-Code zur Manipulation des AST für Optimierungen und den Auswirkungen auf den erzeugten Code, mit Go-Code, der an den generierten Code angeflanscht wird, um fortgeschrittenere Instruktionen umzusetzen, und dessen Zusammenspiel mit dem AST, mit dem Ablauf, in dem C-Code zu Wasm kompiliert, nach Go übersetzt und dann in Go aufgerufen wird, mit dem Go-Code, den dieser C-Code aufruft, um die C-Standardbibliothek zu implementieren, und sogar mit WAT/WAST-Dateien für die Wasm-Spec-Tests
  Ich finde das beeindruckend, weil selbst ich ziemlich nachdenken muss, um all diese Ebenen gleichzeitig im Blick zu behalten, und ich vermute, viele Programmierer hätten damit ebenfalls Mühe
  Und oft ist es sehr viel einfacher zu schreiben: „Ich will diesen Code generieren, baue mir also den AST, der genau das tut“, als in Go-Code Klammern zu zählen. Selbst mit etwas LISP-Erfahrung ist das immer noch einfacher
  Code-Review oder Kritik sind willkommen. Es ist kein Vibe Coding, aber mit viel Hilfe durch generative AI
  https://github.com/ncruces/wasm2go
- Gestern war es wirklich spaßig, dass ich dank des normalen 20-Dollar-Abos von Anthropic den ganzen Tag herumspielen konnte, ohne ans Limit zu stoßen
  Es war ein kleines Browser-Spiel, also mit sehr niedrigen Anforderungen an Sicherheit und Perfektion, aber hohen Anforderungen an „das wirklich mal umsetzen“ und „Spaß“ — insofern könnte man es als eine Art Produktionscode sehen
  Der erzeugte Code hatte null Compilerfehler, und selbst wenn ich für einen Task zehn To-dos beschrieben habe, hat das Modell sie alle abgearbeitet
  Um nützlich zu sein, muss es gar nicht viel besser werden. Es ist schon jetzt für Leute, die wie Forscher mathematische Ergebnisse ohnehin verifizieren müssen, aber nicht gut darin sind, Testdaten zu filtern, zu transformieren und Ausführungscode zu schreiben, sehr nützlich
  Auch für kleine Websites, Spaßprojekte oder unterstützende Tools ist es bereits gut
  Gleichzeitig laufen im Hintergrund weiter mehr Compute, bessere Algorithmen, mehr Reinforcement Learning usw.
  Es kann gut sein, dass wir bereits bei 95 % von „AI nimmt Coding-Jobs weg“ angekommen sind, ohne es zu merken — weil die verbleibenden 5 % so wichtig sind
Wahrscheinlich sitzt irgendwo gerade ein menschlicher Künstler und malt ein Bild eines Pelikans auf einem Fahrrad, das dann in den Trainingsdaten eines großen AI-Labors landet
- Moderne Bildgenerierungsmodelle können alle problemlos einen Pelikan auf einem Fahrrad erzeugen
  Der Kern dieses Tests ist, SVG-Text zu erzeugen, der das Bild repräsentiert, und das ist deutlich komplexer
  Man könnte Rasterbilder auch in SVG umwandeln und als Trainingsdaten verwenden, aber das wäre wohl für niemandes Zeit eine gute Nutzung
- Der Qualitätssprung bei Gemini-Pelikanen in nur einer Iteration war so groß, während andere Benchmarks ziemlich flach blieben, dass das schon plausibel sein könnte
  Ich weiß nur nicht, ob sie gezielt auf Pelikane oder einfach auf SVG optimiert haben
Die letzten sechs Monate wirken für mich wie die Zeit, in der die Menschheit die Kontrolle über LLMs verloren hat
Trotz großartiger offener Modelle, die die Einführung lokaler AI hätten abfedern können, gab es eine Eroberung des Speichermarkts, und Werkzeuge zum Abfluss geistigen Eigentums drangen schnell in Unternehmen auf der ganzen Welt ein
Entwickler produzieren inzwischen mehr Code, als sie lesen können
Autonome Agenten saugen die Aufmerksamkeitsökonomie leer, töten Open Source und ruinieren Online-Communities (einschließlich HN), und sie werden auch im Krieg eingesetzt (Zielerfassung, Propaganda usw.)
Es werden massenhaft Schwachstellen entdeckt, und große Supply-Chain-Angriffe folgen Schlag auf Schlag
Mehr Ungleichheit, fragmentierte Wahrnehmung, grüne Kennzahlen und eine düstere Realität zugleich
- Wenn man nur schlechte Nachrichten liest — besonders die, die sich wie im aktuellen Mainstream-News-Zyklus besser verkaufen —, dann kann dieses Bild durchaus entstehen
  Persönlich habe ich aber im Biotech-Bereich Dinge gesehen, die völlig verrückt sind. Es ist kaum zu glauben, dass wir möglicherweise in so einer Zukunft leben
  Echte Therapeutika, die mithilfe von AlphaFold entwickelt wurden, werden bereits in realen klinischen Studien getestet, und die nächste Generation, die in den kommenden drei bis fünf Jahren in die Klinik geht, wird enorm sein
  Später werden wir wahrscheinlich auf die heutige Medizin so zurückblicken, wie wir heute auf das Mittelalter zurückblicken
- Ich denke, der AI-Hype hat nur die Risse im Software Engineering sichtbarer gemacht, die schon immer da waren
  Im Idealfall kommen wir aus diesem Hype-Zyklus mit besseren Praktiken heraus
- Dass massenhaft Schwachstellen gefunden werden, ist etwas Gutes
- Metal Gear Solid 2 war bis 2025 ein seltsames und lustiges Werk
- „Eroberung des Speichermarkts“ — Moment, was soll das heißen?
  Und „Werkzeuge zum Abfluss geistigen Eigentums dringen schnell in Unternehmen weltweit ein“ würde ich eher auf der Plus-Seite verbuchen
  Wenn Dinge aus der Aufmerksamkeitsökonomie verschwinden, ist das für mich fast durchweg ein „gute Reise“
Mich würde interessieren, wie die letzten sechs Monate aus Sicht von Nicht-Programmierern aussahen
Welche Kollaborationstools oder ähnlichen Optimierungen haben Menschen in anderen Bereichen erlebt?
- Ich bin Dozent und leite Ausbildungsprogramme. Mein neuer Chef hat ungefähr 20 Jahre in der Branche gearbeitet und gehört zu den respektiertesten Leuten im Unternehmen
  Er ist vor Kurzem zu unserem Team gestoßen und unterrichtet jetzt mit. In einem laufenden Zwei-Wochen-Kurs sollten wir am ersten Tag AI alle Unterrichtspläne schreiben lassen und diese Pläne anschließend wieder in AI einspeisen, damit daraus Folien werden
  Ich hoffe wirklich, dass er das strikt ablehnt, denn sonst bekommen die Trainees nichts von seiner Erfahrung, seiner Menschlichkeit und dem, was er weitergeben könnte, mit
  Als Dozent bekomme ich alle sechs Monate ein Review, und jedes Mal höre ich dasselbe: „Wie könnten wir AI im Unterricht einsetzen?“
  Man hält es nicht einmal für nötig zu erklären, warum das wünschenswert oder nötig sein soll. Es ist einfach reines Aufspringen auf den Hype
  Unglaublicherweise sind die meisten Kollegen sehr positiv gegenüber AI, aber niemand sagt, wofür sie sie außer bei der Unterrichtsvorbereitung eigentlich nutzen. Man nutzt sie nur, um sich das Denken oder Vorbereiten zu sparen — obwohl das die einzige wirklich wichtige Arbeit in diesem Job ist
  Für mich ergibt das überhaupt keinen Sinn
- In der reinen Mathematik war der Nutzen vor GPT-5.4 sehr begrenzt
  Kluge Leute haben mit Modellen zwar schon etwas erreicht, aber immer nur bei sehr passenden Problemen und ernsthafter Arbeit
  Hausaufgabenaufgaben konnten sie natürlich lösen, aber als Lehrender fühlte sich das eher wie ein Nachteil an
  Seit GPT-5.4 (März 2026) war es aber ein echtes „Wow“-Release. Plötzlich begann es, Fragen auf MathOverflow-Niveau zu beantworten, an denen zuvor selbst Experten hängen geblieben waren
  Halluzinationen gab es zwar weiterhin, aber es war klug genug, seine eingebaute Python-Fähigkeit zu nutzen, um Behauptungen an kleinen Beispielen zu prüfen, wenn das möglich war
  Es scheint deutlich stärker in formelreicher Mathematik zu sein als in abstrakter, „philosophischer“ Mathematik
  GPT-5.5 lieferte bei einem MO-schweren Problem einen faszinierenden, ziemlich nichttrivialen und sehr lehrreichen beweiswürdigen Beweis, wie man ihn in einem Buch finden könnte, und ich schreibe das gerade aus
  Vielleicht war es auch Glück und gutes Prompting. Es fühlte sich nicht wie ein qualitativer Sprung gegenüber 5.4 an, aber quantitative Verbesserungen sind jederzeit willkommen
  Man braucht immer noch passende Probleme, aber es ist viel schwerer geworden, etwas von vornherein als ungeeignet auszuschließen
  Claude und Gemini waren zweite Liga und sind es immer noch. Claude nutze ich für Assistenzaufgaben und gelegentlich findet es auch einen leichten Beweis, meist weil ich etwas Offensichtliches übersehen habe
  Und GPT, etwas weniger auch Claude, ist hervorragend darin, mathematische Fehler zu finden. Bisher gingen vermutlich 90 % meiner Prompts in das Korrekturlesen meiner Texte
- Ich arbeite in einem Unternehmen, das AI in Firmen ausrollt
  Der durchschnittliche Büroangestellte ist von Copilot beeindruckt. Nicht Copilot in der IDE, sondern die mit Windows gebündelte App
  Meist kopieren die Leute Material in das vom Unternehmen bereitgestellte ChatGPT/Gemini und holen sich Tipps von Facebook/Instagram à la „die fünf besten Prompts für Produktivität im Job“
  Wenn man ihnen Agenten zeigt, die in großem Maßstab Arbeitsabläufe automatisieren, wirkt das fast wie Magie
- Für die nichttechnischen Menschen in meinem Umfeld war Claude in Office der Wendepunkt
  Jetzt sehen die Foliensätze aller sauber aus, und das Finanzteam braucht deutlich weniger Unterstützung von BI. Das ist ziemlich beeindruckend
- Im Business nutzt man Kollaborationstools, um E-Mails prüfen und Archivierungsweisen vorschlagen zu lassen, Dateien und Ordner zu verwalten und täglich interessante, relevante Inhalte im Intranet zu durchsuchen
  Privat unterrichtet meine Frau ihre Muttersprache an Grund- und Sekundarschüler, für die diese Sprache nicht die Muttersprache ist, und die Kinder nutzen jetzt alle solche Tools, um neue Übungsinhalte passend zu den schulischen Unterrichtsplänen zu generieren
  Die Fähigkeiten der Kinder verbessern sich jetzt viel schneller als noch vor ein paar Monaten
Wenn man bedenkt, wie bekannt Simons Blog ist, fällt es mir inzwischen schwer, noch sicher zu sagen, dass kein AI-Labor seine Modelle für so eine absurde Aufgabe trainiert hätte
- Auch im Artikel selbst wird eingeräumt, dass „AI-Labore am Ende vielleicht doch darauf aufmerksam geworden sind“ und dass der Pelikan auf dem Fahrrad wohl deutlich über das hinausgewachsen ist, was als nützlicher Benchmark taugt
- Simon sagt später im Artikel, dass es angesichts eines Posts von Jeff Dean, in dem die Pelikan-auf-dem-Fahrrad-Aufgabe erwähnt wurde, und angesichts dessen, wie gut die aktuellen Modelle inzwischen darin sind, kein guter Benchmark mehr ist
  Jetzt ist wohl der Beutelratte auf dem E-Scooter dran
- Das hätte in einem Vortrag wahrscheinlich besser funktioniert. Es war nur ein Aufbau für den Witz, der später kam
- Es ist faktisch zu einem Benchmark geworden. Ein paar meiner Freunde trainieren Modelle inzwischen gezielt darauf, die Anzahl der R in „strawberry“ zu zählen
Wenn ich diesen Thread lese, scheint ein großer Teil der Wendepunkt-Debatte daher zu kommen, dass die Leute aneinander vorbeireden, was genau besser geworden ist
Meine Interpretation wäre: Um November herum gab es keinen großen Sprung in den Fähigkeiten der Modelle selbst, sondern die Harnesses darum herum wurden viel stabiler, und die RLVR-Arbeit Anfang 2025 hat die Modelle darauf trainiert, sich innerhalb dieser Harnesses gut zu verhalten
Als beides zusammenkam, war weder das eine noch das andere für sich genommen dramatisch, aber der kombinierte Effekt fühlte sich wie ein Phasenwechsel an
Das erklärt vielleicht auch, warum die Erfahrungen in diesem Thread so unterschiedlich sind. Wer nur einen Workflow nutzt, in dem er das Modell nach Code fragt und ihn dann einkopiert, wird die Verbesserung eher graduell erlebt haben und sich völlig zu Recht fragen, warum alle so ein Theater machen
Wer dagegen schon Agenten in 20-Schritt-Schleifen laufen ließ, hat wahrscheinlich einen deutlich größeren Unterschied gespürt. Früher bestand das Problem darin, dass ein Fehler in Schritt 12 sich bis Schritt 20 zu Müll aufschaukelte — und genau dieser Teil ist viel besser geworden
Deshalb ist auch Simons kurze Bemerkung zu lokalen Modellen interessant. Dass ein 20-GB-Modell auf einem Laptop einen brauchbaren Pelikan zeichnet, ist für sich genommen nur eine nette Datenkuriosität
Spannend ist vielmehr, dass ein fähiges lokales Modell in einem guten Harness inzwischen Frontier-Performance deutlich näher kommt als ein Frontier-Modell ohne Harness
Ich habe Gemini um ein Video eines „Pelikan[s], der im Hyde Park Einrad fährt“ gebeten, und das Ergebnis hat mich wirklich überrascht
https://gemini.google.com/share/55e250c99693
- Laut Erklärung des Originalautors wird dieser Test verwendet, weil Pelikane schwer zu zeichnen sind, Fahrräder schwer zu zeichnen sind, Pelikane nicht Fahrrad fahren können und kein AI-Labor seine Modelle je für so eine absurde Aufgabe trainieren würde
  An diesem Punkt denke ich eher: Warum sollten konkurrierende AI-Labore diesen inzwischen gut bekannten „Test“ nicht trainieren?
- Grafisch ist es perfekt, aber inhaltlich ergibt es keinen Sinn
  Der Schwerpunkt des Pelikans liegt eindeutig hinter dem Rad. Er müsste über dem Rad oder leicht davor liegen
- Grok war ebenfalls überraschend
  https://grok.com/imagine/post/8d1eab88-737f-4d46-ba92-9b6502...
  Interessant ist, dass Videogenerierung den tretenden Pelikan besser hinbekommt als Bildgenerierung
- Google/Gemini hat audiovisuelle Fähigkeiten, die ziemlich beeindruckend sind
  Ich habe Claude gebeten, auf einem Landschaftsfoto Mulch hinzuzufügen, und es sah aus, als hätte jemand mit dem orangefarbenen Sprühwerkzeug aus MS Paint darübergesprüht
  Nano Banana kam ziemlich nah an die Realität heran
- Wirklich beeindruckend und für Kreative in Film, Animation und Modeling ein wenig beunruhigend
Es hieß, es seien „annotierte Slides für einen etwa fünfminütigen Lightning Talk auf der PyCon US 2026“ erstellt worden — ich würde gern wissen, ob es von diesem Vortrag ein Video oder Audio gibt

Die vergangenen 6 Monate der LLMs in 5 Minuten

Zwei Entwicklungen, die die sechs Monate prägten

Der Wettbewerb der Frontier-Modelle im November

Coding-Agenten durchbrechen die Qualitätsbarriere

Experimente in der Ferienzeit und Überhitzung

OpenClaw und der Boom persönlicher AI-Assistenten

Gemini 3.1 Pro und die Ausweitung des Pelikan-Tests

Open-Weight-Modelle im April

Modelle auf dem Laptop übertreffen die Erwartungen

Verwandte Beiträge

1 Kommentare

Hacker-News-Kommentare