Die vergangenen 6 Monate der LLMs in 5 Minuten
(simonwillison.net)- November 2025 wurde zum Bezugspunkt für die jüngsten Veränderungen bei LLMs, wobei die Praxistauglichkeit von Coding-Agenten und der Aufstieg lokal auf Laptops laufender Modelle im Mittelpunkt standen
- Nach Claude Sonnet 4.5 lieferten sich GPT-5.1, Gemini 3 und Claude Opus 4.5 schnell einen Wettlauf, wobei Opus 4.5 für einige Monate die Führung zu übernehmen schien
- Das Reinforcement Learning from Verifiable Rewards von OpenAI und Anthropic zeigte sich in besserer Codequalität in Harnesses wie Codex und Claude Code
- Experimente in der Ferienzeit brachten interessante Ergebnisse wie micro-javascript hervor, doch wegen Bugs, Geschwindigkeit und Sicherheit blieb der reale Bedarf begrenzt
- Open-Weight-Modelle wie Gemma 4, GLM-5.1 und Qwen3.6-35B-A3B begannen die Erwartungen deutlich zu übertreffen, auch wenn sie schwächer als Frontier-Modelle waren
Zwei Entwicklungen, die die sechs Monate prägten
- Der Wendepunkt im November 2025 ist ein guter Bezugspunkt, um die Veränderungen bei LLMs in den vergangenen sechs Monaten zu betrachten, und war besonders im Coding-Bereich ein wichtiger Monat
- Die zentralen Veränderungen der letzten sechs Monate lassen sich auf zwei Punkte verdichten
- Coding-Agenten wurden gut genug, um für echte Alltagsaufgaben eingesetzt zu werden
- Modelle, die auf einem Laptop laufen, sind zwar schwächer als Frontier-Modelle, begannen die Erwartungen aber deutlich zu übertreffen
- Für Modellvergleiche wurde der Test SVG eines Pelikans auf einem Fahrrad erzeugen verwendet
- Der Hintergrund des Tests: Pelikane sind schwer zu zeichnen, Fahrräder ebenfalls, Pelikane können kein Fahrrad fahren, und es ist unwahrscheinlich, dass irgendein AI-Labor Modelle gezielt für solche Aufgaben trainiert hat
Der Wettbewerb der Frontier-Modelle im November
- Das Modell, das Anfang November weithin als „das beste“ galt, war Claude Sonnet 4.5, veröffentlicht am 29. September
- Danach wechselte der Platz des „besten“ Modells schnell zwischen drei großen Anbietern
- Gemini 3 zeichnete in dieser Vergleichsgruppe den besten Pelikan, aber der Pelikan-Test allein reicht nicht aus, um ein Modell insgesamt zu bewerten
- Claude Opus 4.5 schien danach für einige Monate das führende Modell zu bleiben
Coding-Agenten durchbrechen die Qualitätsbarriere
- Die eigentliche Veränderung im November war die Qualitätssteigerung bei Coding-Agenten
- OpenAI und Anthropic investierten den Großteil des Jahres 2025 in Reinforcement Learning from Verifiable Rewards, um die Qualität von durch Modelle geschriebenem Code zu verbessern
- Diese Verbesserung fiel besonders auf, wenn sie mit Agent-Harnesses wie Codex und Claude Code kombiniert wurde
- Im November gingen Coding-Agenten von „funktioniert manchmal“ zu „funktioniert meistens“ über
- Sie erreichten das Niveau eines Alltagswerkzeugs, dem man reale Aufgaben anvertrauen kann, ohne den Großteil der Zeit mit dem Korrigieren dummer Fehler zu verbringen
Experimente in der Ferienzeit und Überhitzung
- Von Dezember bis Januar nutzten viele Anwender die Ferienzeit, um auszuprobieren, was neue Modelle und Coding-Agenten leisten können
- Modelle und Agenten erledigten vieles, und einige Nutzer begannen, schnell ambitionierte Projekte zu bauen
- micro-javascript war eine lockere Python-Portierung von MicroQuickJS, also eine JavaScript-Implementierung
- Der Browser-Playground war so aufgebaut, dass JavaScript-Code mit der Bibliothek micro-javascript lief, deren Python-Code wiederum in Pyodide, in WebAssembly, in JavaScript und im Browser ausgeführt wurde
- Das Ergebnis war interessant, aber niemand brauchte wirklich eine halbfertige Python-Implementierung von JavaScript, die fehlerhaft, langsam und unsicher ist, und auch andere in diesem Zeitraum gebaute Projekte verschwanden still wieder
OpenClaw und der Boom persönlicher AI-Assistenten
- Ein Repository namens „Warelay“, das Ende November beim ersten Commit noch kaum bekannt war, zog danach schnell Aufmerksamkeit auf sich
- Nach mehreren Umbenennungen zwischen Dezember und Januar bekam es im Februar unter dem endgültigen Namen OpenClaw große Aufmerksamkeit
- OpenClaw ist ein „persönlicher AI-Assistent“, und als Sammelbegriff für Projekte wie NanoClaw und ZeroClaw entstand die Bezeichnung Claws
- Rund um Silicon Valley begannen Mac Minis ausverkauft zu sein, weil Menschen sie kauften, um Claw darauf laufen zu lassen
- Drew Breunig verglich Claw mit einem neuen digitalen Haustier und scherzte, der Mac Mini sei das perfekte Aquarium für Claw
- Als Metapher für Claws wurde Doc Ock genannt, gespielt von Alfred Molina im Film Spider-Man 2 von 2004
- Seine Klauen wurden von AI angetrieben und waren sicher, solange der Inhibitor-Chip nicht beschädigt war; nachdem er beschädigt wurde, wurden sie böse und übernahmen die Kontrolle über ihn
Gemini 3.1 Pro und die Ausweitung des Pelikan-Tests
- Im Februar wurde Gemini 3.1 Pro veröffentlicht und zeichnete einen Pelikan auf einem Fahrrad sehr gut
- Das Ergebnis enthielt sogar einen Fisch im Korb
- Googles Jeff Dean veröffentlichte ein animiertes Video eines Pelikans auf einem Fahrrad
- Das gleiche Video zeigte auch einen Frosch auf einem Hochrad, eine Giraffe am Steuer eines kleinen Autos, einen Strauß auf Rollschuhen, eine Schildkröte, die auf einem Skateboard einen Kickflip macht, und einen Dackel, der eine Stretchlimousine fährt
- Das Ergebnis ließ scherzhaft daran denken, dass AI-Labore vielleicht sogar seltsamen Aufgaben wie dem Pelikan-Test Aufmerksamkeit geschenkt haben könnten
Open-Weight-Modelle im April
- Google veröffentlichte die Modellreihe Gemma 4
- Gemma 4 wurde als das leistungsfähigste Open-Weight-Modell eingeschätzt, das man von einem US-Unternehmen gesehen hatte
- Das chinesische AI-Labor GLM veröffentlichte GLM-5.1
- GLM-5.1 ist ein Open-Weight-Modell mit 1,5 TB Größe
- Wenn man die Hardware für den Betrieb aufbringen kann, ist es ein sehr leistungsfähiges Modell
- GLM-5.1 zeichnete einen Pelikan auf einem Fahrrad recht geschickt, aber beim Animationsversuch sprang das Fahrrad nach oben und verzerrte sich
- Bei der von Charles auf Bluesky vorgeschlagenen Aufgabe „North-Virginia-Opossum auf einem E-Scooter“ lieferte es ein Ergebnis, an das andere Modelle nicht herankamen
- Der Satz „Cruising the commonwealth since dusk“ war im Ergebnis enthalten
- Das Resultat ist auch als Animation verfügbar
Modelle auf dem Laptop übertreffen die Erwartungen
- Ein weiteres bemerkenswertes chinesisches Open-Weight-Modell im April kam von Qwen
- Qwen3.6-35B-A3B zeichnete auf einem Laptop einen besseren Pelikan als Claude Opus 4.7
- Dieses Modell ist ein 20,9-GB-Open-Weight-Modell und kann auf einem Laptop ausgeführt werden
- Dieses Ergebnis zeigte auch, dass „ein Pelikan auf einem Fahrrad“ seine Grenzen als nützlicher Benchmark bereits überschritten hat
- Modelle, die auf einem Laptop laufen können, sind zwar deutlich schwächer als Frontier-Modelle, haben in den letzten sechs Monaten aber begonnen, die Erwartungen klar zu übertreffen
1 Kommentare
Hacker-News-Kommentare
Viele sagen, dieser Pelikan-auf-dem-Fahrrad-Test sei eine absurde Metrik, aber offenbar erinnern sich nicht viele daran, dass er tatsächlich schon vor etwa drei Jahren im frühen Microsoft-GPT-Bericht „Sparks of Artificial General Intelligence: Early experiments with GPT-4“ [1] vorgestellt wurde
Direkt danach wurde er von einem Netzwerk aus Promo-Accounts weiterverbreitet und ist seither genau das geworden, was AI-Hype-Leute jedes Mal verwenden, wenn sie Modelle „testen“
100 % Marketing, 0 % Wissenschaft
[1] https://arxiv.org/pdf/2303.12712
Ich kenne keinen konkreten Fall [1], in dem im Paper genau der Prompt „Pelikan auf einem Fahrrad“ getestet wurde, aber im GPT-Paper gab es mehrere SVG- und tikz-Tests, und die tatsächlichen Bilder wirken ziemlich beliebig
Es ist zwar nicht wünschenswert, auf ein einzelnes Bild hin zu optimieren, aber wenn das Training halbwegs ordentlich gelaufen ist, sollte ein Pelikan auf einem Fahrrad eigentlich nicht so schwierig sein, und auf mehreren Seiten von [0] gibt es durchaus einige ziemlich gute Beispiele
[0] https://simonwillison.net/tags/pelican-riding-a-bicycle/?pag...
[1] Wegen Simons Bekanntheit wird es sicher irgendwo etwas dazu geben
Gerade eben mit ChatGPTs Standardmodell (5.5) getestet: Der alte Mann fährt ein altes Fahrrad, aber das Fahrrad steht auf einem lockeren Seil, das über den Fluss gespannt ist, mit einer mittelalterlichen Stadt im Hintergrund
Der Kern ist, dass der Prompt eine subtile Mehrdeutigkeit enthält. Bei der Frage „Wie überquert der alte Mann den Fluss?“ stellen sich die meisten Menschen wohl sofort eine gewöhnliche Brücke mit einer Straße darüber vor und entsprechend einen Fluss in einer Gegend, die entwickelt genug für so eine Brücke ist
Deshalb denke ich, dass diese Modelle zwar immer besser darin werden, etwas zu finden oder zu erzeugen, das die Bedingungen ungefähr erfüllt, aber immer noch dort scheitern, wo Menschen ganz natürlich vernünftige Annahmen aus dem Alltagswissen ergänzen würden
Ich frage mich, ob dieser „Wendepunkt“ ein reales Phänomen oder eher Marketing ist
Die Modelle sind sicher etwas besser geworden, aber wenn ich selbst mit den neuesten Modellen (Codex + gpt5.5, Kombinationen mit gpt5.3-codex) versuche, ein Spiel per Vibe Coding zu bauen, tun sie sich immer noch ziemlich schwer
Sie erstellen zwar zuverlässig ein Grundgerüst, das läuft, aber bis zu einer ausgereiften Anwendung ist es noch ein weiter Weg
Ich habe zwar einmal etwas geschrieben, um zu lernen, wie die Enigma-Maschine funktioniert, aber das war zu Lernzwecken
Beruflich gesehen habe ich seit November mit dem Coden aufgehört
Wenn für einen bestimmten Einsatzfall ein Schwellenwert von „gut genug“ überschritten wird, öffnen sich plötzlich neue Möglichkeiten
Alte Nagelpistolen waren schwer, brauchten dicke Stromkabel und waren sehr teuer
Als sie leichter und billiger wurden und Akkupacks bekamen, passten sie ab einem gewissen Punkt ganz natürlich in den Arbeitsablauf von Dachdeckern und steigerten das Arbeitspensum dramatisch
Weitere Verbesserungen an der Grenze müssen danach nicht mehr dieselbe Art von „Freischaltung“ bewirken, weil die Schwelle bereits überschritten wurde
Entscheidend war, früh viel Zeit in ein übergreifendes Designdokument zu investieren und es in konkrete, begrenzte Schritte herunterzubrechen
Dieses Dokument habe ich zwischen beiden Modellen hin- und hergereicht und so lange verfeinert, bis beide zufrieden waren
Für jeden Schritt wurde ein Implementierungsplan erstellt, und nach Abschluss blieb ein Zusammenfassungsdokument zurück: was geliefert wurde und was entdeckt wurde. Das wurde dann zum Input für den nächsten Schritt
Ich habe die Dokumente und die tatsächliche Arbeit überprüft, Tests angesehen und manches detaillierter geprüft. Auch ob mir die Codestruktur gefiel, habe ich stichprobenartig kontrolliert
Meistens habe ich Claude fürs Coden und Codex für Design und schrittweise Code-Reviews verwendet und beide nach jedem Schritt die Testabdeckung prüfen lassen
So habe ich Tools und Libraries implementiert, ohne selbst eine Zeile Code zu schreiben, und es war tatsächlich ziemlich nützlich
Weil das asynchron läuft, kann man während der langsamen Modellverarbeitung andere Dinge tun
Ich halte das aber nicht für universell. Beeindruckend war es bei Aufgaben, die leicht testbar sind, bei denen man das Ziel sehr gut versteht, aber den genauen Weg dorthin noch nicht festgelegt hat
Ich verwende LLMs, um unstrukturierte Event-Daten mit gemischtem Text/Bild-Inhalt von Websites und aus Social Media zu scrapen, und um zu vertretbaren Kosten wirklich 100 % konsistente Ergebnisse zu bekommen, blieb nichts anderes übrig, als die Arbeit in sehr kleine Teile zu zerlegen und damit den Fehlerbereich stark zu verkleinern
Bei derzeit mäßig komplexen Aufgaben können Codex/Claude einen Nutzer durchaus bereitwillig in eine teure Sackgasse hineincoden
GPT 5.5 ist gegenüber GPT 5.4 deutlich verbessert, aber ich würde es keinen Wendepunkt nennen
Wenn Leute sagen, „Coding-Agenten sind wirklich gut geworden“, frage ich mich auch nach dem sogenannten „Wendepunkt“ im November 2025 immer noch: für wen genau?
Nach allem, was ich beobachtet habe, sind sie besser geworden bei Tool-Calling und beim Beantworten von Fragen zu großen Codebasen, besonders wenn die zu suchenden Muster vage sind, und dafür sind sie sehr nützlich
Aber Produktionscode zu erzeugen, selbst mit viel Anleitung und Aufsicht, ist meiner Erfahrung nach noch längst nicht drin
In diesem Marketingrausch sollten wir aufhören, darüber in 1-und-0-Begriffen zu sprechen. Die Fähigkeiten von Agenten liegen auf einem kontinuierlichen Spektrum und hängen stark von der Komplexität der Codebasis ab, an der man arbeitet
Ich denke, wir versuchen alle noch herauszufinden, wie man diese Tools im Alltag sinnvoll einsetzt
Das kollidiert aber mit der aktuellen Erzählung, die unsere Arbeit als etwas immer Gleichförmiges und leicht Automatisierbares plattwalzt, obwohl sie das in Wirklichkeit nicht ist
Ich glaube, deshalb ist die Debatte so polarisiert. Es gibt keine geteilte Erfahrung
Meine Erfahrung war zum Beispiel das genaue Gegenteil, und ich habe mit Claude Arbeiten von sehr hoher Qualität erstellt (https://github.com/kstenerud/yoloai)
Beim Umgang mit Bugs und Eigenheiten der verwendeten Technologien hat der Agent enorm geholfen, diese früh zu entdecken und zu katalogisieren, damit man bei der Implementierung nicht ständig darüber stolpert: https://github.com/kstenerud/yoloai/blob/main/docs/dev/backe...
Die Agenten werden weiter besser. Allein im letzten Monat waren sie bei Forschung, Design, Architektur und Planungsdokumenten ziemlich stark darin, Probleme vorherzusehen und Implikationen sauber herzuleiten
In der Coding-Phase ist das meiste dann ein mechanischer Prozess, und selbst wenn ich es an Sonnet abgebe, ist die Fehlerquote minimal
In meiner Erfahrung ist Claude Code, vor allem Opus 4.6, dafür fantastisch. Zumindest in JS, TS, Elixir und Ruby
Natürlich braucht es Aufsicht, und mein mentales Modell ist nicht „Junior-Entwickler“, sondern eher ein Exoskelett. Aber subjektiv ist es ein extrem starkes Exoskelett, das meine Geschwindigkeit bei den meisten Aufgaben leicht verzehnfacht
Besonders wichtig: Ich verwende weder
--dangerously-skip-permissionsnoch den Auto-Modus von Claude Code. Ich prüfe jede geschriebene Zeile leicht mit und steuere granular, daher habe ich normalerweise auch nicht mehr als zwei parallel generierende SessionsMeine Vermutung ist, dass die Enttäuschung oft dann entsteht, wenn Leute das delegieren und darauf vertrauen wollen, dass es nicht entgleist. Dieses Vertrauen hat es sich bei mir noch nicht verdient, und bisher musste es das auch nicht
Ich arbeite allerdings meist an kleinen bis mittleren Codebasen mit etwa 20.000 bis 30.000 Zeilen inklusive Tests. Vielleicht ist das ein Faktor für die positiven Erfahrungen
In der Praxis gibt es (a) unzählige kleine Inseln völlig unterschiedlicher Arbeitsweisen im Umgang mit AI und (b) sehr unterschiedliche Engpässe je nach Entwickler und Codebasis/Aufgabe
Außerdem gibt es in unserer Zeit eine eingebaute Verzerrung: Veränderung = Fortschritt = Produktivität
Schaut man auf die „Revolution des Network Computing“ von 1990 bis 2000, dann kamen Computer auf jeden Schreibtisch und in jede Tasche und waren für Verwaltungstätigkeiten extrem leistungsfähig
Aber das Endergebnis war vor allem „Veränderung“. Wir verschicken viel mehr E-Mails als früher Briefe, kommunizieren viel mehr, Sekretärinnen verschwanden, aber die Verwaltung selbst wurde mehr statt weniger
An Universitäten gibt es typischerweise mehr Verwaltungsangestellte, und Firmen beschäftigen mehr Leute für Buchhaltung, HR und Projektmanagement
Vielleicht war Verwaltung von Anfang an gar nicht der echte Engpass
Bei Code ist es oft ähnlich. Jeder hat eine Roadmap und eine Wishlist, und die „Fähigkeit, Code zu produzieren“ sieht wie der Engpass aus
Aber vielleicht können die meisten Unternehmen gar nicht mehr Wert schaffen, nur weil sie mehr Software bauen
Viele mittelgroße Firmen, so mein Eindruck, sind eher mit Stack-Migrationen oder Modernisierung beschäftigt. Dass sie einfach massenhaft Features herauspumpen und damit Preise oder Umsatz steigern, höre ich selten
Die meisten Engpässe liegen nur stromaufwärts eines anderen Engpasses; einen echten „Damm“ gibt es selten
Mein jüngstes Privatprojekt ist ein Transpiler von Wasm nach Go, und ich finde es sehr beeindruckend, dass die neuesten Modelle (ich habe Sonnet, Opus und Gemini verwendet, deutlich erfolgreicher als GPT) das Projekt aufnehmen und mit mehreren Ebenen gleichzeitig arbeiten können
Sie befassen sich mit dem Go-Code, der den Transpiler implementiert (Wasm-Parsing, AST-Aufbau), mit dem generierten Go-Code, der durch Serialisierung des AST in
.go-Dateien entsteht, mit Go-Code zur Manipulation des AST für Optimierungen und den Auswirkungen auf den erzeugten Code, mit Go-Code, der an den generierten Code angeflanscht wird, um fortgeschrittenere Instruktionen umzusetzen, und dessen Zusammenspiel mit dem AST, mit dem Ablauf, in dem C-Code zu Wasm kompiliert, nach Go übersetzt und dann in Go aufgerufen wird, mit dem Go-Code, den dieser C-Code aufruft, um die C-Standardbibliothek zu implementieren, und sogar mit WAT/WAST-Dateien für die Wasm-Spec-TestsIch finde das beeindruckend, weil selbst ich ziemlich nachdenken muss, um all diese Ebenen gleichzeitig im Blick zu behalten, und ich vermute, viele Programmierer hätten damit ebenfalls Mühe
Und oft ist es sehr viel einfacher zu schreiben: „Ich will diesen Code generieren, baue mir also den AST, der genau das tut“, als in Go-Code Klammern zu zählen. Selbst mit etwas LISP-Erfahrung ist das immer noch einfacher
Code-Review oder Kritik sind willkommen. Es ist kein Vibe Coding, aber mit viel Hilfe durch generative AI
https://github.com/ncruces/wasm2go
Es war ein kleines Browser-Spiel, also mit sehr niedrigen Anforderungen an Sicherheit und Perfektion, aber hohen Anforderungen an „das wirklich mal umsetzen“ und „Spaß“ — insofern könnte man es als eine Art Produktionscode sehen
Der erzeugte Code hatte null Compilerfehler, und selbst wenn ich für einen Task zehn To-dos beschrieben habe, hat das Modell sie alle abgearbeitet
Um nützlich zu sein, muss es gar nicht viel besser werden. Es ist schon jetzt für Leute, die wie Forscher mathematische Ergebnisse ohnehin verifizieren müssen, aber nicht gut darin sind, Testdaten zu filtern, zu transformieren und Ausführungscode zu schreiben, sehr nützlich
Auch für kleine Websites, Spaßprojekte oder unterstützende Tools ist es bereits gut
Gleichzeitig laufen im Hintergrund weiter mehr Compute, bessere Algorithmen, mehr Reinforcement Learning usw.
Es kann gut sein, dass wir bereits bei 95 % von „AI nimmt Coding-Jobs weg“ angekommen sind, ohne es zu merken — weil die verbleibenden 5 % so wichtig sind
Wahrscheinlich sitzt irgendwo gerade ein menschlicher Künstler und malt ein Bild eines Pelikans auf einem Fahrrad, das dann in den Trainingsdaten eines großen AI-Labors landet
Der Kern dieses Tests ist, SVG-Text zu erzeugen, der das Bild repräsentiert, und das ist deutlich komplexer
Man könnte Rasterbilder auch in SVG umwandeln und als Trainingsdaten verwenden, aber das wäre wohl für niemandes Zeit eine gute Nutzung
Ich weiß nur nicht, ob sie gezielt auf Pelikane oder einfach auf SVG optimiert haben
Die letzten sechs Monate wirken für mich wie die Zeit, in der die Menschheit die Kontrolle über LLMs verloren hat
Trotz großartiger offener Modelle, die die Einführung lokaler AI hätten abfedern können, gab es eine Eroberung des Speichermarkts, und Werkzeuge zum Abfluss geistigen Eigentums drangen schnell in Unternehmen auf der ganzen Welt ein
Entwickler produzieren inzwischen mehr Code, als sie lesen können
Autonome Agenten saugen die Aufmerksamkeitsökonomie leer, töten Open Source und ruinieren Online-Communities (einschließlich HN), und sie werden auch im Krieg eingesetzt (Zielerfassung, Propaganda usw.)
Es werden massenhaft Schwachstellen entdeckt, und große Supply-Chain-Angriffe folgen Schlag auf Schlag
Mehr Ungleichheit, fragmentierte Wahrnehmung, grüne Kennzahlen und eine düstere Realität zugleich
Persönlich habe ich aber im Biotech-Bereich Dinge gesehen, die völlig verrückt sind. Es ist kaum zu glauben, dass wir möglicherweise in so einer Zukunft leben
Echte Therapeutika, die mithilfe von AlphaFold entwickelt wurden, werden bereits in realen klinischen Studien getestet, und die nächste Generation, die in den kommenden drei bis fünf Jahren in die Klinik geht, wird enorm sein
Später werden wir wahrscheinlich auf die heutige Medizin so zurückblicken, wie wir heute auf das Mittelalter zurückblicken
Im Idealfall kommen wir aus diesem Hype-Zyklus mit besseren Praktiken heraus
Und „Werkzeuge zum Abfluss geistigen Eigentums dringen schnell in Unternehmen weltweit ein“ würde ich eher auf der Plus-Seite verbuchen
Wenn Dinge aus der Aufmerksamkeitsökonomie verschwinden, ist das für mich fast durchweg ein „gute Reise“
Mich würde interessieren, wie die letzten sechs Monate aus Sicht von Nicht-Programmierern aussahen
Welche Kollaborationstools oder ähnlichen Optimierungen haben Menschen in anderen Bereichen erlebt?
Er ist vor Kurzem zu unserem Team gestoßen und unterrichtet jetzt mit. In einem laufenden Zwei-Wochen-Kurs sollten wir am ersten Tag AI alle Unterrichtspläne schreiben lassen und diese Pläne anschließend wieder in AI einspeisen, damit daraus Folien werden
Ich hoffe wirklich, dass er das strikt ablehnt, denn sonst bekommen die Trainees nichts von seiner Erfahrung, seiner Menschlichkeit und dem, was er weitergeben könnte, mit
Als Dozent bekomme ich alle sechs Monate ein Review, und jedes Mal höre ich dasselbe: „Wie könnten wir AI im Unterricht einsetzen?“
Man hält es nicht einmal für nötig zu erklären, warum das wünschenswert oder nötig sein soll. Es ist einfach reines Aufspringen auf den Hype
Unglaublicherweise sind die meisten Kollegen sehr positiv gegenüber AI, aber niemand sagt, wofür sie sie außer bei der Unterrichtsvorbereitung eigentlich nutzen. Man nutzt sie nur, um sich das Denken oder Vorbereiten zu sparen — obwohl das die einzige wirklich wichtige Arbeit in diesem Job ist
Für mich ergibt das überhaupt keinen Sinn
Kluge Leute haben mit Modellen zwar schon etwas erreicht, aber immer nur bei sehr passenden Problemen und ernsthafter Arbeit
Hausaufgabenaufgaben konnten sie natürlich lösen, aber als Lehrender fühlte sich das eher wie ein Nachteil an
Seit GPT-5.4 (März 2026) war es aber ein echtes „Wow“-Release. Plötzlich begann es, Fragen auf MathOverflow-Niveau zu beantworten, an denen zuvor selbst Experten hängen geblieben waren
Halluzinationen gab es zwar weiterhin, aber es war klug genug, seine eingebaute Python-Fähigkeit zu nutzen, um Behauptungen an kleinen Beispielen zu prüfen, wenn das möglich war
Es scheint deutlich stärker in formelreicher Mathematik zu sein als in abstrakter, „philosophischer“ Mathematik
GPT-5.5 lieferte bei einem MO-schweren Problem einen faszinierenden, ziemlich nichttrivialen und sehr lehrreichen beweiswürdigen Beweis, wie man ihn in einem Buch finden könnte, und ich schreibe das gerade aus
Vielleicht war es auch Glück und gutes Prompting. Es fühlte sich nicht wie ein qualitativer Sprung gegenüber 5.4 an, aber quantitative Verbesserungen sind jederzeit willkommen
Man braucht immer noch passende Probleme, aber es ist viel schwerer geworden, etwas von vornherein als ungeeignet auszuschließen
Claude und Gemini waren zweite Liga und sind es immer noch. Claude nutze ich für Assistenzaufgaben und gelegentlich findet es auch einen leichten Beweis, meist weil ich etwas Offensichtliches übersehen habe
Und GPT, etwas weniger auch Claude, ist hervorragend darin, mathematische Fehler zu finden. Bisher gingen vermutlich 90 % meiner Prompts in das Korrekturlesen meiner Texte
Der durchschnittliche Büroangestellte ist von Copilot beeindruckt. Nicht Copilot in der IDE, sondern die mit Windows gebündelte App
Meist kopieren die Leute Material in das vom Unternehmen bereitgestellte ChatGPT/Gemini und holen sich Tipps von Facebook/Instagram à la „die fünf besten Prompts für Produktivität im Job“
Wenn man ihnen Agenten zeigt, die in großem Maßstab Arbeitsabläufe automatisieren, wirkt das fast wie Magie
Jetzt sehen die Foliensätze aller sauber aus, und das Finanzteam braucht deutlich weniger Unterstützung von BI. Das ist ziemlich beeindruckend
Privat unterrichtet meine Frau ihre Muttersprache an Grund- und Sekundarschüler, für die diese Sprache nicht die Muttersprache ist, und die Kinder nutzen jetzt alle solche Tools, um neue Übungsinhalte passend zu den schulischen Unterrichtsplänen zu generieren
Die Fähigkeiten der Kinder verbessern sich jetzt viel schneller als noch vor ein paar Monaten
Wenn man bedenkt, wie bekannt Simons Blog ist, fällt es mir inzwischen schwer, noch sicher zu sagen, dass kein AI-Labor seine Modelle für so eine absurde Aufgabe trainiert hätte
Jetzt ist wohl der Beutelratte auf dem E-Scooter dran
Wenn ich diesen Thread lese, scheint ein großer Teil der Wendepunkt-Debatte daher zu kommen, dass die Leute aneinander vorbeireden, was genau besser geworden ist
Meine Interpretation wäre: Um November herum gab es keinen großen Sprung in den Fähigkeiten der Modelle selbst, sondern die Harnesses darum herum wurden viel stabiler, und die RLVR-Arbeit Anfang 2025 hat die Modelle darauf trainiert, sich innerhalb dieser Harnesses gut zu verhalten
Als beides zusammenkam, war weder das eine noch das andere für sich genommen dramatisch, aber der kombinierte Effekt fühlte sich wie ein Phasenwechsel an
Das erklärt vielleicht auch, warum die Erfahrungen in diesem Thread so unterschiedlich sind. Wer nur einen Workflow nutzt, in dem er das Modell nach Code fragt und ihn dann einkopiert, wird die Verbesserung eher graduell erlebt haben und sich völlig zu Recht fragen, warum alle so ein Theater machen
Wer dagegen schon Agenten in 20-Schritt-Schleifen laufen ließ, hat wahrscheinlich einen deutlich größeren Unterschied gespürt. Früher bestand das Problem darin, dass ein Fehler in Schritt 12 sich bis Schritt 20 zu Müll aufschaukelte — und genau dieser Teil ist viel besser geworden
Deshalb ist auch Simons kurze Bemerkung zu lokalen Modellen interessant. Dass ein 20-GB-Modell auf einem Laptop einen brauchbaren Pelikan zeichnet, ist für sich genommen nur eine nette Datenkuriosität
Spannend ist vielmehr, dass ein fähiges lokales Modell in einem guten Harness inzwischen Frontier-Performance deutlich näher kommt als ein Frontier-Modell ohne Harness
Ich habe Gemini um ein Video eines „Pelikan[s], der im Hyde Park Einrad fährt“ gebeten, und das Ergebnis hat mich wirklich überrascht
https://gemini.google.com/share/55e250c99693
An diesem Punkt denke ich eher: Warum sollten konkurrierende AI-Labore diesen inzwischen gut bekannten „Test“ nicht trainieren?
Der Schwerpunkt des Pelikans liegt eindeutig hinter dem Rad. Er müsste über dem Rad oder leicht davor liegen
https://grok.com/imagine/post/8d1eab88-737f-4d46-ba92-9b6502...
Interessant ist, dass Videogenerierung den tretenden Pelikan besser hinbekommt als Bildgenerierung
Ich habe Claude gebeten, auf einem Landschaftsfoto Mulch hinzuzufügen, und es sah aus, als hätte jemand mit dem orangefarbenen Sprühwerkzeug aus MS Paint darübergesprüht
Nano Banana kam ziemlich nah an die Realität heran
Es hieß, es seien „annotierte Slides für einen etwa fünfminütigen Lightning Talk auf der PyCon US 2026“ erstellt worden — ich würde gern wissen, ob es von diesem Vortrag ein Video oder Audio gibt