6 Punkte von GN⁺ 1 일 전 | 1 Kommentare | Auf WhatsApp teilen
  • November 2025 wurde zum Bezugspunkt für die jüngsten Veränderungen bei LLMs, wobei die Praxistauglichkeit von Coding-Agenten und der Aufstieg lokal auf Laptops laufender Modelle im Mittelpunkt standen
  • Nach Claude Sonnet 4.5 lieferten sich GPT-5.1, Gemini 3 und Claude Opus 4.5 schnell einen Wettlauf, wobei Opus 4.5 für einige Monate die Führung zu übernehmen schien
  • Das Reinforcement Learning from Verifiable Rewards von OpenAI und Anthropic zeigte sich in besserer Codequalität in Harnesses wie Codex und Claude Code
  • Experimente in der Ferienzeit brachten interessante Ergebnisse wie micro-javascript hervor, doch wegen Bugs, Geschwindigkeit und Sicherheit blieb der reale Bedarf begrenzt
  • Open-Weight-Modelle wie Gemma 4, GLM-5.1 und Qwen3.6-35B-A3B begannen die Erwartungen deutlich zu übertreffen, auch wenn sie schwächer als Frontier-Modelle waren

Zwei Entwicklungen, die die sechs Monate prägten

  • Der Wendepunkt im November 2025 ist ein guter Bezugspunkt, um die Veränderungen bei LLMs in den vergangenen sechs Monaten zu betrachten, und war besonders im Coding-Bereich ein wichtiger Monat
  • Die zentralen Veränderungen der letzten sechs Monate lassen sich auf zwei Punkte verdichten
    • Coding-Agenten wurden gut genug, um für echte Alltagsaufgaben eingesetzt zu werden
    • Modelle, die auf einem Laptop laufen, sind zwar schwächer als Frontier-Modelle, begannen die Erwartungen aber deutlich zu übertreffen
  • Für Modellvergleiche wurde der Test SVG eines Pelikans auf einem Fahrrad erzeugen verwendet
    • Der Hintergrund des Tests: Pelikane sind schwer zu zeichnen, Fahrräder ebenfalls, Pelikane können kein Fahrrad fahren, und es ist unwahrscheinlich, dass irgendein AI-Labor Modelle gezielt für solche Aufgaben trainiert hat

Der Wettbewerb der Frontier-Modelle im November

  • Das Modell, das Anfang November weithin als „das beste“ galt, war Claude Sonnet 4.5, veröffentlicht am 29. September
  • Danach wechselte der Platz des „besten“ Modells schnell zwischen drei großen Anbietern
  • Gemini 3 zeichnete in dieser Vergleichsgruppe den besten Pelikan, aber der Pelikan-Test allein reicht nicht aus, um ein Modell insgesamt zu bewerten
  • Claude Opus 4.5 schien danach für einige Monate das führende Modell zu bleiben

Coding-Agenten durchbrechen die Qualitätsbarriere

  • Die eigentliche Veränderung im November war die Qualitätssteigerung bei Coding-Agenten
  • OpenAI und Anthropic investierten den Großteil des Jahres 2025 in Reinforcement Learning from Verifiable Rewards, um die Qualität von durch Modelle geschriebenem Code zu verbessern
  • Diese Verbesserung fiel besonders auf, wenn sie mit Agent-Harnesses wie Codex und Claude Code kombiniert wurde
  • Im November gingen Coding-Agenten von „funktioniert manchmal“ zu „funktioniert meistens“ über
  • Sie erreichten das Niveau eines Alltagswerkzeugs, dem man reale Aufgaben anvertrauen kann, ohne den Großteil der Zeit mit dem Korrigieren dummer Fehler zu verbringen

Experimente in der Ferienzeit und Überhitzung

  • Von Dezember bis Januar nutzten viele Anwender die Ferienzeit, um auszuprobieren, was neue Modelle und Coding-Agenten leisten können
  • Modelle und Agenten erledigten vieles, und einige Nutzer begannen, schnell ambitionierte Projekte zu bauen
  • micro-javascript war eine lockere Python-Portierung von MicroQuickJS, also eine JavaScript-Implementierung
  • Der Browser-Playground war so aufgebaut, dass JavaScript-Code mit der Bibliothek micro-javascript lief, deren Python-Code wiederum in Pyodide, in WebAssembly, in JavaScript und im Browser ausgeführt wurde
  • Das Ergebnis war interessant, aber niemand brauchte wirklich eine halbfertige Python-Implementierung von JavaScript, die fehlerhaft, langsam und unsicher ist, und auch andere in diesem Zeitraum gebaute Projekte verschwanden still wieder

OpenClaw und der Boom persönlicher AI-Assistenten

  • Ein Repository namens „Warelay“, das Ende November beim ersten Commit noch kaum bekannt war, zog danach schnell Aufmerksamkeit auf sich
  • Nach mehreren Umbenennungen zwischen Dezember und Januar bekam es im Februar unter dem endgültigen Namen OpenClaw große Aufmerksamkeit
  • OpenClaw ist ein „persönlicher AI-Assistent“, und als Sammelbegriff für Projekte wie NanoClaw und ZeroClaw entstand die Bezeichnung Claws
  • Rund um Silicon Valley begannen Mac Minis ausverkauft zu sein, weil Menschen sie kauften, um Claw darauf laufen zu lassen
  • Drew Breunig verglich Claw mit einem neuen digitalen Haustier und scherzte, der Mac Mini sei das perfekte Aquarium für Claw
  • Als Metapher für Claws wurde Doc Ock genannt, gespielt von Alfred Molina im Film Spider-Man 2 von 2004
    • Seine Klauen wurden von AI angetrieben und waren sicher, solange der Inhibitor-Chip nicht beschädigt war; nachdem er beschädigt wurde, wurden sie böse und übernahmen die Kontrolle über ihn

Gemini 3.1 Pro und die Ausweitung des Pelikan-Tests

  • Im Februar wurde Gemini 3.1 Pro veröffentlicht und zeichnete einen Pelikan auf einem Fahrrad sehr gut
  • Das Ergebnis enthielt sogar einen Fisch im Korb
  • Googles Jeff Dean veröffentlichte ein animiertes Video eines Pelikans auf einem Fahrrad
  • Das gleiche Video zeigte auch einen Frosch auf einem Hochrad, eine Giraffe am Steuer eines kleinen Autos, einen Strauß auf Rollschuhen, eine Schildkröte, die auf einem Skateboard einen Kickflip macht, und einen Dackel, der eine Stretchlimousine fährt
  • Das Ergebnis ließ scherzhaft daran denken, dass AI-Labore vielleicht sogar seltsamen Aufgaben wie dem Pelikan-Test Aufmerksamkeit geschenkt haben könnten

Open-Weight-Modelle im April

  • Google veröffentlichte die Modellreihe Gemma 4
  • Gemma 4 wurde als das leistungsfähigste Open-Weight-Modell eingeschätzt, das man von einem US-Unternehmen gesehen hatte
  • Das chinesische AI-Labor GLM veröffentlichte GLM-5.1
    • GLM-5.1 ist ein Open-Weight-Modell mit 1,5 TB Größe
    • Wenn man die Hardware für den Betrieb aufbringen kann, ist es ein sehr leistungsfähiges Modell
  • GLM-5.1 zeichnete einen Pelikan auf einem Fahrrad recht geschickt, aber beim Animationsversuch sprang das Fahrrad nach oben und verzerrte sich
  • Bei der von Charles auf Bluesky vorgeschlagenen Aufgabe „North-Virginia-Opossum auf einem E-Scooter“ lieferte es ein Ergebnis, an das andere Modelle nicht herankamen
    • Der Satz „Cruising the commonwealth since dusk“ war im Ergebnis enthalten
    • Das Resultat ist auch als Animation verfügbar

Modelle auf dem Laptop übertreffen die Erwartungen

  • Ein weiteres bemerkenswertes chinesisches Open-Weight-Modell im April kam von Qwen
  • Qwen3.6-35B-A3B zeichnete auf einem Laptop einen besseren Pelikan als Claude Opus 4.7
  • Dieses Modell ist ein 20,9-GB-Open-Weight-Modell und kann auf einem Laptop ausgeführt werden
  • Dieses Ergebnis zeigte auch, dass „ein Pelikan auf einem Fahrrad“ seine Grenzen als nützlicher Benchmark bereits überschritten hat
  • Modelle, die auf einem Laptop laufen können, sind zwar deutlich schwächer als Frontier-Modelle, haben in den letzten sechs Monaten aber begonnen, die Erwartungen klar zu übertreffen

1 Kommentare

 
GN⁺ 1 일 전
Hacker-News-Kommentare
  • Viele sagen, dieser Pelikan-auf-dem-Fahrrad-Test sei eine absurde Metrik, aber offenbar erinnern sich nicht viele daran, dass er tatsächlich schon vor etwa drei Jahren im frühen Microsoft-GPT-Bericht „Sparks of Artificial General Intelligence: Early experiments with GPT-4“ [1] vorgestellt wurde
    Direkt danach wurde er von einem Netzwerk aus Promo-Accounts weiterverbreitet und ist seither genau das geworden, was AI-Hype-Leute jedes Mal verwenden, wenn sie Modelle „testen“
    100 % Marketing, 0 % Wissenschaft
    [1] https://arxiv.org/pdf/2303.12712

    • Für Neugierige als Ergänzung: Simon scheint das erstmals am 25. Oktober 2024 öffentlich verwendet zu haben [0]
      Ich kenne keinen konkreten Fall [1], in dem im Paper genau der Prompt „Pelikan auf einem Fahrrad“ getestet wurde, aber im GPT-Paper gab es mehrere SVG- und tikz-Tests, und die tatsächlichen Bilder wirken ziemlich beliebig
      Es ist zwar nicht wünschenswert, auf ein einzelnes Bild hin zu optimieren, aber wenn das Training halbwegs ordentlich gelaufen ist, sollte ein Pelikan auf einem Fahrrad eigentlich nicht so schwierig sein, und auf mehreren Seiten von [0] gibt es durchaus einige ziemlich gute Beispiele
      [0] https://simonwillison.net/tags/pelican-riding-a-bicycle/?pag...
      [1] Wegen Simons Bekanntheit wird es sicher irgendwo etwas dazu geben
    • Mein inoffizieller Test, den ich seit dem Aufkommen generativer AI privat verwendet habe, war „eine Zeichnung eines alten Mannes, der auf einem Fluss Fahrrad fährt“
      Gerade eben mit ChatGPTs Standardmodell (5.5) getestet: Der alte Mann fährt ein altes Fahrrad, aber das Fahrrad steht auf einem lockeren Seil, das über den Fluss gespannt ist, mit einer mittelalterlichen Stadt im Hintergrund
      Der Kern ist, dass der Prompt eine subtile Mehrdeutigkeit enthält. Bei der Frage „Wie überquert der alte Mann den Fluss?“ stellen sich die meisten Menschen wohl sofort eine gewöhnliche Brücke mit einer Straße darüber vor und entsprechend einen Fluss in einer Gegend, die entwickelt genug für so eine Brücke ist
      Deshalb denke ich, dass diese Modelle zwar immer besser darin werden, etwas zu finden oder zu erzeugen, das die Bedingungen ungefähr erfüllt, aber immer noch dort scheitern, wo Menschen ganz natürlich vernünftige Annahmen aus dem Alltagswissen ergänzen würden
  • Ich frage mich, ob dieser „Wendepunkt“ ein reales Phänomen oder eher Marketing ist
    Die Modelle sind sicher etwas besser geworden, aber wenn ich selbst mit den neuesten Modellen (Codex + gpt5.5, Kombinationen mit gpt5.3-codex) versuche, ein Spiel per Vibe Coding zu bauen, tun sie sich immer noch ziemlich schwer
    Sie erstellen zwar zuverlässig ein Grundgerüst, das läuft, aber bis zu einer ausgereiften Anwendung ist es noch ein weiter Weg

    • Vor Opus 4.5 musste ich sie stark an die Hand nehmen und selbst viel coden, aber ich erinnere mich sehr klar daran, dass ich seit diesem Tag praktisch keinen Code mehr geschrieben habe
      Ich habe zwar einmal etwas geschrieben, um zu lernen, wie die Enigma-Maschine funktioniert, aber das war zu Lernzwecken
      Beruflich gesehen habe ich seit November mit dem Coden aufgehört
    • Paradoxerweise kann es meiner Ansicht nach mehrere Wendepunkte geben, selbst wenn der Grenznutzen der Kernfähigkeiten bereits sinkt
      Wenn für einen bestimmten Einsatzfall ein Schwellenwert von „gut genug“ überschritten wird, öffnen sich plötzlich neue Möglichkeiten
      Alte Nagelpistolen waren schwer, brauchten dicke Stromkabel und waren sehr teuer
      Als sie leichter und billiger wurden und Akkupacks bekamen, passten sie ab einem gewissen Punkt ganz natürlich in den Arbeitsablauf von Dachdeckern und steigerten das Arbeitspensum dramatisch
      Weitere Verbesserungen an der Grenze müssen danach nicht mehr dieselbe Art von „Freischaltung“ bewirken, weil die Schwelle bereits überschritten wurde
    • Ich habe kürzlich mit einer Kombination aus Codex 5.5 und Claude Code Opus 4.7 auch ziemlich komplexe Dinge „per Vibe“ gebaut
      Entscheidend war, früh viel Zeit in ein übergreifendes Designdokument zu investieren und es in konkrete, begrenzte Schritte herunterzubrechen
      Dieses Dokument habe ich zwischen beiden Modellen hin- und hergereicht und so lange verfeinert, bis beide zufrieden waren
      Für jeden Schritt wurde ein Implementierungsplan erstellt, und nach Abschluss blieb ein Zusammenfassungsdokument zurück: was geliefert wurde und was entdeckt wurde. Das wurde dann zum Input für den nächsten Schritt
      Ich habe die Dokumente und die tatsächliche Arbeit überprüft, Tests angesehen und manches detaillierter geprüft. Auch ob mir die Codestruktur gefiel, habe ich stichprobenartig kontrolliert
      Meistens habe ich Claude fürs Coden und Codex für Design und schrittweise Code-Reviews verwendet und beide nach jedem Schritt die Testabdeckung prüfen lassen
      So habe ich Tools und Libraries implementiert, ohne selbst eine Zeile Code zu schreiben, und es war tatsächlich ziemlich nützlich
      Weil das asynchron läuft, kann man während der langsamen Modellverarbeitung andere Dinge tun
      Ich halte das aber nicht für universell. Beeindruckend war es bei Aufgaben, die leicht testbar sind, bei denen man das Ziel sehr gut versteht, aber den genauen Weg dorthin noch nicht festgelegt hat
    • Sie bringen einen zwar über die Startlinie, aber sobald man in den Code schaut, sieht man duplizierten Code, vermischte Verantwortlichkeiten, schlechte Struktur und chaotische 10.000-Zeilen-Dateien, die nur Tokens verschlingen
      Ich verwende LLMs, um unstrukturierte Event-Daten mit gemischtem Text/Bild-Inhalt von Websites und aus Social Media zu scrapen, und um zu vertretbaren Kosten wirklich 100 % konsistente Ergebnisse zu bekommen, blieb nichts anderes übrig, als die Arbeit in sehr kleine Teile zu zerlegen und damit den Fehlerbereich stark zu verkleinern
      Bei derzeit mäßig komplexen Aufgaben können Codex/Claude einen Nutzer durchaus bereitwillig in eine teure Sackgasse hineincoden
    • Opus 4.5 im November 2025 war für mich wirklich, ganz ohne Ironie, ein echter Wendepunkt und der einzige Grund für den aktuellen Hype
      GPT 5.5 ist gegenüber GPT 5.4 deutlich verbessert, aber ich würde es keinen Wendepunkt nennen
  • Wenn Leute sagen, „Coding-Agenten sind wirklich gut geworden“, frage ich mich auch nach dem sogenannten „Wendepunkt“ im November 2025 immer noch: für wen genau?
    Nach allem, was ich beobachtet habe, sind sie besser geworden bei Tool-Calling und beim Beantworten von Fragen zu großen Codebasen, besonders wenn die zu suchenden Muster vage sind, und dafür sind sie sehr nützlich
    Aber Produktionscode zu erzeugen, selbst mit viel Anleitung und Aufsicht, ist meiner Erfahrung nach noch längst nicht drin
    In diesem Marketingrausch sollten wir aufhören, darüber in 1-und-0-Begriffen zu sprechen. Die Fähigkeiten von Agenten liegen auf einem kontinuierlichen Spektrum und hängen stark von der Komplexität der Codebasis ab, an der man arbeitet
    Ich denke, wir versuchen alle noch herauszufinden, wie man diese Tools im Alltag sinnvoll einsetzt
    Das kollidiert aber mit der aktuellen Erzählung, die unsere Arbeit als etwas immer Gleichförmiges und leicht Automatisierbares plattwalzt, obwohl sie das in Wirklichkeit nicht ist
    Ich glaube, deshalb ist die Debatte so polarisiert. Es gibt keine geteilte Erfahrung

    • Die Polarisierung entsteht, weil verschiedene Menschen beim Einsatz dieser Tools sehr unterschiedliche Coding-Erfahrungen und Ausgabequalitäten erleben
      Meine Erfahrung war zum Beispiel das genaue Gegenteil, und ich habe mit Claude Arbeiten von sehr hoher Qualität erstellt (https://github.com/kstenerud/yoloai)
      Beim Umgang mit Bugs und Eigenheiten der verwendeten Technologien hat der Agent enorm geholfen, diese früh zu entdecken und zu katalogisieren, damit man bei der Implementierung nicht ständig darüber stolpert: https://github.com/kstenerud/yoloai/blob/main/docs/dev/backe...
      Die Agenten werden weiter besser. Allein im letzten Monat waren sie bei Forschung, Design, Architektur und Planungsdokumenten ziemlich stark darin, Probleme vorherzusehen und Implikationen sauber herzuleiten
      In der Coding-Phase ist das meiste dann ein mechanischer Prozess, und selbst wenn ich es an Sonnet abgebe, ist die Fehlerquote minimal
    • Es überrascht mich, dass du die neuesten Modelle selbst mit Anleitung und Aufsicht nicht gut genug für Produktionscode findest
      In meiner Erfahrung ist Claude Code, vor allem Opus 4.6, dafür fantastisch. Zumindest in JS, TS, Elixir und Ruby
      Natürlich braucht es Aufsicht, und mein mentales Modell ist nicht „Junior-Entwickler“, sondern eher ein Exoskelett. Aber subjektiv ist es ein extrem starkes Exoskelett, das meine Geschwindigkeit bei den meisten Aufgaben leicht verzehnfacht
      Besonders wichtig: Ich verwende weder --dangerously-skip-permissions noch den Auto-Modus von Claude Code. Ich prüfe jede geschriebene Zeile leicht mit und steuere granular, daher habe ich normalerweise auch nicht mehr als zwei parallel generierende Sessions
      Meine Vermutung ist, dass die Enttäuschung oft dann entsteht, wenn Leute das delegieren und darauf vertrauen wollen, dass es nicht entgleist. Dieses Vertrauen hat es sich bei mir noch nicht verdient, und bisher musste es das auch nicht
      Ich arbeite allerdings meist an kleinen bis mittleren Codebasen mit etwa 20.000 bis 30.000 Zeilen inklusive Tests. Vielleicht ist das ein Faktor für die positiven Erfahrungen
    • Dass es beim Coden gut funktioniert, ist einfach sehr ungleich verteilt
      In der Praxis gibt es (a) unzählige kleine Inseln völlig unterschiedlicher Arbeitsweisen im Umgang mit AI und (b) sehr unterschiedliche Engpässe je nach Entwickler und Codebasis/Aufgabe
      Außerdem gibt es in unserer Zeit eine eingebaute Verzerrung: Veränderung = Fortschritt = Produktivität
      Schaut man auf die „Revolution des Network Computing“ von 1990 bis 2000, dann kamen Computer auf jeden Schreibtisch und in jede Tasche und waren für Verwaltungstätigkeiten extrem leistungsfähig
      Aber das Endergebnis war vor allem „Veränderung“. Wir verschicken viel mehr E-Mails als früher Briefe, kommunizieren viel mehr, Sekretärinnen verschwanden, aber die Verwaltung selbst wurde mehr statt weniger
      An Universitäten gibt es typischerweise mehr Verwaltungsangestellte, und Firmen beschäftigen mehr Leute für Buchhaltung, HR und Projektmanagement
      Vielleicht war Verwaltung von Anfang an gar nicht der echte Engpass
      Bei Code ist es oft ähnlich. Jeder hat eine Roadmap und eine Wishlist, und die „Fähigkeit, Code zu produzieren“ sieht wie der Engpass aus
      Aber vielleicht können die meisten Unternehmen gar nicht mehr Wert schaffen, nur weil sie mehr Software bauen
      Viele mittelgroße Firmen, so mein Eindruck, sind eher mit Stack-Migrationen oder Modernisierung beschäftigt. Dass sie einfach massenhaft Features herauspumpen und damit Preise oder Umsatz steigern, höre ich selten
      Die meisten Engpässe liegen nur stromaufwärts eines anderen Engpasses; einen echten „Damm“ gibt es selten
    • Ich weiß nicht, ob es einen Wendepunkt gab, aber im letzten Jahr ist es definitiv für mehr als nur Autocomplete nützlich geworden
      Mein jüngstes Privatprojekt ist ein Transpiler von Wasm nach Go, und ich finde es sehr beeindruckend, dass die neuesten Modelle (ich habe Sonnet, Opus und Gemini verwendet, deutlich erfolgreicher als GPT) das Projekt aufnehmen und mit mehreren Ebenen gleichzeitig arbeiten können
      Sie befassen sich mit dem Go-Code, der den Transpiler implementiert (Wasm-Parsing, AST-Aufbau), mit dem generierten Go-Code, der durch Serialisierung des AST in .go-Dateien entsteht, mit Go-Code zur Manipulation des AST für Optimierungen und den Auswirkungen auf den erzeugten Code, mit Go-Code, der an den generierten Code angeflanscht wird, um fortgeschrittenere Instruktionen umzusetzen, und dessen Zusammenspiel mit dem AST, mit dem Ablauf, in dem C-Code zu Wasm kompiliert, nach Go übersetzt und dann in Go aufgerufen wird, mit dem Go-Code, den dieser C-Code aufruft, um die C-Standardbibliothek zu implementieren, und sogar mit WAT/WAST-Dateien für die Wasm-Spec-Tests
      Ich finde das beeindruckend, weil selbst ich ziemlich nachdenken muss, um all diese Ebenen gleichzeitig im Blick zu behalten, und ich vermute, viele Programmierer hätten damit ebenfalls Mühe
      Und oft ist es sehr viel einfacher zu schreiben: „Ich will diesen Code generieren, baue mir also den AST, der genau das tut“, als in Go-Code Klammern zu zählen. Selbst mit etwas LISP-Erfahrung ist das immer noch einfacher
      Code-Review oder Kritik sind willkommen. Es ist kein Vibe Coding, aber mit viel Hilfe durch generative AI
      https://github.com/ncruces/wasm2go
    • Gestern war es wirklich spaßig, dass ich dank des normalen 20-Dollar-Abos von Anthropic den ganzen Tag herumspielen konnte, ohne ans Limit zu stoßen
      Es war ein kleines Browser-Spiel, also mit sehr niedrigen Anforderungen an Sicherheit und Perfektion, aber hohen Anforderungen an „das wirklich mal umsetzen“ und „Spaß“ — insofern könnte man es als eine Art Produktionscode sehen
      Der erzeugte Code hatte null Compilerfehler, und selbst wenn ich für einen Task zehn To-dos beschrieben habe, hat das Modell sie alle abgearbeitet
      Um nützlich zu sein, muss es gar nicht viel besser werden. Es ist schon jetzt für Leute, die wie Forscher mathematische Ergebnisse ohnehin verifizieren müssen, aber nicht gut darin sind, Testdaten zu filtern, zu transformieren und Ausführungscode zu schreiben, sehr nützlich
      Auch für kleine Websites, Spaßprojekte oder unterstützende Tools ist es bereits gut
      Gleichzeitig laufen im Hintergrund weiter mehr Compute, bessere Algorithmen, mehr Reinforcement Learning usw.
      Es kann gut sein, dass wir bereits bei 95 % von „AI nimmt Coding-Jobs weg“ angekommen sind, ohne es zu merken — weil die verbleibenden 5 % so wichtig sind
  • Wahrscheinlich sitzt irgendwo gerade ein menschlicher Künstler und malt ein Bild eines Pelikans auf einem Fahrrad, das dann in den Trainingsdaten eines großen AI-Labors landet

    • Moderne Bildgenerierungsmodelle können alle problemlos einen Pelikan auf einem Fahrrad erzeugen
      Der Kern dieses Tests ist, SVG-Text zu erzeugen, der das Bild repräsentiert, und das ist deutlich komplexer
      Man könnte Rasterbilder auch in SVG umwandeln und als Trainingsdaten verwenden, aber das wäre wohl für niemandes Zeit eine gute Nutzung
    • Der Qualitätssprung bei Gemini-Pelikanen in nur einer Iteration war so groß, während andere Benchmarks ziemlich flach blieben, dass das schon plausibel sein könnte
      Ich weiß nur nicht, ob sie gezielt auf Pelikane oder einfach auf SVG optimiert haben
  • Die letzten sechs Monate wirken für mich wie die Zeit, in der die Menschheit die Kontrolle über LLMs verloren hat
    Trotz großartiger offener Modelle, die die Einführung lokaler AI hätten abfedern können, gab es eine Eroberung des Speichermarkts, und Werkzeuge zum Abfluss geistigen Eigentums drangen schnell in Unternehmen auf der ganzen Welt ein
    Entwickler produzieren inzwischen mehr Code, als sie lesen können
    Autonome Agenten saugen die Aufmerksamkeitsökonomie leer, töten Open Source und ruinieren Online-Communities (einschließlich HN), und sie werden auch im Krieg eingesetzt (Zielerfassung, Propaganda usw.)
    Es werden massenhaft Schwachstellen entdeckt, und große Supply-Chain-Angriffe folgen Schlag auf Schlag
    Mehr Ungleichheit, fragmentierte Wahrnehmung, grüne Kennzahlen und eine düstere Realität zugleich

    • Wenn man nur schlechte Nachrichten liest — besonders die, die sich wie im aktuellen Mainstream-News-Zyklus besser verkaufen —, dann kann dieses Bild durchaus entstehen
      Persönlich habe ich aber im Biotech-Bereich Dinge gesehen, die völlig verrückt sind. Es ist kaum zu glauben, dass wir möglicherweise in so einer Zukunft leben
      Echte Therapeutika, die mithilfe von AlphaFold entwickelt wurden, werden bereits in realen klinischen Studien getestet, und die nächste Generation, die in den kommenden drei bis fünf Jahren in die Klinik geht, wird enorm sein
      Später werden wir wahrscheinlich auf die heutige Medizin so zurückblicken, wie wir heute auf das Mittelalter zurückblicken
    • Ich denke, der AI-Hype hat nur die Risse im Software Engineering sichtbarer gemacht, die schon immer da waren
      Im Idealfall kommen wir aus diesem Hype-Zyklus mit besseren Praktiken heraus
    • Dass massenhaft Schwachstellen gefunden werden, ist etwas Gutes
    • Metal Gear Solid 2 war bis 2025 ein seltsames und lustiges Werk
    • „Eroberung des Speichermarkts“ — Moment, was soll das heißen?
      Und „Werkzeuge zum Abfluss geistigen Eigentums dringen schnell in Unternehmen weltweit ein“ würde ich eher auf der Plus-Seite verbuchen
      Wenn Dinge aus der Aufmerksamkeitsökonomie verschwinden, ist das für mich fast durchweg ein „gute Reise“
  • Mich würde interessieren, wie die letzten sechs Monate aus Sicht von Nicht-Programmierern aussahen
    Welche Kollaborationstools oder ähnlichen Optimierungen haben Menschen in anderen Bereichen erlebt?

    • Ich bin Dozent und leite Ausbildungsprogramme. Mein neuer Chef hat ungefähr 20 Jahre in der Branche gearbeitet und gehört zu den respektiertesten Leuten im Unternehmen
      Er ist vor Kurzem zu unserem Team gestoßen und unterrichtet jetzt mit. In einem laufenden Zwei-Wochen-Kurs sollten wir am ersten Tag AI alle Unterrichtspläne schreiben lassen und diese Pläne anschließend wieder in AI einspeisen, damit daraus Folien werden
      Ich hoffe wirklich, dass er das strikt ablehnt, denn sonst bekommen die Trainees nichts von seiner Erfahrung, seiner Menschlichkeit und dem, was er weitergeben könnte, mit
      Als Dozent bekomme ich alle sechs Monate ein Review, und jedes Mal höre ich dasselbe: „Wie könnten wir AI im Unterricht einsetzen?“
      Man hält es nicht einmal für nötig zu erklären, warum das wünschenswert oder nötig sein soll. Es ist einfach reines Aufspringen auf den Hype
      Unglaublicherweise sind die meisten Kollegen sehr positiv gegenüber AI, aber niemand sagt, wofür sie sie außer bei der Unterrichtsvorbereitung eigentlich nutzen. Man nutzt sie nur, um sich das Denken oder Vorbereiten zu sparen — obwohl das die einzige wirklich wichtige Arbeit in diesem Job ist
      Für mich ergibt das überhaupt keinen Sinn
    • In der reinen Mathematik war der Nutzen vor GPT-5.4 sehr begrenzt
      Kluge Leute haben mit Modellen zwar schon etwas erreicht, aber immer nur bei sehr passenden Problemen und ernsthafter Arbeit
      Hausaufgabenaufgaben konnten sie natürlich lösen, aber als Lehrender fühlte sich das eher wie ein Nachteil an
      Seit GPT-5.4 (März 2026) war es aber ein echtes „Wow“-Release. Plötzlich begann es, Fragen auf MathOverflow-Niveau zu beantworten, an denen zuvor selbst Experten hängen geblieben waren
      Halluzinationen gab es zwar weiterhin, aber es war klug genug, seine eingebaute Python-Fähigkeit zu nutzen, um Behauptungen an kleinen Beispielen zu prüfen, wenn das möglich war
      Es scheint deutlich stärker in formelreicher Mathematik zu sein als in abstrakter, „philosophischer“ Mathematik
      GPT-5.5 lieferte bei einem MO-schweren Problem einen faszinierenden, ziemlich nichttrivialen und sehr lehrreichen beweiswürdigen Beweis, wie man ihn in einem Buch finden könnte, und ich schreibe das gerade aus
      Vielleicht war es auch Glück und gutes Prompting. Es fühlte sich nicht wie ein qualitativer Sprung gegenüber 5.4 an, aber quantitative Verbesserungen sind jederzeit willkommen
      Man braucht immer noch passende Probleme, aber es ist viel schwerer geworden, etwas von vornherein als ungeeignet auszuschließen
      Claude und Gemini waren zweite Liga und sind es immer noch. Claude nutze ich für Assistenzaufgaben und gelegentlich findet es auch einen leichten Beweis, meist weil ich etwas Offensichtliches übersehen habe
      Und GPT, etwas weniger auch Claude, ist hervorragend darin, mathematische Fehler zu finden. Bisher gingen vermutlich 90 % meiner Prompts in das Korrekturlesen meiner Texte
    • Ich arbeite in einem Unternehmen, das AI in Firmen ausrollt
      Der durchschnittliche Büroangestellte ist von Copilot beeindruckt. Nicht Copilot in der IDE, sondern die mit Windows gebündelte App
      Meist kopieren die Leute Material in das vom Unternehmen bereitgestellte ChatGPT/Gemini und holen sich Tipps von Facebook/Instagram à la „die fünf besten Prompts für Produktivität im Job“
      Wenn man ihnen Agenten zeigt, die in großem Maßstab Arbeitsabläufe automatisieren, wirkt das fast wie Magie
    • Für die nichttechnischen Menschen in meinem Umfeld war Claude in Office der Wendepunkt
      Jetzt sehen die Foliensätze aller sauber aus, und das Finanzteam braucht deutlich weniger Unterstützung von BI. Das ist ziemlich beeindruckend
    • Im Business nutzt man Kollaborationstools, um E-Mails prüfen und Archivierungsweisen vorschlagen zu lassen, Dateien und Ordner zu verwalten und täglich interessante, relevante Inhalte im Intranet zu durchsuchen
      Privat unterrichtet meine Frau ihre Muttersprache an Grund- und Sekundarschüler, für die diese Sprache nicht die Muttersprache ist, und die Kinder nutzen jetzt alle solche Tools, um neue Übungsinhalte passend zu den schulischen Unterrichtsplänen zu generieren
      Die Fähigkeiten der Kinder verbessern sich jetzt viel schneller als noch vor ein paar Monaten
  • Wenn man bedenkt, wie bekannt Simons Blog ist, fällt es mir inzwischen schwer, noch sicher zu sagen, dass kein AI-Labor seine Modelle für so eine absurde Aufgabe trainiert hätte

    • Auch im Artikel selbst wird eingeräumt, dass „AI-Labore am Ende vielleicht doch darauf aufmerksam geworden sind“ und dass der Pelikan auf dem Fahrrad wohl deutlich über das hinausgewachsen ist, was als nützlicher Benchmark taugt
    • Simon sagt später im Artikel, dass es angesichts eines Posts von Jeff Dean, in dem die Pelikan-auf-dem-Fahrrad-Aufgabe erwähnt wurde, und angesichts dessen, wie gut die aktuellen Modelle inzwischen darin sind, kein guter Benchmark mehr ist
      Jetzt ist wohl der Beutelratte auf dem E-Scooter dran
    • Das hätte in einem Vortrag wahrscheinlich besser funktioniert. Es war nur ein Aufbau für den Witz, der später kam
    • Es ist faktisch zu einem Benchmark geworden. Ein paar meiner Freunde trainieren Modelle inzwischen gezielt darauf, die Anzahl der R in „strawberry“ zu zählen
  • Wenn ich diesen Thread lese, scheint ein großer Teil der Wendepunkt-Debatte daher zu kommen, dass die Leute aneinander vorbeireden, was genau besser geworden ist
    Meine Interpretation wäre: Um November herum gab es keinen großen Sprung in den Fähigkeiten der Modelle selbst, sondern die Harnesses darum herum wurden viel stabiler, und die RLVR-Arbeit Anfang 2025 hat die Modelle darauf trainiert, sich innerhalb dieser Harnesses gut zu verhalten
    Als beides zusammenkam, war weder das eine noch das andere für sich genommen dramatisch, aber der kombinierte Effekt fühlte sich wie ein Phasenwechsel an
    Das erklärt vielleicht auch, warum die Erfahrungen in diesem Thread so unterschiedlich sind. Wer nur einen Workflow nutzt, in dem er das Modell nach Code fragt und ihn dann einkopiert, wird die Verbesserung eher graduell erlebt haben und sich völlig zu Recht fragen, warum alle so ein Theater machen
    Wer dagegen schon Agenten in 20-Schritt-Schleifen laufen ließ, hat wahrscheinlich einen deutlich größeren Unterschied gespürt. Früher bestand das Problem darin, dass ein Fehler in Schritt 12 sich bis Schritt 20 zu Müll aufschaukelte — und genau dieser Teil ist viel besser geworden
    Deshalb ist auch Simons kurze Bemerkung zu lokalen Modellen interessant. Dass ein 20-GB-Modell auf einem Laptop einen brauchbaren Pelikan zeichnet, ist für sich genommen nur eine nette Datenkuriosität
    Spannend ist vielmehr, dass ein fähiges lokales Modell in einem guten Harness inzwischen Frontier-Performance deutlich näher kommt als ein Frontier-Modell ohne Harness

  • Ich habe Gemini um ein Video eines „Pelikan[s], der im Hyde Park Einrad fährt“ gebeten, und das Ergebnis hat mich wirklich überrascht
    https://gemini.google.com/share/55e250c99693

    • Laut Erklärung des Originalautors wird dieser Test verwendet, weil Pelikane schwer zu zeichnen sind, Fahrräder schwer zu zeichnen sind, Pelikane nicht Fahrrad fahren können und kein AI-Labor seine Modelle je für so eine absurde Aufgabe trainieren würde
      An diesem Punkt denke ich eher: Warum sollten konkurrierende AI-Labore diesen inzwischen gut bekannten „Test“ nicht trainieren?
    • Grafisch ist es perfekt, aber inhaltlich ergibt es keinen Sinn
      Der Schwerpunkt des Pelikans liegt eindeutig hinter dem Rad. Er müsste über dem Rad oder leicht davor liegen
    • Grok war ebenfalls überraschend
      https://grok.com/imagine/post/8d1eab88-737f-4d46-ba92-9b6502...
      Interessant ist, dass Videogenerierung den tretenden Pelikan besser hinbekommt als Bildgenerierung
    • Google/Gemini hat audiovisuelle Fähigkeiten, die ziemlich beeindruckend sind
      Ich habe Claude gebeten, auf einem Landschaftsfoto Mulch hinzuzufügen, und es sah aus, als hätte jemand mit dem orangefarbenen Sprühwerkzeug aus MS Paint darübergesprüht
      Nano Banana kam ziemlich nah an die Realität heran
    • Wirklich beeindruckend und für Kreative in Film, Animation und Modeling ein wenig beunruhigend
  • Es hieß, es seien „annotierte Slides für einen etwa fünfminütigen Lightning Talk auf der PyCon US 2026“ erstellt worden — ich würde gern wissen, ob es von diesem Vortrag ein Video oder Audio gibt