21 Punkte von GN⁺ 2025-12-21 | 2 Kommentare | Auf WhatsApp teilen
  • 2025 trat Reinforcement Learning from Verifiable Rewards (RLVR) als neue zentrale Phase des LLM-Trainings hervor und wurde der bestehenden Pipeline aus Pretraining, SFT und RLHF hinzugefügt
  • LLMs entwickelten in verifizierbaren Umgebungen wie Mathematik- und Code-Puzzles eigenständig Schlussfolgerungsstrategien und erwarben Problemlösungsweisen, die für Menschen wie „Denken“ wirken
  • Cursor definierte eine neue Ebene von LLM-Apps und zeigte, wie in bestimmten Verticals Context Engineering und komplexe Orchestrierung von LLM-Aufrufen umgesetzt werden können
  • Claude Code erschien als erstes überzeugendes Beispiel eines LLM-Agenten, der auf dem lokalen Rechner des Nutzers läuft, und zeigte ein neues Interaktionsparadigma mit KI
  • Vibe Coding ermöglicht nun auch Nichtfachleuten, allein mit Englisch Programme zu erstellen, und deutet auf eine Demokratisierung der Softwareentwicklung sowie veränderte Berufsprofile hin

1. Der Aufstieg von Reinforcement Learning from Verifiable Rewards (RLVR)

  • Bis Anfang 2025 bestand der produktive LLM-Stack aus drei Phasen: Pretraining, Supervised Fine-Tuning (SFT) und Reinforcement Learning from Human Feedback (RLHF)
  • RLVR (Reinforcement Learning from Verifiable Rewards) wurde als neue wichtige Phase ergänzt und trainiert LLMs auf automatisch verifizierbare Belohnungen für Mathematik- und Code-Puzzles sowie ähnliche Aufgaben
  • LLMs erwarben spontan ein „Schlussfolgern“ ähnliches Verhalten, indem sie Probleme selbst in Zwischenschritte der Berechnung zerlegen und verschiedene Lösungsstrategien entwickeln
    • Diese Strategien waren im vorherigen Paradigma schwer zu erreichen, weil unklar ist, wie eine optimale Reasoning-Trace überhaupt aussieht
    • Das LLM muss durch Belohnungsoptimierung eigenständig einen für sich passenden Ansatz finden
  • Anders als bei SFT/RLHF erlaubt RLVR eine deutlich längere Optimierung gegenüber objektiven und nicht spielbaren Belohnungsfunktionen
  • Wegen der hohen Capability-pro-Dollar-Leistung von RLVR wurden ursprünglich für Pretraining vorgesehene Rechenressourcen auf RLVR umverteilt
    • Ein Großteil der Fähigkeitsfortschritte 2025 wurde dadurch bestimmt, auf ähnlich große LLMs längere RL-Läufe anzuwenden
  • Es entstand ein neuer Regler samt neuem Scaling Law für Test-Time Compute, mit dem sich Fähigkeiten über längere Reasoning-Traces und mehr „Denkzeit“ steuern lassen
  • OpenAI o1 war Ende 2024 die erste Demonstration eines RLVR-Modells, und die Veröffentlichung von o3 Anfang 2025 war der Wendepunkt, an dem der Unterschied intuitiv spürbar wurde

2. Geister vs. Tiere / Jagged Intelligence

  • 2025 begann man, die „Form“ von LLM-Intelligenz intuitiver zu verstehen
  • LLMs seien nicht etwas, das man wie „Tiere evolviert oder heranwachsen lässt“, sondern eher etwas, das man „als Geist beschwört“
    • Neuronale Architektur, Trainingsdaten, Trainingsalgorithmen und Optimierungsdruck sind alle verschieden, daher entstehen im Raum möglicher Intelligenzen sehr andere Wesen
  • Während menschliche neuronale Netze auf das Überleben einer Gruppe im Dschungel optimiert wurden, sind LLMs auf die Nachahmung menschlicher Texte, das Einsammeln von Belohnungen bei Mathematik-Puzzles und Upvotes in der LM Arena optimiert
  • Da RLVR in verifizierbaren Domänen möglich wurde, zeigen LLMs dort spitze Fähigkeitsausprägungen und damit unregelmäßige Leistungsprofile
    • Gleichzeitig verhalten sie sich wie ein genialer Universalgelehrter und wie ein verwirrter Grundschüler, der sich in Sekunden jailbreaken lässt und Daten preisgeben kann
  • Es entstand Vertrauensverlust und Gleichgültigkeit gegenüber Benchmarks
    • Benchmarks sind fast per Definition verifizierbare Umgebungen und deshalb unmittelbar anfällig für RLVR und schwächere Formen synthetischer Datengenerierung
    • Im Prozess des Benchmaxxing bauen Teams Umgebungen in der Nähe des Embedding-Raums des Benchmarks auf und decken ihn so ab
    • Lernen auf dem Test-Set wurde zu einer neuen Technik
  • Wie würde eine Situation aussehen, in der man „alle Benchmarks besteht und trotzdem AGI nicht erreicht“?
  • Verwandte Beiträge

3. Cursor / Eine neue Ebene von LLM-Apps

  • Mit dem rasanten Wachstum von Cursor wurde eine neue Ebene von „LLM-Apps“ sichtbar
    • Die Formulierung „Cursor for X“ begann sich zu verbreiten
  • LLM-Apps wie Cursor bündeln und orchestrieren LLM-Aufrufe für ein bestimmtes Vertical
    1. Sie betreiben Context Engineering
    2. Sie orchestrieren mehrere LLM-Aufrufe als zunehmend komplexen DAG, um Leistung und Kosten auszubalancieren
    3. Sie bieten eine anwendungsspezifische GUI für Human in the Loop
    4. Sie bieten einen „Autonomie-Slider“
  • Es wurde intensiv diskutiert, wie „dick“ diese neue App-Ebene eigentlich ist
    • Umstritten war, ob LLM-Labs alle Anwendungen vereinnahmen oder ob es Chancen für eigenständige LLM-Apps geben wird
  • LLM-Labs bringen typischerweise eher fähige Generalisten auf dem Niveau guter Studierender hervor, während LLM-Apps in bestimmten Verticals private Daten, Sensoren, Aktuatoren und Feedback-Loops bereitstellen, diese Modelle organisieren und feinjustieren und sie so zu echten Experten machen könnten

4. Claude Code / KI, die auf dem Computer lebt

  • Claude Code (CC) trat als erste überzeugende Demonstration eines LLM-Agenten auf
    • Durch das Schleifen von Tool-Nutzung und Reasoning konnte er erweiterte Problemlösung leisten
  • CC läuft auf dem Rechner des Nutzers zusammen mit privater Umgebung, Daten und Kontext
  • OpenAI setzte bei frühen Codex-/Agentenversuchen fälschlich auf Cloud-Container-Deployments, die aus ChatGPT heraus orchestriert wurden
    • Der Fokus lag also auf der Cloud statt einfach auf localhost
  • Ein Agenten-Schwarm in der Cloud wirkt zwar wie ein „AGI-Endgame“, aber gegenwärtig leben wir eher in einer mittleren, langsamen Sprungwelt mit ungleichmäßigen Fähigkeiten
    • Deshalb ist es plausibler, Agenten direkt auf dem Rechner eines Entwicklers laufen zu lassen
  • Die wichtige Unterscheidung ist nicht, wo die „KI-Arbeit“ läuft, sondern ob es um einen bereits existierenden und gebooteten Computer, Installationen, Kontext, Daten, Secrets, Konfiguration und Interaktion mit niedriger Latenz geht
  • Anthropic setzte diese Priorität richtig und verpackte CC in einen kompakten CLI-Formfaktor
    • Damit entstand ein neues Interaktionsparadigma: KI nicht als Website, die man wie Google besucht, sondern als kleiner Geist, der „auf dem Computer wohnt“

5. Vibe Coding

  • 2025 war das Jahr, in dem KI die Fähigkeitsschwelle überschritt, allein mit Englisch verschiedenste beeindruckende Programme zu erstellen
    • Man kann programmieren und dabei die Existenz von Code selbst vergessen
  • Der Begriff „vibe coding“ wurde in einem Tweet geprägt, ohne zu ahnen, wie weit er sich verbreiten würde
  • Mit Vibe Coding wird Programmieren nicht länger nur ein Feld für hochtrainierte Spezialisten, sondern etwas, das grundsätzlich jeder tun kann
  • Anders als bei anderen Technologien profitieren von LLMs normale Menschen sehr viel stärker als Experten, Unternehmen oder Regierungen
  • Vibe Coding verschafft nicht nur Laien Zugang zum Programmieren, sondern ermöglicht es auch Fachleuten, viel mehr Software zu schreiben, die sonst nie geschrieben worden wäre
  • Konkrete Beispiele:
    • In nanochat wurde per Vibe Coding ein angepasster hocheffizienter BPE-Tokenizer in Rust erstellt, ohne bestehende Bibliotheken zu übernehmen oder Rust tiefgehend zu lernen
    • menugen, llm-council, reader3, HN time capsule und andere gewünschte Dinge wurden als schnelle App-Demos per Vibe Coding gebaut
    • Um einen einzelnen Bug zu finden, wurde gleich eine komplette Einmal-App per Vibe Coding erstellt – Code wurde plötzlich kostenlos, flüchtig, flexibel und wegwerfbar
  • Vibe Coding wird Software terraformen und die Definition von Berufen verändern

6. Nano Banana / LLM GUI

  • Google Gemini Nano Banana war eines der überraschendsten Paradigmenwechsel-Modelle des Jahres 2025
  • In der Sichtweise, dass LLMs das nächste große Computing-Paradigma ähnlich den Computern der 1970er und 1980er Jahre sind, werden ähnliche Innovationen aus grundlegend ähnlichen Gründen auftreten
    • Es werden Äquivalente zu Personal Computing, Mikrocontrollern (kognitiver Kern) und dem Internet (der Agenten) entstehen
  • In Bezug auf UI/UX ähnelt das „Chatten“ mit LLMs dem Erteilen von Befehlen an eine Computerkonsole der 1980er Jahre
  • Text ist zwar die bevorzugte rohe Datenrepräsentation für Computer und LLMs, aber nicht das bevorzugte Format für Menschen
    • Gerade als Eingabe mögen Menschen es nicht, viel Text zu lesen – es ist langsam und anstrengend
  • Menschen konsumieren Informationen lieber visuell und räumlich, deshalb wurde im klassischen Computing die GUI erfunden
  • Ebenso sollten LLMs in für Menschen angenehmen Formaten kommunizieren, etwa über Bilder, Infografiken, Slides, Whiteboards, Animationen/Videos oder Web-Apps
  • Frühformen davon sind derzeit Dinge wie Emojis und Markdown – also Überschriften, Fettdruck, Kursivschrift, Listen und Tabellen, mit denen Text „visuell aufbereitet“ wird
  • Nano Banana ist der erste frühe Hinweis darauf, wie eine LLM-GUI aussehen könnte
    • Wichtig ist nicht nur die Bilderzeugung an sich, sondern die gekoppelte Fähigkeit, bei der Textgenerierung, Bildgenerierung und Weltwissen gemeinsam in den Modellgewichten verflochten sind

TLDR; Zusammenfassung

  • 2025 war ein spannendes und auch etwas überraschendes Jahr für LLMs
  • LLMs traten als neue Art von Intelligenz hervor, die viel klüger als erwartet und zugleich viel dümmer als erwartet ist
  • Ungeachtet dessen sind LLMs sehr nützlich, und selbst beim aktuellen Stand nutzt die Branche wahrscheinlich nicht einmal 10 % ihres Potenzials
  • Es gibt endlos viele Ideen, die man ausprobieren kann, und konzeptionell scheint dieses Feld noch einen weiten Weg vor sich zu haben
  • Auch wenn es oberflächlich paradox wirkt, kann man zugleich an schnelle und anhaltende Fortschritte glauben und daran, dass noch sehr viel Arbeit vor uns liegt

2 Kommentare

 
laeyoung 2025-12-21

„Vibe Coding als schnelle App-Demos für Dinge, von denen ich mir wünschte, dass es sie gäbe, wie menugen, llm-council, reader3, HN time capsule usw.“


Ganz dem Vater des Vibe Coding entsprechend sind die Dinge, die er mit Vibe Coding baut, völlig anders als die kleinen Spielereien, die ich gemacht habe. 🤣

 
GN⁺ 2025-12-21
Hacker-News-Kommentare
  • Für mich war die beeindruckendste Innovation dieses Jahres Claude Code
    Cursor war ein guter Proof of Concept, aber Claude Code hat mich tatsächlich dazu gebracht, LLMs fürs Programmieren zu nutzen
    Der Code, den Claude erzeugt, ist fast so, als hätte ich ihn selbst geschrieben, als würde es meine Gedanken lesen
    Deshalb ist der von Claude erzeugte Code auch leicht zu warten
    Den Codestil kann ich zu 90–95 % vorhersagen, und es schreibt viel schneller als ich
    Gemini ist ebenfalls beeindruckend, aber besonders Nano Banana ist für Grafikdesign nützlich
    Fürs Programmieren habe ich Gemini noch nicht ausprobiert. Claude Code ist so gut, dass ich glaube, noch schnelleres Coden würde eher zu Entscheidungsmüdigkeit führen
    Ich neige dazu, Architektur- oder UX-Entscheidungen nicht zu überstürzen, sondern ein oder zwei Tage darüber nachzudenken, bevor ich mit der Umsetzung beginne. Denn wenn man einmal in eine Richtung geht, ist Umkehren schwierig, und wegen des Sunk-Cost-Fehlschlusses hält man dann an einer falschen Entscheidung fest

    • Ich sehe inzwischen kaum noch einen Grund, Cursor zu nutzen
      Ich habe das Claude-Code-Plugin in IntelliJ IDEA installiert und nutze die IDE nur noch zur Code-Navigation oder für Reviews
      Ich kann mich nicht erinnern, zuletzt mehr als zwei Zeilen Code selbst geschrieben zu haben
      Dank Claude Code ist meine Produktivität um mindestens das 5-Fache oder mehr gestiegen, und weil das Schreiben von Tests fast nichts mehr kostet, ist auch die Testabdeckung deutlich besser geworden
      Ich nutze mit Claude einen vollständigen AI-Agent-Workflow: planen, Fragen stellen, implementieren lassen, reviewen und Änderungen anfordern
      Manuelles Coden gibt es gar nicht mehr. Komplett null
    • Nano Banana Pro ist ein völlig verrücktes Tool, wenn man weiß, wie man es richtig einsetzt
      Ich kann immer noch kaum glauben, dass so etwas veröffentlicht wurde
    • Ich bin zuerst mit dem GLM-Coding-Plan (etwa 2 Dollar pro Monat) ins Agentic Coding eingestiegen
      Aber weil ich Claude jedes Mal bat, den Code eleganter und lesbarer zu machen, bin ich am Ende einfach zu Claude Code gewechselt
      Mit guten Prompts kommt GLM ziemlich nah heran, aber wenn man sich für 0,6 Dollar am Tag darum nicht kümmern muss, lohnt es sich aus meiner Sicht nicht, lange darüber nachzudenken
    • Ich habe mich bei Cursor eingerichtet, weil ich keine Zeit habe, jeden Monat neue Tools zu evaluieren
      Ich frage mich, was ich verpasse, wenn doch dasselbe Modell verwendet wird
  • Ich mag Karpathys Texte, aber wenn ich heute solche LLM-artigen Satzstrukturen wie „It’s not X, it’s Y“ sehe, zucke ich inzwischen instinktiv zusammen
    Vor drei Jahren hätte mich das nicht gestört, aber jetzt wirkt dieser Stil auf mich völlig kaputt

    • Stimmt, seit man mich darauf hingewiesen hat, springt mir dieser Stil ständig ins Auge
    • Früher habe ich in Sätzen oft em dash (—) verwendet, aber Leute meinten dann, mein Text sehe „wie von einer AI geschrieben“ aus, also musste ich meinen Schreibstil ändern
    • Ich bin gekommen, um Karpathys Text zu lesen, aber inzwischen denke ich manchmal, ich könnte genauso gut einfach das LLM fragen
    • Ich mochte solche Sätze schon vor den LLMs nicht
      Formulierungen wie „It’s not just a website…“ nenne ich rhetorisches Fett
      Wenn man dieses Fett entfernt, werden die Sätze zwar flacher, aber auch klarer
      Gerade Ausdrücke wie „little spirit“ wirken auf mich übertrieben und lassen mich mit den Augen rollen
      Natürlich wollte der Autor damit vermutlich etwas betonen, aber es passt nicht zu meinem Ideal des Schreibens, daher stößt es mich ab
      Sätze wie „It’s not just about image generation…“ erzeugen eine unnötige konzeptionelle Spannung
      Ich fände es besser, einfach zu schreiben: „Bildgenerierung ist interessanter, wenn sie mit Textgenerierung kombiniert wird“
    • Jetzt, da mir dieser Stil ständig auffällt, ist es schwer geworden, das Internet noch zu genießen
  • Es war ein großartiger und realistischer Review
    Die Aussage, dass „LLMs klüger als erwartet und gleichzeitig dümmer als erwartet sind“, macht mir Sorgen
    Woran soll man erkennen, welche Seite man gerade bekommt?
    Beim Programmieren lassen sich Fehler leicht entdecken, aber in allgemeineren Bereichen ist das doch viel schwieriger, oder?
    Und zu der Behauptung, dass „normale Nutzer mehr von LLMs profitieren als Experten“: Solche Erwartungen gab es früher auch bei AppleScript, VB und visueller Programmierung, aber am Ende wird AI im Grunde wie eine intelligente Suchmaschine genutzt
    Genau dort ist jedoch das Problem mit Halluzinationen am größten. Ich frage mich, was die Lösung dafür ist

  • Ich mag Andrejs optimistische Haltung, würde aber auch gern hören, wie sich 2025 die Konzentration industrieller Macht verändert hat und wie er Themen wie Open Source, lokale Inferenz und Hardware-Beschränkungen sieht
    Zum Beispiel beschrieb er Claude Code als etwas, das „lokal läuft“, aber in Wirklichkeit ist nur die TUI lokal, während die Inferenz in der Cloud stattfindet
    Ich frage mich, wie sich diese Struktur nach 2026 weiterentwickeln wird

    • Der Kernpunkt von CC betrifft Daten und Umgebungskontext, nicht den Ort der Rechenleistung
      Dass Cloud-Setups unangenehm sind, liegt nicht an der Berechnung, sondern an UI/UX und der User-Schleife
    • llama.cpp unterstützt jetzt das Anthropic-Nachrichtenformat und kann zusammen mit Claude Code verwendet werden
    • Einer der interessanten lokal ausführbaren Coding-Agenten ist OpenAI Codex
      Man kann ihn zusammen mit auf Ollama gehosteten gpt-oss-Modellen ausführen
      Zum Beispiel codex --oss -m gpt-oss:20b, und auch größere Modelle (120b) sind möglich
    • Mit dem von Karpathy erwähnten „lokal laufenden Agenten“ ist kein Webservice wie LangChain gemeint, sondern ein Software-Wrapper (Harness), der die LLM API aufruft
      Dieser Agent ruft Bash auf, arbeitet mit dem Dateisystem und kann auf dem OS fast alles erledigen
      Das Modell ist also das entfernte Gehirn, und der Agent ist so etwas wie ein Maschinenanzug
    • Ich finde, der Teil zu Claude Code war etwas mehrdeutig formuliert
      Wahrscheinlich meinte er nicht, dass die Inferenz lokal läuft, sondern dass der Agent lokal ausgeführt wird
      Während OpenAI Codex stärker cloudzentriert entworfen hat, scheint CC einen Local-First-Ansatz gewählt zu haben
      Diese Unterscheidung müsste aber viel klarer erklärt werden
  • Karpathys RLVR-Vergleich von „ein Tier halten“ versus „einen Geist beschwören“ fühlt sich wie ein perfektes Modell an, um die heutige unregelmäßige Intelligenz (jagged intelligence) zu beschreiben
    Wir erschaffen keine allgemeinen Überlebenskünstler, sondern optimieren nur bestimmte Bereiche übermäßig auf verifizierbare Belohnungen
    Auch das Konzept von Wegwerfsoftware durch vibe coding finde ich nachvollziehbar
    Einen temporären App-Prototyp zu bauen, nur um ein einziges Problem zu debuggen und ihn dann sofort wieder zu löschen, fühlt sich wirklich wie ein Wandel an

    • Ich halte die Metapher „Tier vs. Geist“ allerdings nicht für besonders tiefgründig
      Menschen und Tiere sind echte intelligente Wesen, während LLMs lediglich menschliche Outputs in eng begrenzter Form widerhallen
      Um echte künstliche Intelligenz zu sein, bräuchte es Eigenschaften wie Autonomie, fortlaufendes Lernen, Neugier und virtuelle Verkörperung
      Die meisten Tiere handeln instinktiv, aber nur Wesen mit einer wie beim Menschen generalisierten Lernfähigkeit besitzen wirkliche Intelligenz
    • Man darf aber nicht vergessen, dass die heutige Nutzung von LLMs nur dank Subventionierung auf diesem Niveau möglich ist
      Es bleibt abzuwarten, ob solche Wegwerf-Apps weiter gebaut werden, wenn man die realen Kosten zahlen muss
    • Ich nutze es schon seit einigen Monaten genau so. Es macht wirklich Spaß
      Ich habe es in meinem Beitrag beschrieben: ein Stack, der zu Ende bringt, was Jupyter begonnen hat
      Es hat eine funktionale Fence-Struktur, ist aufrufbar und kombinierbar
      Es ist ähnlich aufgebaut wie MCP und erfordert kein zusätzliches Training, nur das Erlernen von Mustern
      Es gibt sogar einen Functor, der eine Klavierpädagogik des 18. Jahrhunderts mit Context Engineering verbindet
  • Interessant fand ich Karpathys Punkt, dass LLMs in vom Nutzer bevorzugten Formaten wie Bildern, Slides oder Whiteboards kommunizieren sollten
    Wenn ein LLM aber jedes Mal für jeden Nutzer eine neue UX erzeugt, könnte das zu einer Hölle unvorhersehbarer Interfaces führen
    Dann entsteht so etwas wie: „Was macht in dieser App eigentlich Command-W?“

    • Andererseits beginnen einige aktuelle Agenten, auf Barrierefreiheit (accessibility) zu achten
      Bei Codex wird das teilweise gründlicher berücksichtigt als von Menschen
    • Wenn man sich die tatsächliche menschliche Kommunikation ansieht, dürfte Platz 1 wohl Text/Sprache sein und Platz 2 Bilder
    • Tatsächlich hat das LLM dieses Problem aber schon gelöst
      Das LLM selbst ist das beste UI
      Es versteht mehrere Sprachen und abstrakte Konzepte, daher braucht man gar keine zufälligen UIs zu erzeugen
      Als nicht englischsprachiger Nutzer kann ich deutsche Wörter dazwischenwerfen, und es versteht mich trotzdem gut
  • Viele AI-Influencer sind überzeugt, dass „Text-UI verschwinden wird“, aber in Wirklichkeit bleibt die Textschnittstelle weiterhin zentral

    • Vor ein paar Tagen wollte ich mein Abo für ein AI-3D-Modellierungstool kündigen und habe fünf Minuten lang den Button nicht gefunden
      Am Ende war er in dem Drei-Punkte-Menü mit niedrigem Kontrast auf der Tarifkarte versteckt, und beim Klicken öffnete sich ein AI-Chatbot-Fenster
      Erst nachdem ich den Prompt „unsubscribe“ eingegeben hatte, erschien der Button
      So eine IVR-artige UX in Apps einzubauen, finde ich schrecklich
      Als Frontend-Ingenieur macht mir dieser Trend ehrlich gesagt Angst
    • In meinem bisherigen Leben scheint es mir eher so, als würden Menschen immer mehr tippen statt sprechen
  • Ich frage mich, wie Andrej die diesjährigen schnellen Modelle (Gemini 3 Flash, Grok 4 Fast) einschätzt
    Es gibt jetzt Modelle, die so schnell, günstig und gut sind, und trotzdem scheint die Community ihnen kaum Aufmerksamkeit zu schenken
    Um die LLM-Vision visueller Interfaces zu verwirklichen, scheinen solche Modelle essenziell zu sein

    • Wahrscheinlich sind diese kleineren Modelle destillierte Versionen großer Modelle
      Ich vermute, sie wurden mit von großen Modellen erzeugten Reasoning Traces trainiert
    • Ich würde empfehlen, sich die Forschung von Sasha Luccioni anzusehen
  • 2025 war auch das Jahr, in dem Geister begannen, in den Trainingsdaten zu spuken
    Inzwischen besteht die Hälfte von X (Twitter) aus LLMs, die LLMs antworten
    Mit anderen Worten: Aufrufe finden innerhalb des Datensatzes selbst statt

    • Falls jemand Tipps hat, wie man solche LLM-Accounts erkennen kann, würde ich sie gern hören. Ich möchte nicht mit Bots diskutieren
  • Ich stimme zu, dass o3 ein Wendepunkt war
    Manche sagten, o3 oder o4-mini seien praktisch schon auf GPT-5-Niveau gewesen
    Aber weil die Namen ungewohnt waren, bekamen sie kaum Aufmerksamkeit, und stattdessen enttäuschte GPT-5 mit nur inkrementellen Verbesserungen
    o4-mini hätte sich wegen seiner holprigen Umgangssprache wohl nicht als Basismodell geeignet, aber unter einem Namen wie „gpt-5 pro“ im 20-Dollar-Tarif wäre es vielleicht besser angekommen

    • Sehe ich genauso. Kaum jemand hatte damals o3 ausprobiert, und wegen des seltsamen Namens bekam es wenig Aufmerksamkeit
      Rückblickend denke ich, dass das damals der richtige Zeitpunkt für einen Major Release gewesen wäre