- Die Modelle o3 und o4-mini verbessern die Schlussfolgerungsfähigkeit von ChatGPT deutlich
- Diese beiden Modelle gehen über einfache Frage-Antwort-Aufgaben hinaus und können auch komplexe Aufgaben ausführen, darunter kombinierte Tool-Nutzung, Analyse visueller Materialien, Bildgenerierung und Ausführung von Python-Code
- Besonders hervorzuheben ist ihre Fähigkeit, bei Nutzeranfragen selbst zu entscheiden und auszuführen, welches Tool wann eingesetzt werden soll
- Sie sind stark bei komplexer Problemlösung, visuellem Schlussfolgern und mehrstufigen Analysen und streben zugleich einen menschlicheren Konversationsstil an
- o3 ist für die Lösung komplexer Probleme gedacht, o4-mini ist ein Modell für schnelles und effizientes Schlussfolgern und zielt jeweils auf hohe Leistung bzw. hohe Effizienz
- Sie verfügen über multimodale Schlussfolgerungsfähigkeiten, bei denen Bild und Text gemeinsam verarbeitet werden, sowie über fortgeschrittene agentische Tool-Nutzung
Zentrale Funktionsänderungen
OpenAI o3
- Das bisher leistungsstärkste auf Schlussfolgern ausgerichtete Modell
- Erreicht Spitzenleistungen in Bereichen wie Coding, Mathematik, Wissenschaft und visuelle Analyse
- Bestwerte in Benchmarks wie Codeforces, SWE-bench und MMMU
- Laut Bewertungen externer Experten eine 20 % niedrigere Rate schwerwiegender Fehler als o1
- Hervorragend bei Ideengenerierung und kritischer Bewertung in Bereichen wie Programmierung, Beratung, Biologie und Ingenieurwesen
OpenAI o4-mini
- Kleines Modell, optimiert für Geschwindigkeit und Kosteneffizienz
- Besonders stark bei Mathematik, Coding und visueller Problemlösung
- Klassenbeste Leistung in den Benchmarks AIME 2024 und 2025
- Auch in nicht-STEM-Bereichen stärker als o3-mini
- Geeignet für Umgebungen mit hoher Auslastung und Bedarf an schnellen Antworten
- Beide Modelle wurden gegenüber früheren Modellen bei Befehlsverständnis, Nützlichkeit der Antworten und Zuverlässigkeit verbessert
- Auch die Fähigkeiten für Gesprächserinnerung und personalisierte Antworten wurden ausgebaut
Multimodale Funktionen
- Bilder können nicht nur erkannt, sondern als Teil des Schlussfolgerungsprozesses genutzt werden
- Nutzer können Fotos von Whiteboards, Diagramme aus Büchern, Skizzen usw. hochladen
- Die Modelle können auch unscharfe oder verzerrte Bilder erkennen und analysieren
- Bildverarbeitung wie Drehen, Vergrößern und Umwandeln kann ebenfalls automatisch über Tools erfolgen
- Verbesserte komplexe Problemlösungsfähigkeit durch die Verbindung von Text- und visuellen Informationen
Auf Tool-Nutzung fokussierter Schlussfolgerungsansatz
- o3 und o4-mini haben Zugriff auf alle Tools von ChatGPT
- Wenn Nutzer eine Frage stellen, bestimmen und verwenden die Modelle automatisch die nötigen Tools, etwa Websuche, Dateianalyse oder Codeausführung
- Beispiel: Bei der Anfrage „Prognose des sommerlichen Stromverbrauchs in Kalifornien“ werden Websuche → Erzeugung von Python-Code → Erstellung eines Diagramms in Folge ausgeführt
- Nutzung von Echtzeitinformationen, mehrstufiges Schlussfolgern und modalitätsübergreifende Antworten sind möglich
Effiziente Schlussfolgerungsleistung
Vergleich von Leistung pro Kosten
- o3 erreicht gegenüber o1, o4-mini gegenüber o3-mini massive Verbesserungen bei der Kosteneffizienz
- Gemessen an den Ergebnissen des Mathematikwettbewerbs AIME 2025 sind sowohl o3 als auch o4-mini günstiger und intelligenter als ihre Vorgänger
- Auch in realen Einsatzumgebungen werden sie voraussichtlich eine intelligentere und günstigere Wahl sein
Verbesserungen bei der Sicherheit
- Für die Abwehr biologischer Bedrohungen, von Malware und Jailbreak-Prompts wurden die Modelle mit neuen Trainingsdaten erneut trainiert
- Einführung eines LLM-basierten Sicherheitsüberwachungssystems, das Risiken in Modellantworten automatisch erkennt
- Interne Tests zeigen eine Erkennungsrate von über 99 % bei riskanten Gesprächen
- In Risikobereichen wie Bio-/Chemie, Cybersicherheit und AI-Selbstverbesserung wurden sie als unterhalb der Hochrisikoschwelle eingestuft
- Sicherheitsprüfung gemäß dem neuesten Preparedness Framework abgeschlossen
Codex CLI: fortgeschrittener Schlussfolgerungsagent für das Terminal
- Ein Tool, das die Schlussfolgerungsfähigkeiten von o3 und o4-mini auch im Terminal nutzbar macht
- Nutzer können Code, Bilder, Screenshots usw. direkt über die CLI an das Modell übergeben
- Das Modell kann mit Code in der lokalen Umgebung verbunden werden und multimodal schlussfolgern
- Als Open Source veröffentlicht: github.com/openai/codex
- OpenAI startet außerdem ein Förderprogramm über 1 Million US-Dollar für Projekte auf Basis von Codex CLI
Zugriff
- ChatGPT-Plus-, Pro- und Team-Nutzer: o3, o4-mini und o4-mini-high sofort verfügbar
- Enterprise- und Education-Nutzer: Zugriff ab in einer Woche
- Auch kostenlose Nutzer können mit der Option „Think“ o4-mini verwenden
- Für API-Nutzer ebenfalls ab heute verfügbar (Organisationsverifizierung kann erforderlich sein)
- In der Responses API sollen verschiedene Funktionen bereitgestellt werden, darunter Reasoning-Zusammenfassungen, Erhalt des Reasonings rund um Function Calling und Websuche-Tools
Ausblick
- Geplant ist eine Verbindung der spezialisierten Schlussfolgerungsfähigkeiten der o-Serie mit der natürlichen Konversationsfähigkeit der GPT-Serie
- Künftig sollen sich die Modelle zu Systemen entwickeln, die Tools aktiv nutzen und dabei natürliche Gespräche fortführen können
1 Kommentare
Hacker-News-Kommentare
Es wurde eine technische Frage zum Reverse Engineering von Final Fantasy VII gestellt, aber die AI lieferte falsche Informationen
o3 wurde verwendet, um auf NixOS die neueste Version von Webstorm zu installieren; es startete eine NixOS-VM, lud Pakete herunter und gab Installationsanweisungen
Claude 3.7 zeigt auf SWE-bench weiterhin die beste Leistung
Ein einfacher „Turing-Test“, bei dem in C# ein Base-62-Konverter geschrieben werden sollte, wurde mit o4-mini-high erfolgreich bestanden
Mehrere AIs wurden nach dem Datum des Neumonds im August 2025 gefragt, doch die meisten Antworten waren falsch
o3 und o4 erkennen, wenn kein Websuch-Tool verfügbar ist, und verweigern dann die Antwort
Codex CLI wird als Open Source bereitgestellt
Ein Vergleich mit Sonnet 3.7 oder Gemini Pro 2.5 fehlte
Umfangreiches Reinforcement Learning scheint die Leistung zu verbessern, je mehr Rechenressourcen eingesetzt werden
Als Verbraucher ist es ermüdend, den Überblick darüber zu behalten, welches Modell man verwenden sollte