OpenAI stellt die Modelle o3 und o4-mini vor

(openai.com)

5 Punkte von GN⁺ 2025-04-17 | 1 Kommentare | Auf WhatsApp teilen

Die Modelle o3 und o4-mini verbessern die Schlussfolgerungsfähigkeit von ChatGPT deutlich
Diese beiden Modelle gehen über einfache Frage-Antwort-Aufgaben hinaus und können auch komplexe Aufgaben ausführen, darunter kombinierte Tool-Nutzung, Analyse visueller Materialien, Bildgenerierung und Ausführung von Python-Code
Besonders hervorzuheben ist ihre Fähigkeit, bei Nutzeranfragen selbst zu entscheiden und auszuführen, welches Tool wann eingesetzt werden soll
Sie sind stark bei komplexer Problemlösung, visuellem Schlussfolgern und mehrstufigen Analysen und streben zugleich einen menschlicheren Konversationsstil an
o3 ist für die Lösung komplexer Probleme gedacht, o4-mini ist ein Modell für schnelles und effizientes Schlussfolgern und zielt jeweils auf hohe Leistung bzw. hohe Effizienz
Sie verfügen über multimodale Schlussfolgerungsfähigkeiten, bei denen Bild und Text gemeinsam verarbeitet werden, sowie über fortgeschrittene agentische Tool-Nutzung

Zentrale Funktionsänderungen

OpenAI o3

Das bisher leistungsstärkste auf Schlussfolgern ausgerichtete Modell
Erreicht Spitzenleistungen in Bereichen wie Coding, Mathematik, Wissenschaft und visuelle Analyse
Bestwerte in Benchmarks wie Codeforces, SWE-bench und MMMU
Laut Bewertungen externer Experten eine 20 % niedrigere Rate schwerwiegender Fehler als o1
Hervorragend bei Ideengenerierung und kritischer Bewertung in Bereichen wie Programmierung, Beratung, Biologie und Ingenieurwesen

OpenAI o4-mini

Kleines Modell, optimiert für Geschwindigkeit und Kosteneffizienz
Besonders stark bei Mathematik, Coding und visueller Problemlösung
Klassenbeste Leistung in den Benchmarks AIME 2024 und 2025
Auch in nicht-STEM-Bereichen stärker als o3-mini
Geeignet für Umgebungen mit hoher Auslastung und Bedarf an schnellen Antworten

Beide Modelle wurden gegenüber früheren Modellen bei Befehlsverständnis, Nützlichkeit der Antworten und Zuverlässigkeit verbessert
Auch die Fähigkeiten für Gesprächserinnerung und personalisierte Antworten wurden ausgebaut

Multimodale Funktionen

Bilder können nicht nur erkannt, sondern als Teil des Schlussfolgerungsprozesses genutzt werden
Nutzer können Fotos von Whiteboards, Diagramme aus Büchern, Skizzen usw. hochladen
Die Modelle können auch unscharfe oder verzerrte Bilder erkennen und analysieren
Bildverarbeitung wie Drehen, Vergrößern und Umwandeln kann ebenfalls automatisch über Tools erfolgen
Verbesserte komplexe Problemlösungsfähigkeit durch die Verbindung von Text- und visuellen Informationen

Auf Tool-Nutzung fokussierter Schlussfolgerungsansatz

o3 und o4-mini haben Zugriff auf alle Tools von ChatGPT
Wenn Nutzer eine Frage stellen, bestimmen und verwenden die Modelle automatisch die nötigen Tools, etwa Websuche, Dateianalyse oder Codeausführung
Beispiel: Bei der Anfrage „Prognose des sommerlichen Stromverbrauchs in Kalifornien“ werden Websuche → Erzeugung von Python-Code → Erstellung eines Diagramms in Folge ausgeführt
Nutzung von Echtzeitinformationen, mehrstufiges Schlussfolgern und modalitätsübergreifende Antworten sind möglich

Effiziente Schlussfolgerungsleistung

Vergleich von Leistung pro Kosten

o3 erreicht gegenüber o1, o4-mini gegenüber o3-mini massive Verbesserungen bei der Kosteneffizienz
Gemessen an den Ergebnissen des Mathematikwettbewerbs AIME 2025 sind sowohl o3 als auch o4-mini günstiger und intelligenter als ihre Vorgänger
Auch in realen Einsatzumgebungen werden sie voraussichtlich eine intelligentere und günstigere Wahl sein

Verbesserungen bei der Sicherheit

Für die Abwehr biologischer Bedrohungen, von Malware und Jailbreak-Prompts wurden die Modelle mit neuen Trainingsdaten erneut trainiert
Einführung eines LLM-basierten Sicherheitsüberwachungssystems, das Risiken in Modellantworten automatisch erkennt
Interne Tests zeigen eine Erkennungsrate von über 99 % bei riskanten Gesprächen
In Risikobereichen wie Bio-/Chemie, Cybersicherheit und AI-Selbstverbesserung wurden sie als unterhalb der Hochrisikoschwelle eingestuft
Sicherheitsprüfung gemäß dem neuesten Preparedness Framework abgeschlossen

Codex CLI: fortgeschrittener Schlussfolgerungsagent für das Terminal

Ein Tool, das die Schlussfolgerungsfähigkeiten von o3 und o4-mini auch im Terminal nutzbar macht
Nutzer können Code, Bilder, Screenshots usw. direkt über die CLI an das Modell übergeben
Das Modell kann mit Code in der lokalen Umgebung verbunden werden und multimodal schlussfolgern
Als Open Source veröffentlicht: github.com/openai/codex
OpenAI startet außerdem ein Förderprogramm über 1 Million US-Dollar für Projekte auf Basis von Codex CLI

Zugriff

ChatGPT-Plus-, Pro- und Team-Nutzer: o3, o4-mini und o4-mini-high sofort verfügbar
Enterprise- und Education-Nutzer: Zugriff ab in einer Woche
Auch kostenlose Nutzer können mit der Option „Think“ o4-mini verwenden
Für API-Nutzer ebenfalls ab heute verfügbar (Organisationsverifizierung kann erforderlich sein)
In der Responses API sollen verschiedene Funktionen bereitgestellt werden, darunter Reasoning-Zusammenfassungen, Erhalt des Reasonings rund um Function Calling und Websuche-Tools

Ausblick

Geplant ist eine Verbindung der spezialisierten Schlussfolgerungsfähigkeiten der o-Serie mit der natürlichen Konversationsfähigkeit der GPT-Serie
Künftig sollen sich die Modelle zu Systemen entwickeln, die Tools aktiv nutzen und dabei natürliche Gespräche fortführen können

1 Kommentare

GN⁺ 2025-04-17

Hacker-News-Kommentare

Es wurde eine technische Frage zum Reverse Engineering von Final Fantasy VII gestellt, aber die AI lieferte falsche Informationen
- Die AI suchte in Foren und auf Websites nach Informationen, erfand jedoch falsche Details, sodass das Ergebnis ungenau war
- Die AI schien zu erkennen, dass sie die Antwort nicht kannte, nannte aber dennoch selbstbewusst falsche Werte
- Es wird erwartet, dass sie ehrlich sagt, wenn sie die richtige Antwort nicht finden kann
o3 wurde verwendet, um auf NixOS die neueste Version von Webstorm zu installieren; es startete eine NixOS-VM, lud Pakete herunter und gab Installationsanweisungen
- Es scheint sogar GUI-Tests durchgeführt zu haben, was sehr beeindruckend ist
Claude 3.7 zeigt auf SWE-bench weiterhin die beste Leistung
- Es ist möglich, dass OpenAI-Modelle eine ähnliche Leistung zeigen
Ein einfacher „Turing-Test“, bei dem in C# ein Base-62-Konverter geschrieben werden sollte, wurde mit o4-mini-high erfolgreich bestanden
Mehrere AIs wurden nach dem Datum des Neumonds im August 2025 gefragt, doch die meisten Antworten waren falsch
- Claude verweigerte eine Antwort darauf, wie sich eine bestimmte Suchmaschine blockieren lässt
o3 und o4 erkennen, wenn kein Websuch-Tool verfügbar ist, und verweigern dann die Antwort
- 4o und 4.1 lieferten falsche Informationen
- Die neue Websuchfunktion ist nützlich und ermöglicht es, unnötige Python-Skripte zu löschen
Codex CLI wird als Open Source bereitgestellt
Ein Vergleich mit Sonnet 3.7 oder Gemini Pro 2.5 fehlte
Umfangreiches Reinforcement Learning scheint die Leistung zu verbessern, je mehr Rechenressourcen eingesetzt werden
- Es stellt sich die Frage, wie lange sich dieser Trend fortsetzen wird
Als Verbraucher ist es ermüdend, den Überblick darüber zu behalten, welches Modell man verwenden sollte

OpenAI stellt die Modelle o3 und o4-mini vor

Zentrale Funktionsänderungen

OpenAI o3

OpenAI o4-mini

Multimodale Funktionen

Auf Tool-Nutzung fokussierter Schlussfolgerungsansatz

Effiziente Schlussfolgerungsleistung

Vergleich von Leistung pro Kosten

Verbesserungen bei der Sicherheit

Codex CLI: fortgeschrittener Schlussfolgerungsagent für das Terminal

Zugriff

Ausblick

Verwandte Beiträge

1 Kommentare

Hacker-News-Kommentare