- OpenAI o3-mini ist das neueste Modell in der Reihe kosteneffizienter Reasoning-Modelle
- Nach der Vorschau im Dezember 2024 wurde es offiziell veröffentlicht und ist in ChatGPT sowie über die API verfügbar
- Es zeigt starke Leistung in STEM-Bereichen wie Wissenschaft, Mathematik und Coding und behält dabei geringere Kosten und niedrigere Latenz als OpenAI o1-mini bei
Wichtige Funktionen und Verbesserungen
- OpenAI o3-mini ist das erste kleine Reasoning-Modell, das Function Calling, strukturierte Ausgaben und Entwicklernachrichten unterstützt
- Es unterstützt Streaming und bietet drei Optionen für den Reasoning-Aufwand: niedrig, mittel und hoch, sodass es je nach Anwendungsfall optimiert werden kann
- Vision-Funktionen (Bilder) werden nicht unterstützt; wenn visuelles Reasoning erforderlich ist, wird OpenAI o1 empfohlen
- Es ist über die Chat Completions API, Assistants API und Batch API verfügbar und wird Entwicklern in den API-Nutzungsstufen 3 bis 5 bereitgestellt
- Nutzer von ChatGPT Plus, Team und Pro können es ab heute verwenden; Unterstützung für Enterprise-Nutzer ist ab Februar geplant
- Es ersetzt OpenAI o1-mini und bietet höhere Geschwindigkeit sowie verbesserte Reasoning-Fähigkeiten
- Das Nachrichtenlimit für Plus- und Team-Nutzer wurde von 50 auf 150 gegenüber dem bisherigen o1-mini erhöht
- Eine Suchfunktion wurde hinzugefügt; derzeit wird eine Funktion erprobt, die aktuelle Informationen zusammen mit Weblinks bereitstellt
Erweiterter Zugang für kostenlose Nutzer
- Auch kostenlose Nutzer können o3-mini verwenden, indem sie im Eingabefeld „Reason“ auswählen oder eine Antwort neu generieren
- Dies ist das erste Mal, dass ein Reasoning-Modell in ChatGPT kostenlosen Nutzern zur Verfügung gestellt wird
STEM-Optimierung und Leistungssteigerung
- Es bietet für STEM-Bereiche optimierte Leistung und erzeugt im Vergleich zu o1-mini schnellere und präzisere Antworten
- Laut Bewertung durch professionelle Tester wurde o3-mini in 56 % der Fälle gegenüber o1-mini bevorzugt, und bei schwierigen Aufgaben wurde eine Reduktion schwerwiegender Fehler um 39 % festgestellt
- Bei anspruchsvollen Bewertungen für Reasoning und Intelligenz wie AIME und GPQA zeigt es eine mit o1 vergleichbare Leistung und liefert dabei schnellere Antworten
Zentrale Leistungsvergleiche
- Mathematik (AIME 2024):
- Bei niedrigem Reasoning-Aufwand ähnliche Leistung wie o1-mini, bei mittlerem Reasoning-Aufwand vergleichbar mit o1
- Bei hohem Reasoning-Aufwand bessere Leistung als o1 und o1-mini
- Wissenschaftsfragen auf Promotionsniveau (GPQA Diamond):
- Bei Problemen aus Biologie, Chemie und Physik selbst bei niedrigem Reasoning-Aufwand besser als o1-mini
- Bei hohem Reasoning-Aufwand vergleichbare Leistung mit o1
- Höhere Mathematik (FrontierMath):
- Mit dem Einsatz des Python-Tools werden beim ersten Versuch mehr als 32 % der Aufgaben gelöst, bei schwierigen Problemen (T3) ebenfalls mehr als 28 %
- Wettbewerbsprogrammierung (Codeforces):
- Mit steigendem Reasoning-Aufwand werden höhere Elo-Werte erzielt, mit besserer Leistung als o1-mini
- Bei mittlerem Reasoning-Aufwand ähnliche Leistung wie o1
- Software Engineering (SWE-bench Verified):
- Erzielt auf SWEbench-verified die beste Leistung aller bisher veröffentlichten Modelle
- Praxisnahe Coding-Tests (LiveBench Coding):
- Übertrifft o1-high; bei hohem Reasoning-Aufwand fällt die Überlegenheit noch deutlicher aus
- Bewertung von Allgemeinwissen:
- Zeigt insgesamt bessere Ergebnisse als o1-mini
- Bewertung der Nutzerpräferenz:
- Experten-Tests zeigen, dass o3-mini gegenüber o1-mini zu 56 % bevorzugt wurde und bei schwierigen Aufgaben 39 % weniger Fehler machte
Geschwindigkeits- und Leistungsverbesserungen
- Es hält eine mit o1 vergleichbare Intelligenz aufrecht und bietet zugleich höhere Geschwindigkeit und bessere Effizienz
- Bei Bewertungen zu Mathematik und Faktentreue wurden bereits mit mittlerem Reasoning-Aufwand verbesserte Ergebnisse erzielt
- A/B-Tests zeigen, dass o3-mini 24 % schneller antwortet als o1-mini
- Durchschnittliche Antwortzeit: o3-mini (7,7 Sekunden) vs. o1-mini (10,16 Sekunden)
- Zeit bis zur Ausgabe des ersten Tokens: o3-mini ist im Durchschnitt 2500 ms schneller als o1-mini
Sicherheit und Gegenmaßnahmen
- OpenAI o3-mini wurde mit der Technik „deliberative alignment“ trainiert, um sicherere Antworten zu erzeugen
- Im Vergleich zu OpenAI o1 zeigt es ein höheres Sicherheitsniveau und eine stärkere Abwehr gegen Jailbreaks als GPT-4o
- Vor der Veröffentlichung wurde es durch Preparedness-Bewertungen, externe Red-Team-Tests und Sicherheitsprüfungen gründlich validiert
- Ergebnisse der Bewertungen zu nicht zulässigen Inhalten und Jailbreak-Tests für o3-mini sind in der System Card verfügbar
Ausblick und weitere Pläne
- OpenAI o3-mini steht für eine neue Phase in der Entwicklung kosteneffizienter AI-Intelligenz
- Das Ziel, hochwertige AI für mehr Nutzer bereitzustellen, wird durch STEM-Optimierung und die Entwicklung kostengünstiger Modelle weiterverfolgt
- Seit der Veröffentlichung von GPT-4 wurden die Kosten pro Token um 95 % gesenkt, während erstklassige Reasoning-Fähigkeiten erhalten bleiben
- Mit der zunehmenden breiten Einführung von AI will sich OpenAI auf die Entwicklung von Modellen konzentrieren, die Intelligenz, Effizienz und Sicherheit in Balance bringen
1 Kommentare
Hacker-News-Kommentare
Das Modell Claude-3.5-sonnet ist sehr konsistent, während andere Modelle Probleme wie ADHS zu haben scheinen
Die Antworten von o3-mini werden gegenüber o1-mini um 56 % bevorzugt
Es wurde ein mit o3-mini erstelltes Ergebnis zum Zusammenfassen des Threads geteilt
Beim AI-Coding erreichte o3-mini ähnliche Werte wie o1, kostete aber nur ein Zehntel
Eine neue Version des LLM-CLI-Tools wurde angekündigt, die das neue Modell und die Option
reasoning_effortunterstütztEs wurde darauf hingewiesen, dass der SWE-Bench-Wert von o3-mini von 61 % auf 49,3 % gefallen ist
Es wurde erwähnt, dass o3-mini-high die eigentliche Ursache eines Segmentation Fault erfolgreich gefunden hat
Bei SWE-Bench gab es einen deutlichen Anstieg, und es lohnt sich, noch einmal zu prüfen, ob Aufgaben bearbeitet werden können, die o1-mini zuvor nicht bewältigt hat
Die AI-Landschaft verändert sich rasant, und neue AI-Modelle erscheinen