OpenAI o3-Mini veröffentlicht

(openai.com)

13 Punkte von GN⁺ 2025-02-01 | 1 Kommentare | Auf WhatsApp teilen

OpenAI o3-mini ist das neueste Modell in der Reihe kosteneffizienter Reasoning-Modelle
Nach der Vorschau im Dezember 2024 wurde es offiziell veröffentlicht und ist in ChatGPT sowie über die API verfügbar
Es zeigt starke Leistung in STEM-Bereichen wie Wissenschaft, Mathematik und Coding und behält dabei geringere Kosten und niedrigere Latenz als OpenAI o1-mini bei

Wichtige Funktionen und Verbesserungen

OpenAI o3-mini ist das erste kleine Reasoning-Modell, das Function Calling, strukturierte Ausgaben und Entwicklernachrichten unterstützt
Es unterstützt Streaming und bietet drei Optionen für den Reasoning-Aufwand: niedrig, mittel und hoch, sodass es je nach Anwendungsfall optimiert werden kann
Vision-Funktionen (Bilder) werden nicht unterstützt; wenn visuelles Reasoning erforderlich ist, wird OpenAI o1 empfohlen
Es ist über die Chat Completions API, Assistants API und Batch API verfügbar und wird Entwicklern in den API-Nutzungsstufen 3 bis 5 bereitgestellt
Nutzer von ChatGPT Plus, Team und Pro können es ab heute verwenden; Unterstützung für Enterprise-Nutzer ist ab Februar geplant
Es ersetzt OpenAI o1-mini und bietet höhere Geschwindigkeit sowie verbesserte Reasoning-Fähigkeiten
Das Nachrichtenlimit für Plus- und Team-Nutzer wurde von 50 auf 150 gegenüber dem bisherigen o1-mini erhöht
Eine Suchfunktion wurde hinzugefügt; derzeit wird eine Funktion erprobt, die aktuelle Informationen zusammen mit Weblinks bereitstellt

Erweiterter Zugang für kostenlose Nutzer

Auch kostenlose Nutzer können o3-mini verwenden, indem sie im Eingabefeld „Reason“ auswählen oder eine Antwort neu generieren
Dies ist das erste Mal, dass ein Reasoning-Modell in ChatGPT kostenlosen Nutzern zur Verfügung gestellt wird

STEM-Optimierung und Leistungssteigerung

Es bietet für STEM-Bereiche optimierte Leistung und erzeugt im Vergleich zu o1-mini schnellere und präzisere Antworten
Laut Bewertung durch professionelle Tester wurde o3-mini in 56 % der Fälle gegenüber o1-mini bevorzugt, und bei schwierigen Aufgaben wurde eine Reduktion schwerwiegender Fehler um 39 % festgestellt
Bei anspruchsvollen Bewertungen für Reasoning und Intelligenz wie AIME und GPQA zeigt es eine mit o1 vergleichbare Leistung und liefert dabei schnellere Antworten

Zentrale Leistungsvergleiche

Mathematik (AIME 2024):
- Bei niedrigem Reasoning-Aufwand ähnliche Leistung wie o1-mini, bei mittlerem Reasoning-Aufwand vergleichbar mit o1
- Bei hohem Reasoning-Aufwand bessere Leistung als o1 und o1-mini
Wissenschaftsfragen auf Promotionsniveau (GPQA Diamond):
- Bei Problemen aus Biologie, Chemie und Physik selbst bei niedrigem Reasoning-Aufwand besser als o1-mini
- Bei hohem Reasoning-Aufwand vergleichbare Leistung mit o1
Höhere Mathematik (FrontierMath):
- Mit dem Einsatz des Python-Tools werden beim ersten Versuch mehr als 32 % der Aufgaben gelöst, bei schwierigen Problemen (T3) ebenfalls mehr als 28 %
Wettbewerbsprogrammierung (Codeforces):
- Mit steigendem Reasoning-Aufwand werden höhere Elo-Werte erzielt, mit besserer Leistung als o1-mini
- Bei mittlerem Reasoning-Aufwand ähnliche Leistung wie o1
Software Engineering (SWE-bench Verified):
- Erzielt auf SWEbench-verified die beste Leistung aller bisher veröffentlichten Modelle
Praxisnahe Coding-Tests (LiveBench Coding):
- Übertrifft o1-high; bei hohem Reasoning-Aufwand fällt die Überlegenheit noch deutlicher aus
Bewertung von Allgemeinwissen:
- Zeigt insgesamt bessere Ergebnisse als o1-mini
Bewertung der Nutzerpräferenz:
- Experten-Tests zeigen, dass o3-mini gegenüber o1-mini zu 56 % bevorzugt wurde und bei schwierigen Aufgaben 39 % weniger Fehler machte

Geschwindigkeits- und Leistungsverbesserungen

Es hält eine mit o1 vergleichbare Intelligenz aufrecht und bietet zugleich höhere Geschwindigkeit und bessere Effizienz
Bei Bewertungen zu Mathematik und Faktentreue wurden bereits mit mittlerem Reasoning-Aufwand verbesserte Ergebnisse erzielt
A/B-Tests zeigen, dass o3-mini 24 % schneller antwortet als o1-mini
- Durchschnittliche Antwortzeit: o3-mini (7,7 Sekunden) vs. o1-mini (10,16 Sekunden)
- Zeit bis zur Ausgabe des ersten Tokens: o3-mini ist im Durchschnitt 2500 ms schneller als o1-mini

Sicherheit und Gegenmaßnahmen

OpenAI o3-mini wurde mit der Technik „deliberative alignment“ trainiert, um sicherere Antworten zu erzeugen
Im Vergleich zu OpenAI o1 zeigt es ein höheres Sicherheitsniveau und eine stärkere Abwehr gegen Jailbreaks als GPT-4o
Vor der Veröffentlichung wurde es durch Preparedness-Bewertungen, externe Red-Team-Tests und Sicherheitsprüfungen gründlich validiert
Ergebnisse der Bewertungen zu nicht zulässigen Inhalten und Jailbreak-Tests für o3-mini sind in der System Card verfügbar

Ausblick und weitere Pläne

OpenAI o3-mini steht für eine neue Phase in der Entwicklung kosteneffizienter AI-Intelligenz
Das Ziel, hochwertige AI für mehr Nutzer bereitzustellen, wird durch STEM-Optimierung und die Entwicklung kostengünstiger Modelle weiterverfolgt
Seit der Veröffentlichung von GPT-4 wurden die Kosten pro Token um 95 % gesenkt, während erstklassige Reasoning-Fähigkeiten erhalten bleiben
Mit der zunehmenden breiten Einführung von AI will sich OpenAI auf die Entwicklung von Modellen konzentrieren, die Intelligenz, Effizienz und Sicherheit in Balance bringen

1 Kommentare

GN⁺ 2025-02-01

Hacker-News-Kommentare

Das Modell Claude-3.5-sonnet ist sehr konsistent, während andere Modelle Probleme wie ADHS zu haben scheinen
- Wenn man in einer NextJS-App shadcn-Komponenten verwenden möchte, erledigt sonnet das nahezu perfekt, während andere Modelle versuchen, radix-ui zu verwenden
- Das Modell o3-mini hat dasselbe Problem
- Möglicherweise ist der Anweisungssatz von cursor das Problem
- sonnet bleibt die einzige praktikable Option fürs Coding
Die Antworten von o3-mini werden gegenüber o1-mini um 56 % bevorzugt
- Wenn beide Antworten 2.000 Wörter lang sind, neigt man dazu, diejenige auszuwählen, die die Frage schneller beantwortet
- Diese Umfrage ist bedeutungslos, und eine Antwortrate von 50 % ist wie ein Münzwurf
Es wurde ein mit o3-mini erstelltes Ergebnis zum Zusammenfassen des Threads geteilt
- 18.936 Eingabe-, 2.905 Ausgabe-Token kosteten 3,3612 Cent
Beim AI-Coding erreichte o3-mini ähnliche Werte wie o1, kostete aber nur ein Zehntel
- o3-mini liegt bei mittlerem Aufwand punktmäßig zwischen R1 und Sonnet
Eine neue Version des LLM-CLI-Tools wurde angekündigt, die das neue Modell und die Option reasoning_effort unterstützt
- Eine Beispielverwendung wurde geteilt
Es wurde darauf hingewiesen, dass der SWE-Bench-Wert von o3-mini von 61 % auf 49,3 % gefallen ist
- o3-mini zeigt bei echten Coding-Aufgaben eine ähnliche Leistung wie Claude
Es wurde erwähnt, dass o3-mini-high die eigentliche Ursache eines Segmentation Fault erfolgreich gefunden hat
- Es löst ein Problem, das o1 zuvor übersehen hatte
Bei SWE-Bench gab es einen deutlichen Anstieg, und es lohnt sich, noch einmal zu prüfen, ob Aufgaben bearbeitet werden können, die o1-mini zuvor nicht bewältigt hat
- Es gibt einen Kostenunterschied von $4 pro Million Ausgabe-Token gegenüber $60
Die AI-Landschaft verändert sich rasant, und neue AI-Modelle erscheinen
- Es wird darüber nachgedacht, wie sich die Veränderungen bei AI auf dieses Release und künftige Releases auswirken werden

OpenAI o3-Mini veröffentlicht

Wichtige Funktionen und Verbesserungen

Erweiterter Zugang für kostenlose Nutzer

STEM-Optimierung und Leistungssteigerung

Zentrale Leistungsvergleiche

Geschwindigkeits- und Leistungsverbesserungen

Sicherheit und Gegenmaßnahmen

Ausblick und weitere Pläne

Verwandte Beiträge

1 Kommentare

Hacker-News-Kommentare