- Das neue Modell o3-mini von OpenAI wurde vorgestellt und ist wie andere Modelle der o-Serie etwas schwer zu bewerten
- Neben dem bestehenden GPT-4o, o1, o1 Pro usw. muss nun je nach Einsatzzweck entschieden werden, welches Modell man wählen sollte
- Laut der o3-mini System Card (PDF) ist o3-mini in einigen Bewertungsmetriken besser als GPT-4o und o1, aber nicht in allen Punkten durchgängig überlegen
- Besonders gute Ergebnisse zeigt es bei Benchmark-Metriken zur Competitive-Programming-Leistung wie Codeforces ELO
- OpenAI will mit o3-mini Internetsuchen ermöglichen und die Ergebnisse anschließend in ChatGPT zusammenfassen lassen
- Da das bisherige o1-Modell in ChatGPT kein Websuche-Tool genutzt hat, ist der praktische Nutzen dieser neuen Funktion besonders interessant
- Außerdem unterstützt o3-mini keine Vision-(Bild-)Funktionen, aber im nächsten mini-Modell könnte Vision enthalten sein
- In meinem CLI-Tool LLM 0.21 wurde Unterstützung für o3-mini hinzugefügt
- Mit der Option
-o reasoning_effort lassen sich high, medium und low festlegen
- Derzeit ist o3-mini nur für Nutzer ab Tier 3 verfügbar
- Für diese Stufe ist ein API-Mindestumsatz von über 100 US-Dollar erforderlich
- Die Kosten von o3-mini betragen
- 1,10 US-Dollar pro 1 Million Input-Tokens
- 4,40 US-Dollar pro 1 Million Output-Tokens
- Damit kostet es weniger als die Hälfte von GPT-4o (2,50/10 US-Dollar) und weniger als ein Zehntel von o1 (15/60 US-Dollar)
- Um den Hacker-News-Beitrag (42890627) zusammenzufassen, wurde das Skript hn-summary.sh mit o3-mini ausprobiert
hn-summary.sh 42890627 -o o3-mini
- Verwendet wurden 18.936 Input-Tokens und 2.905 Output-Tokens, die Gesamtkosten lagen bei etwa 0,033612 US-Dollar (3,3612 Cent)
- Das maximale Output-Token-Limit von o3-mini liegt bei 100.000
- Das ist deutlich mehr als bei GPT-4o (16.000), DeepSeek R1 (8.000) und Claude 3.5 (8.000)
- Da auch für internes Reasoning verwendete Tokens innerhalb dieses Limits verbraucht werden, ist es möglicherweise schwer, tatsächlich 100.000 Ausgabetokens zu erreichen
- Bei den Input-Tokens sind bis zu 200.000 möglich, also mehr als die 128.000 von GPT-4o
- Es scheint besonders viel Potenzial für Aufgaben wie die Übersetzung langer Texte zu geben
- Der Preis ist niedrig, und das Modell eignet sich gut für die Verarbeitung langer Ein- und Ausgaben
- Interessant ist auch ein Kommentar des professionellen Übersetzers Tom Gally auf Hacker News
- Sowohl DeepSeek R1 als auch o3-mini sollen bei der Übersetzung langer Texte im späteren Verlauf Qualitätsverluste gezeigt haben
- Anfangs wirkte auch R1 nicht schlecht, aber o3-mini lieferte flüssigeres und natürlicheres Englisch und kam dem gewünschten Schreibstil näher
- Die Ausgabelänge betrug jedoch bei R1 5.855 Zeichen, bei o3-mini 9.052 Zeichen und bei der manuell überarbeiteten Version 11.021 Zeichen
- R1 ließ einige spätere Absätze aus, und o3-mini verwendete einen ungewöhnlich verkürzten Stil, bei dem zwischen Substantiven
/ statt and genutzt wurde
- Zuvor hätten ChatGPT, Claude und Gemini bei der Übersetzung desselben Textes solche Probleme nicht gezeigt
1 Kommentare
Veröffentlichung von OpenAI o3-Mini