Simon Willisons Notizen zu o3-mini

xguru · 2025-02-02T10:07:02+09:00

Das neue Modell o3-mini von OpenAI wurde vorgestellt und ist wie andere Modelle der o-Serie etwas schwer zu bewerten Neben dem bestehenden GPT-4o, o1, o1 Pro usw. muss nun je nach Einsatzzweck entschieden werden, welches Modell man wählen sollte Laut der o3-mini System Card (PDF) ist o3-mini in einigen Bewertungsmetriken besser als GPT-4o und o1, aber nicht in allen Punkten durchgängig überlegen Besonders gute Ergebnisse zeigt es bei Benchmark-Metriken zur Competitive-Programming-Leistung wie Codeforces ELO OpenAI will mit o3-mini Internetsuchen ermöglichen und die Ergebnisse anschließend in ChatGPT zusammenfassen lassen Da das bisherige o1-Modell in ChatGPT kein Websuche-Tool genutzt hat, ist der praktische Nutzen dieser neuen Funktion besonders interessant Außerdem unterstützt o3-mini keine Vision-(Bild-)Funktionen, aber im nächsten mini-Modell könnte Vision enthalten sein In meinem CLI-Tool LLM 0.21 wurde Unterstützung für o3-mini hinzugefügt Mit der Option -o reasoning_effort lassen sich high, medium und low festlegen Derzeit ist o3-mini nur für Nutzer ab Tier 3 verfügbar Für diese Stufe ist ein API-Mindestumsatz von über 100 US-Dollar erforderlich Die Kosten von o3-mini betragen 1,10 US-Dollar pro 1 Million Input-Tokens 4,40 US-Dollar pro 1 Million Output-Tokens Damit kostet es weniger als die Hälfte von GPT-4o (2,50/10 US-Dollar) und weniger als ein Zehntel von o1 (15/60 US-Dollar) Um den Hacker-News-Beitrag (42890627) zusammenzufassen, wurde das Skript hn-summary.sh mit o3-mini ausprobiert hn-summary.sh 42890627 -o o3-mini Verwendet wurden 18.936 Input-Tokens und 2.905 Output-Tokens, die Gesamtkosten lagen bei etwa 0,033612 US-Dollar (3,3612 Cent) Das maximale Output-Token-Limit von o3-mini liegt bei 100.000 Das ist deutlich mehr als bei GPT-4o (16.000), DeepSeek R1 (8.000) und Claude 3.5 (8.000) Da auch für internes Reasoning verwendete Tokens innerhalb dieses Limits verbraucht werden, ist es möglicherweise schwer, tatsächlich 100.000 Ausgabetokens zu erreichen Bei den Input-Tokens sind bis zu 200.000 möglich, also mehr als die 128.000 von GPT-4o Es scheint besonders viel Potenzial für Aufgaben wie die Übersetzung langer Texte zu geben Der Preis ist niedrig, und das Modell eignet sich gut für die Verarbeitung langer Ein- und Ausgaben Interessant ist auch ein Kommentar des professionellen Übersetzers Tom Gally auf Hacker News Sowohl DeepSeek R1 als auch o3-mini sollen bei der Übersetzung langer Texte im späteren Verlauf Qualitätsverluste gezeigt haben Anfangs wirkte auch R1 nicht schlecht, aber o3-mini lieferte flüssigeres und natürlicheres Englisch und kam dem gewünschten Schreibstil näher Die Ausgabelänge betrug jedoch bei R1 5.855 Zeichen, bei o3-mini 9.052 Zeichen und bei der manuell überarbeiteten Version 11.021 Zeichen R1 ließ einige spätere Absätze aus, und o3-mini verwendete einen ungewöhnlich verkürzten Stil, bei dem zwischen Substantiven / statt and genutzt wurde Zuvor hätten ChatGPT, Claude und Gemini bei der Übersetzung desselben Textes solche Probleme nicht gezeigt

(simonwillison.net)

14 Punkte von xguru 2025-02-02 | 1 Kommentare | Auf WhatsApp teilen

Das neue Modell o3-mini von OpenAI wurde vorgestellt und ist wie andere Modelle der o-Serie etwas schwer zu bewerten
- Neben dem bestehenden GPT-4o, o1, o1 Pro usw. muss nun je nach Einsatzzweck entschieden werden, welches Modell man wählen sollte
Laut der o3-mini System Card (PDF) ist o3-mini in einigen Bewertungsmetriken besser als GPT-4o und o1, aber nicht in allen Punkten durchgängig überlegen
- Besonders gute Ergebnisse zeigt es bei Benchmark-Metriken zur Competitive-Programming-Leistung wie Codeforces ELO
OpenAI will mit o3-mini Internetsuchen ermöglichen und die Ergebnisse anschließend in ChatGPT zusammenfassen lassen
- Da das bisherige o1-Modell in ChatGPT kein Websuche-Tool genutzt hat, ist der praktische Nutzen dieser neuen Funktion besonders interessant
Außerdem unterstützt o3-mini keine Vision-(Bild-)Funktionen, aber im nächsten mini-Modell könnte Vision enthalten sein
In meinem CLI-Tool LLM 0.21 wurde Unterstützung für o3-mini hinzugefügt
- Mit der Option -o reasoning_effort lassen sich high, medium und low festlegen
Derzeit ist o3-mini nur für Nutzer ab Tier 3 verfügbar
- Für diese Stufe ist ein API-Mindestumsatz von über 100 US-Dollar erforderlich
Die Kosten von o3-mini betragen
- 1,10 US-Dollar pro 1 Million Input-Tokens
- 4,40 US-Dollar pro 1 Million Output-Tokens
- Damit kostet es weniger als die Hälfte von GPT-4o (2,50/10 US-Dollar) und weniger als ein Zehntel von o1 (15/60 US-Dollar)
Um den Hacker-News-Beitrag (42890627) zusammenzufassen, wurde das Skript hn-summary.sh mit o3-mini ausprobiert
- hn-summary.sh 42890627 -o o3-mini
- Verwendet wurden 18.936 Input-Tokens und 2.905 Output-Tokens, die Gesamtkosten lagen bei etwa 0,033612 US-Dollar (3,3612 Cent)
Das maximale Output-Token-Limit von o3-mini liegt bei 100.000
- Das ist deutlich mehr als bei GPT-4o (16.000), DeepSeek R1 (8.000) und Claude 3.5 (8.000)
- Da auch für internes Reasoning verwendete Tokens innerhalb dieses Limits verbraucht werden, ist es möglicherweise schwer, tatsächlich 100.000 Ausgabetokens zu erreichen
Bei den Input-Tokens sind bis zu 200.000 möglich, also mehr als die 128.000 von GPT-4o
Es scheint besonders viel Potenzial für Aufgaben wie die Übersetzung langer Texte zu geben
- Der Preis ist niedrig, und das Modell eignet sich gut für die Verarbeitung langer Ein- und Ausgaben
Interessant ist auch ein Kommentar des professionellen Übersetzers Tom Gally auf Hacker News
- Sowohl DeepSeek R1 als auch o3-mini sollen bei der Übersetzung langer Texte im späteren Verlauf Qualitätsverluste gezeigt haben
- Anfangs wirkte auch R1 nicht schlecht, aber o3-mini lieferte flüssigeres und natürlicheres Englisch und kam dem gewünschten Schreibstil näher
- Die Ausgabelänge betrug jedoch bei R1 5.855 Zeichen, bei o3-mini 9.052 Zeichen und bei der manuell überarbeiteten Version 11.021 Zeichen
- R1 ließ einige spätere Absätze aus, und o3-mini verwendete einen ungewöhnlich verkürzten Stil, bei dem zwischen Substantiven / statt and genutzt wurde
- Zuvor hätten ChatGPT, Claude und Gemini bei der Übersetzung desselben Textes solche Probleme nicht gezeigt

1 Kommentare

xguru 2025-02-02

Veröffentlichung von OpenAI o3-Mini

Simon Willisons Notizen zu o3-mini

Verwandte Beiträge

1 Kommentare