14 Punkte von xguru 2025-02-02 | 1 Kommentare | Auf WhatsApp teilen
  • Das neue Modell o3-mini von OpenAI wurde vorgestellt und ist wie andere Modelle der o-Serie etwas schwer zu bewerten
    • Neben dem bestehenden GPT-4o, o1, o1 Pro usw. muss nun je nach Einsatzzweck entschieden werden, welches Modell man wählen sollte
  • Laut der o3-mini System Card (PDF) ist o3-mini in einigen Bewertungsmetriken besser als GPT-4o und o1, aber nicht in allen Punkten durchgängig überlegen
    • Besonders gute Ergebnisse zeigt es bei Benchmark-Metriken zur Competitive-Programming-Leistung wie Codeforces ELO
  • OpenAI will mit o3-mini Internetsuchen ermöglichen und die Ergebnisse anschließend in ChatGPT zusammenfassen lassen
    • Da das bisherige o1-Modell in ChatGPT kein Websuche-Tool genutzt hat, ist der praktische Nutzen dieser neuen Funktion besonders interessant
  • Außerdem unterstützt o3-mini keine Vision-(Bild-)Funktionen, aber im nächsten mini-Modell könnte Vision enthalten sein
  • In meinem CLI-Tool LLM 0.21 wurde Unterstützung für o3-mini hinzugefügt
    • Mit der Option -o reasoning_effort lassen sich high, medium und low festlegen
  • Derzeit ist o3-mini nur für Nutzer ab Tier 3 verfügbar
    • Für diese Stufe ist ein API-Mindestumsatz von über 100 US-Dollar erforderlich
  • Die Kosten von o3-mini betragen
    • 1,10 US-Dollar pro 1 Million Input-Tokens
    • 4,40 US-Dollar pro 1 Million Output-Tokens
    • Damit kostet es weniger als die Hälfte von GPT-4o (2,50/10 US-Dollar) und weniger als ein Zehntel von o1 (15/60 US-Dollar)
  • Um den Hacker-News-Beitrag (42890627) zusammenzufassen, wurde das Skript hn-summary.sh mit o3-mini ausprobiert
    • hn-summary.sh 42890627 -o o3-mini
    • Verwendet wurden 18.936 Input-Tokens und 2.905 Output-Tokens, die Gesamtkosten lagen bei etwa 0,033612 US-Dollar (3,3612 Cent)
  • Das maximale Output-Token-Limit von o3-mini liegt bei 100.000
    • Das ist deutlich mehr als bei GPT-4o (16.000), DeepSeek R1 (8.000) und Claude 3.5 (8.000)
    • Da auch für internes Reasoning verwendete Tokens innerhalb dieses Limits verbraucht werden, ist es möglicherweise schwer, tatsächlich 100.000 Ausgabetokens zu erreichen
  • Bei den Input-Tokens sind bis zu 200.000 möglich, also mehr als die 128.000 von GPT-4o
  • Es scheint besonders viel Potenzial für Aufgaben wie die Übersetzung langer Texte zu geben
    • Der Preis ist niedrig, und das Modell eignet sich gut für die Verarbeitung langer Ein- und Ausgaben
  • Interessant ist auch ein Kommentar des professionellen Übersetzers Tom Gally auf Hacker News
    • Sowohl DeepSeek R1 als auch o3-mini sollen bei der Übersetzung langer Texte im späteren Verlauf Qualitätsverluste gezeigt haben
    • Anfangs wirkte auch R1 nicht schlecht, aber o3-mini lieferte flüssigeres und natürlicheres Englisch und kam dem gewünschten Schreibstil näher
    • Die Ausgabelänge betrug jedoch bei R1 5.855 Zeichen, bei o3-mini 9.052 Zeichen und bei der manuell überarbeiteten Version 11.021 Zeichen
    • R1 ließ einige spätere Absätze aus, und o3-mini verwendete einen ungewöhnlich verkürzten Stil, bei dem zwischen Substantiven / statt and genutzt wurde
    • Zuvor hätten ChatGPT, Claude und Gemini bei der Übersetzung desselben Textes solche Probleme nicht gezeigt