13 Punkte von GN⁺ 2025-02-01 | 1 Kommentare | Auf WhatsApp teilen
  • OpenAI o3-mini ist das neueste Modell in der Reihe kosteneffizienter Reasoning-Modelle
  • Nach der Vorschau im Dezember 2024 wurde es offiziell veröffentlicht und ist in ChatGPT sowie über die API verfügbar
  • Es zeigt starke Leistung in STEM-Bereichen wie Wissenschaft, Mathematik und Coding und behält dabei geringere Kosten und niedrigere Latenz als OpenAI o1-mini bei

Wichtige Funktionen und Verbesserungen

  • OpenAI o3-mini ist das erste kleine Reasoning-Modell, das Function Calling, strukturierte Ausgaben und Entwicklernachrichten unterstützt
  • Es unterstützt Streaming und bietet drei Optionen für den Reasoning-Aufwand: niedrig, mittel und hoch, sodass es je nach Anwendungsfall optimiert werden kann
  • Vision-Funktionen (Bilder) werden nicht unterstützt; wenn visuelles Reasoning erforderlich ist, wird OpenAI o1 empfohlen
  • Es ist über die Chat Completions API, Assistants API und Batch API verfügbar und wird Entwicklern in den API-Nutzungsstufen 3 bis 5 bereitgestellt
  • Nutzer von ChatGPT Plus, Team und Pro können es ab heute verwenden; Unterstützung für Enterprise-Nutzer ist ab Februar geplant
  • Es ersetzt OpenAI o1-mini und bietet höhere Geschwindigkeit sowie verbesserte Reasoning-Fähigkeiten
  • Das Nachrichtenlimit für Plus- und Team-Nutzer wurde von 50 auf 150 gegenüber dem bisherigen o1-mini erhöht
  • Eine Suchfunktion wurde hinzugefügt; derzeit wird eine Funktion erprobt, die aktuelle Informationen zusammen mit Weblinks bereitstellt

Erweiterter Zugang für kostenlose Nutzer

  • Auch kostenlose Nutzer können o3-mini verwenden, indem sie im Eingabefeld „Reason“ auswählen oder eine Antwort neu generieren
  • Dies ist das erste Mal, dass ein Reasoning-Modell in ChatGPT kostenlosen Nutzern zur Verfügung gestellt wird

STEM-Optimierung und Leistungssteigerung

  • Es bietet für STEM-Bereiche optimierte Leistung und erzeugt im Vergleich zu o1-mini schnellere und präzisere Antworten
  • Laut Bewertung durch professionelle Tester wurde o3-mini in 56 % der Fälle gegenüber o1-mini bevorzugt, und bei schwierigen Aufgaben wurde eine Reduktion schwerwiegender Fehler um 39 % festgestellt
  • Bei anspruchsvollen Bewertungen für Reasoning und Intelligenz wie AIME und GPQA zeigt es eine mit o1 vergleichbare Leistung und liefert dabei schnellere Antworten

Zentrale Leistungsvergleiche

  • Mathematik (AIME 2024):
    • Bei niedrigem Reasoning-Aufwand ähnliche Leistung wie o1-mini, bei mittlerem Reasoning-Aufwand vergleichbar mit o1
    • Bei hohem Reasoning-Aufwand bessere Leistung als o1 und o1-mini
  • Wissenschaftsfragen auf Promotionsniveau (GPQA Diamond):
    • Bei Problemen aus Biologie, Chemie und Physik selbst bei niedrigem Reasoning-Aufwand besser als o1-mini
    • Bei hohem Reasoning-Aufwand vergleichbare Leistung mit o1
  • Höhere Mathematik (FrontierMath):
    • Mit dem Einsatz des Python-Tools werden beim ersten Versuch mehr als 32 % der Aufgaben gelöst, bei schwierigen Problemen (T3) ebenfalls mehr als 28 %
  • Wettbewerbsprogrammierung (Codeforces):
    • Mit steigendem Reasoning-Aufwand werden höhere Elo-Werte erzielt, mit besserer Leistung als o1-mini
    • Bei mittlerem Reasoning-Aufwand ähnliche Leistung wie o1
  • Software Engineering (SWE-bench Verified):
    • Erzielt auf SWEbench-verified die beste Leistung aller bisher veröffentlichten Modelle
  • Praxisnahe Coding-Tests (LiveBench Coding):
    • Übertrifft o1-high; bei hohem Reasoning-Aufwand fällt die Überlegenheit noch deutlicher aus
  • Bewertung von Allgemeinwissen:
    • Zeigt insgesamt bessere Ergebnisse als o1-mini
  • Bewertung der Nutzerpräferenz:
    • Experten-Tests zeigen, dass o3-mini gegenüber o1-mini zu 56 % bevorzugt wurde und bei schwierigen Aufgaben 39 % weniger Fehler machte

Geschwindigkeits- und Leistungsverbesserungen

  • Es hält eine mit o1 vergleichbare Intelligenz aufrecht und bietet zugleich höhere Geschwindigkeit und bessere Effizienz
  • Bei Bewertungen zu Mathematik und Faktentreue wurden bereits mit mittlerem Reasoning-Aufwand verbesserte Ergebnisse erzielt
  • A/B-Tests zeigen, dass o3-mini 24 % schneller antwortet als o1-mini
    • Durchschnittliche Antwortzeit: o3-mini (7,7 Sekunden) vs. o1-mini (10,16 Sekunden)
    • Zeit bis zur Ausgabe des ersten Tokens: o3-mini ist im Durchschnitt 2500 ms schneller als o1-mini

Sicherheit und Gegenmaßnahmen

  • OpenAI o3-mini wurde mit der Technik „deliberative alignment“ trainiert, um sicherere Antworten zu erzeugen
  • Im Vergleich zu OpenAI o1 zeigt es ein höheres Sicherheitsniveau und eine stärkere Abwehr gegen Jailbreaks als GPT-4o
  • Vor der Veröffentlichung wurde es durch Preparedness-Bewertungen, externe Red-Team-Tests und Sicherheitsprüfungen gründlich validiert
  • Ergebnisse der Bewertungen zu nicht zulässigen Inhalten und Jailbreak-Tests für o3-mini sind in der System Card verfügbar

Ausblick und weitere Pläne

  • OpenAI o3-mini steht für eine neue Phase in der Entwicklung kosteneffizienter AI-Intelligenz
  • Das Ziel, hochwertige AI für mehr Nutzer bereitzustellen, wird durch STEM-Optimierung und die Entwicklung kostengünstiger Modelle weiterverfolgt
  • Seit der Veröffentlichung von GPT-4 wurden die Kosten pro Token um 95 % gesenkt, während erstklassige Reasoning-Fähigkeiten erhalten bleiben
  • Mit der zunehmenden breiten Einführung von AI will sich OpenAI auf die Entwicklung von Modellen konzentrieren, die Intelligenz, Effizienz und Sicherheit in Balance bringen

1 Kommentare

 
GN⁺ 2025-02-01
Hacker-News-Kommentare
  • Das Modell Claude-3.5-sonnet ist sehr konsistent, während andere Modelle Probleme wie ADHS zu haben scheinen

    • Wenn man in einer NextJS-App shadcn-Komponenten verwenden möchte, erledigt sonnet das nahezu perfekt, während andere Modelle versuchen, radix-ui zu verwenden
    • Das Modell o3-mini hat dasselbe Problem
    • Möglicherweise ist der Anweisungssatz von cursor das Problem
    • sonnet bleibt die einzige praktikable Option fürs Coding
  • Die Antworten von o3-mini werden gegenüber o1-mini um 56 % bevorzugt

    • Wenn beide Antworten 2.000 Wörter lang sind, neigt man dazu, diejenige auszuwählen, die die Frage schneller beantwortet
    • Diese Umfrage ist bedeutungslos, und eine Antwortrate von 50 % ist wie ein Münzwurf
  • Es wurde ein mit o3-mini erstelltes Ergebnis zum Zusammenfassen des Threads geteilt

    • 18.936 Eingabe-, 2.905 Ausgabe-Token kosteten 3,3612 Cent
  • Beim AI-Coding erreichte o3-mini ähnliche Werte wie o1, kostete aber nur ein Zehntel

    • o3-mini liegt bei mittlerem Aufwand punktmäßig zwischen R1 und Sonnet
  • Eine neue Version des LLM-CLI-Tools wurde angekündigt, die das neue Modell und die Option reasoning_effort unterstützt

    • Eine Beispielverwendung wurde geteilt
  • Es wurde darauf hingewiesen, dass der SWE-Bench-Wert von o3-mini von 61 % auf 49,3 % gefallen ist

    • o3-mini zeigt bei echten Coding-Aufgaben eine ähnliche Leistung wie Claude
  • Es wurde erwähnt, dass o3-mini-high die eigentliche Ursache eines Segmentation Fault erfolgreich gefunden hat

    • Es löst ein Problem, das o1 zuvor übersehen hatte
  • Bei SWE-Bench gab es einen deutlichen Anstieg, und es lohnt sich, noch einmal zu prüfen, ob Aufgaben bearbeitet werden können, die o1-mini zuvor nicht bewältigt hat

    • Es gibt einen Kostenunterschied von $4 pro Million Ausgabe-Token gegenüber $60
  • Die AI-Landschaft verändert sich rasant, und neue AI-Modelle erscheinen

    • Es wird darüber nachgedacht, wie sich die Veränderungen bei AI auf dieses Release und künftige Releases auswirken werden