5 Punkte von GN⁺ 2025-04-17 | 1 Kommentare | Auf WhatsApp teilen
  • Die Modelle o3 und o4-mini verbessern die Schlussfolgerungsfähigkeit von ChatGPT deutlich
  • Diese beiden Modelle gehen über einfache Frage-Antwort-Aufgaben hinaus und können auch komplexe Aufgaben ausführen, darunter kombinierte Tool-Nutzung, Analyse visueller Materialien, Bildgenerierung und Ausführung von Python-Code
  • Besonders hervorzuheben ist ihre Fähigkeit, bei Nutzeranfragen selbst zu entscheiden und auszuführen, welches Tool wann eingesetzt werden soll
  • Sie sind stark bei komplexer Problemlösung, visuellem Schlussfolgern und mehrstufigen Analysen und streben zugleich einen menschlicheren Konversationsstil an
  • o3 ist für die Lösung komplexer Probleme gedacht, o4-mini ist ein Modell für schnelles und effizientes Schlussfolgern und zielt jeweils auf hohe Leistung bzw. hohe Effizienz
  • Sie verfügen über multimodale Schlussfolgerungsfähigkeiten, bei denen Bild und Text gemeinsam verarbeitet werden, sowie über fortgeschrittene agentische Tool-Nutzung

Zentrale Funktionsänderungen

OpenAI o3

  • Das bisher leistungsstärkste auf Schlussfolgern ausgerichtete Modell
  • Erreicht Spitzenleistungen in Bereichen wie Coding, Mathematik, Wissenschaft und visuelle Analyse
  • Bestwerte in Benchmarks wie Codeforces, SWE-bench und MMMU
  • Laut Bewertungen externer Experten eine 20 % niedrigere Rate schwerwiegender Fehler als o1
  • Hervorragend bei Ideengenerierung und kritischer Bewertung in Bereichen wie Programmierung, Beratung, Biologie und Ingenieurwesen

OpenAI o4-mini

  • Kleines Modell, optimiert für Geschwindigkeit und Kosteneffizienz
  • Besonders stark bei Mathematik, Coding und visueller Problemlösung
  • Klassenbeste Leistung in den Benchmarks AIME 2024 und 2025
  • Auch in nicht-STEM-Bereichen stärker als o3-mini
  • Geeignet für Umgebungen mit hoher Auslastung und Bedarf an schnellen Antworten
  • Beide Modelle wurden gegenüber früheren Modellen bei Befehlsverständnis, Nützlichkeit der Antworten und Zuverlässigkeit verbessert
  • Auch die Fähigkeiten für Gesprächserinnerung und personalisierte Antworten wurden ausgebaut

Multimodale Funktionen

  • Bilder können nicht nur erkannt, sondern als Teil des Schlussfolgerungsprozesses genutzt werden
  • Nutzer können Fotos von Whiteboards, Diagramme aus Büchern, Skizzen usw. hochladen
  • Die Modelle können auch unscharfe oder verzerrte Bilder erkennen und analysieren
  • Bildverarbeitung wie Drehen, Vergrößern und Umwandeln kann ebenfalls automatisch über Tools erfolgen
  • Verbesserte komplexe Problemlösungsfähigkeit durch die Verbindung von Text- und visuellen Informationen

Auf Tool-Nutzung fokussierter Schlussfolgerungsansatz

  • o3 und o4-mini haben Zugriff auf alle Tools von ChatGPT
  • Wenn Nutzer eine Frage stellen, bestimmen und verwenden die Modelle automatisch die nötigen Tools, etwa Websuche, Dateianalyse oder Codeausführung
  • Beispiel: Bei der Anfrage „Prognose des sommerlichen Stromverbrauchs in Kalifornien“ werden Websuche → Erzeugung von Python-Code → Erstellung eines Diagramms in Folge ausgeführt
  • Nutzung von Echtzeitinformationen, mehrstufiges Schlussfolgern und modalitätsübergreifende Antworten sind möglich

Effiziente Schlussfolgerungsleistung

Vergleich von Leistung pro Kosten

  • o3 erreicht gegenüber o1, o4-mini gegenüber o3-mini massive Verbesserungen bei der Kosteneffizienz
  • Gemessen an den Ergebnissen des Mathematikwettbewerbs AIME 2025 sind sowohl o3 als auch o4-mini günstiger und intelligenter als ihre Vorgänger
  • Auch in realen Einsatzumgebungen werden sie voraussichtlich eine intelligentere und günstigere Wahl sein

Verbesserungen bei der Sicherheit

  • Für die Abwehr biologischer Bedrohungen, von Malware und Jailbreak-Prompts wurden die Modelle mit neuen Trainingsdaten erneut trainiert
  • Einführung eines LLM-basierten Sicherheitsüberwachungssystems, das Risiken in Modellantworten automatisch erkennt
  • Interne Tests zeigen eine Erkennungsrate von über 99 % bei riskanten Gesprächen
  • In Risikobereichen wie Bio-/Chemie, Cybersicherheit und AI-Selbstverbesserung wurden sie als unterhalb der Hochrisikoschwelle eingestuft
  • Sicherheitsprüfung gemäß dem neuesten Preparedness Framework abgeschlossen

Codex CLI: fortgeschrittener Schlussfolgerungsagent für das Terminal

  • Ein Tool, das die Schlussfolgerungsfähigkeiten von o3 und o4-mini auch im Terminal nutzbar macht
  • Nutzer können Code, Bilder, Screenshots usw. direkt über die CLI an das Modell übergeben
  • Das Modell kann mit Code in der lokalen Umgebung verbunden werden und multimodal schlussfolgern
  • Als Open Source veröffentlicht: github.com/openai/codex
  • OpenAI startet außerdem ein Förderprogramm über 1 Million US-Dollar für Projekte auf Basis von Codex CLI

Zugriff

  • ChatGPT-Plus-, Pro- und Team-Nutzer: o3, o4-mini und o4-mini-high sofort verfügbar
  • Enterprise- und Education-Nutzer: Zugriff ab in einer Woche
  • Auch kostenlose Nutzer können mit der Option „Think“ o4-mini verwenden
  • Für API-Nutzer ebenfalls ab heute verfügbar (Organisationsverifizierung kann erforderlich sein)
  • In der Responses API sollen verschiedene Funktionen bereitgestellt werden, darunter Reasoning-Zusammenfassungen, Erhalt des Reasonings rund um Function Calling und Websuche-Tools

Ausblick

  • Geplant ist eine Verbindung der spezialisierten Schlussfolgerungsfähigkeiten der o-Serie mit der natürlichen Konversationsfähigkeit der GPT-Serie
  • Künftig sollen sich die Modelle zu Systemen entwickeln, die Tools aktiv nutzen und dabei natürliche Gespräche fortführen können

1 Kommentare

 
GN⁺ 2025-04-17
Hacker-News-Kommentare
  • Es wurde eine technische Frage zum Reverse Engineering von Final Fantasy VII gestellt, aber die AI lieferte falsche Informationen

    • Die AI suchte in Foren und auf Websites nach Informationen, erfand jedoch falsche Details, sodass das Ergebnis ungenau war
    • Die AI schien zu erkennen, dass sie die Antwort nicht kannte, nannte aber dennoch selbstbewusst falsche Werte
    • Es wird erwartet, dass sie ehrlich sagt, wenn sie die richtige Antwort nicht finden kann
  • o3 wurde verwendet, um auf NixOS die neueste Version von Webstorm zu installieren; es startete eine NixOS-VM, lud Pakete herunter und gab Installationsanweisungen

    • Es scheint sogar GUI-Tests durchgeführt zu haben, was sehr beeindruckend ist
  • Claude 3.7 zeigt auf SWE-bench weiterhin die beste Leistung

    • Es ist möglich, dass OpenAI-Modelle eine ähnliche Leistung zeigen
  • Ein einfacher „Turing-Test“, bei dem in C# ein Base-62-Konverter geschrieben werden sollte, wurde mit o4-mini-high erfolgreich bestanden

  • Mehrere AIs wurden nach dem Datum des Neumonds im August 2025 gefragt, doch die meisten Antworten waren falsch

    • Claude verweigerte eine Antwort darauf, wie sich eine bestimmte Suchmaschine blockieren lässt
  • o3 und o4 erkennen, wenn kein Websuch-Tool verfügbar ist, und verweigern dann die Antwort

    • 4o und 4.1 lieferten falsche Informationen
    • Die neue Websuchfunktion ist nützlich und ermöglicht es, unnötige Python-Skripte zu löschen
  • Codex CLI wird als Open Source bereitgestellt

  • Ein Vergleich mit Sonnet 3.7 oder Gemini Pro 2.5 fehlte

  • Umfangreiches Reinforcement Learning scheint die Leistung zu verbessern, je mehr Rechenressourcen eingesetzt werden

    • Es stellt sich die Frage, wie lange sich dieser Trend fortsetzen wird
  • Als Verbraucher ist es ermüdend, den Überblick darüber zu behalten, welches Modell man verwenden sollte