GPT‑5.2 vorgestellt
(openai.com)- GPT‑5.2 ist die leistungsstärkste KI-Modellserie für professionelle Wissensarbeit und verbessert die Fähigkeiten beim Programmieren, bei der Bilderkennung und bei der Ausführung komplexer Projekte.
- In der GDPval-Bewertung übertraf oder erreichte GPT‑5.2 in 70,9 % der Wissensarbeitsaufgaben aus 44 Berufen den Stand von Industriefachleuten oder erreichte Gleichstand; es ist 11-fach schneller und die Kosten liegen unter 1 %.
- SWE‑Bench Pro 55,6 %, GPQA Diamond 92,4 %, ARC‑AGI‑1 86,2 % und weitere wichtige Benchmarks wurden auf Spitzenniveau erreicht.
- Gegenüber GPT‑5.1 gibt es große Verbesserungen beim Langkontextverständnis (256k Tokens), der visuellen Informationsverarbeitung und der Tool-Nutzung (98,7 %).
- GPT‑5.2 wird in ChatGPT und über die API schrittweise bereitgestellt und zielt darauf ab, die Produktivität und Zuverlässigkeit für Profis zu steigern.
GPT‑5.2 Überblick
- GPT‑5.2 ist eine KI-Modellserie für professionelle Wissensarbeit und stärkt Fähigkeiten wie Tabellenkalkulation, Präsentationserstellung, Programmierung, Bilderkennung, Langtextverständnis, Tool-Nutzung und die Bearbeitung komplexer Projekte.
- ChatGPT Enterprise-Nutzer sparen bereits im Schnitt 40–60 Minuten pro Tag bzw. über 10 Stunden pro Woche; GPT‑5.2 wird diese Effizienz weiter ausbauen.
- In ChatGPT wird es in drei Versionen bereitgestellt: Instant, Thinking, Pro. In der API ist es sofort für Entwickler verfügbar.
Modellleistung
- GPT‑5.2 Thinking erzielt in der GDPval-Bewertung erstmals eine Leistung auf Expertenniveau.
- In 70,9 % der Wissensarbeitsaufgaben aus 44 Berufen übertraf es oder erreichte Gleichstand mit Branchenexperten.
- Es ist 11-mal schneller und kostet weniger als 1 %.
- In internen Tests verbesserte sich die Punktzahl bei der Investment-Banking-Spreadsheet-Modeling-Aufgabe gegenüber GPT‑5.1 um 9,3 % (59,1 % → 68,4 %).
- Mit SWE‑Bench Pro 55,6 % und SWE‑Bench Verified 80 % wurde die Software-Engineering-Leistung verbessert.
- Stabiles Arbeiten bei echtem Code-Debugging, Funktionsimplementierung, Refactoring und Bereitstellung.
- Verbesserungen auch bei Frontend-Entwicklung und 3D-UI-Arbeiten gegenüber GPT‑5.1.
- Die Quote fehlerhafter Antworten sank um 30 %, wodurch die Häufigkeit von Halluzinationen sinkt.
Langkontextverständnis und visuelle Erkennung
- In der OpenAI MRCRv2-Evaluierung wurde die beste Leistung beim integrierten Verstehen langer Dokumente erreicht.
- Fast 100 % Genauigkeit bis zu 256k Tokens wurde erreicht.
- Geeignet für die Analyse langer Dokumente wie Berichte, Verträge, Forschungsartikel.
- Kompatibel mit dem
/compact-Endpoint und unterstützt damit kontexterweiternde Workflows. - Verbesserte visuelle Erkennungsleistung reduziert die Fehlerquote bei Diagrammen, Dashboards und UI-Screenshots auf etwa die Hälfte.
- Die Fähigkeit, die räumliche Anordnung von Elementen in Bildern zu verstehen, wurde verbessert.
Tool-Nutzung und komplexe Arbeitsabläufe
- Mit Tau2‑bench Telecom 98,7 % wurde die beste Tool-Nutzungsleistung erreicht.
- Verbesserte Fähigkeit zur Ausführung von End-to-End-Workflows wie mehrstufiger Kundensupport, Datenerhebung, Analyse und Ergebnisgenerierung.
- Beispiel: vollständige Abwicklung komplexer Kundenserviceabläufe, z. B. Flugverspätung, Umstieg, Entschädigungsanfrage.
Wissenschafts-, Mathematik- und Schlussfolgerungsfähigkeit
- Mit GPQA Diamond 92,4 %, FrontierMath Tier 1–3 40,3 %, ARC‑AGI‑1 86,2 % und ARC‑AGI‑2 52,9 % wurden in wichtigen wissenschaftlichen Benchmarks Spitzenleistungen erzielt.
- GPT‑5.2 Pro übertrifft in ARC‑AGI‑1 die Marke von 90 %; die Kosteneffizienz wurde um das 390-Fache verbessert.
- GPT‑5.2 Pro und Thinking können zur Beschleunigung wissenschaftlicher Forschung eingesetzt werden.
- In realen Forschungsfällen wurden Vorschläge für statistische Theorembeweise vorgelegt und verifiziert.
ChatGPT-Erlebnis
- GPT‑5.2 Instant: schnelle Antworten und klare Erklärungen für den täglichen Lern- und Arbeitsgebrauch.
- GPT‑5.2 Thinking: geeignet für anspruchsvolle Aufgaben wie Programmieren, Langtextzusammenfassung, Mathematik- und Logikprobleme sowie Planung.
- GPT‑5.2 Pro: liefert bei schwierigen Fragen Antworten mit hoher Zuverlässigkeit und reduziert die Fehlerquote.
Sicherheitsverbesserungen
- GPT‑5.2 basiert auf der Safe Completion-Forschung von GPT‑5 und verbessert Reaktionen auf Gespräche zu Suizid, psychischer Gesundheit und emotionaler Abhängigkeit.
- Der Anteil unangemessener Antworten wurde gegenüber GPT‑5.1 reduziert.
- Ein Altersvorhersagemodell wurde eingeführt, um Nutzern unter 18 Jahren den Zugriff auf sensible Inhalte einzuschränken.
- Arbeiten zur Verbesserung der übermäßigen Verweigerungsrate (over-refusal) in ChatGPT sind im Gange.
Preis und Verfügbarkeit
- Schrittweise Einführung in kostenpflichtigen ChatGPT-Plänen (Plus, Pro, Business, Enterprise).
- In der API verfügbar als
gpt‑5.2,gpt‑5.2‑chat‑latest,gpt‑5.2‑pro. - Preis: $1,75 pro 1 Million Eingabetoken, $14 pro 1 Million Ausgabetoken, 90 % Rabatt auf gecachte Eingabetoken.
- Obwohl der Preis höher ist als bei GPT‑5.1, sinken die Gesamtkosten dank verbesserter Token-Effizienz.
- GPT‑5.1 bleibt drei Monate lang verfügbar und wird anschließend schrittweise eingestellt.
- Eine Codex-optimierte Version wird zu einem späteren Zeitpunkt veröffentlicht.
Technologiepartnerschaften
- GPT‑5.2 wurde in Zusammenarbeit mit NVIDIA und Microsoft entwickelt.
- Nutzung der Azure-Datacenter-Infrastruktur und der H100, H200, GB200‑NVL72-GPU-Infrastruktur.
- Unterstützung für effizienteres Großtraining und verbesserte Modellintelligenz.
Wichtige Benchmark-Zusammenfassung
- GDPval: 70,9 % (GPT‑5.1 38,8 %)
- SWE‑Bench Verified: 80,0 %
- OpenAI MRCRv2 (256k) : 77,0 %
- CharXiv Reasoning (w/ Python) : 88,7 %
- Tau2‑bench Telecom: 98,7 %
- ARC‑AGI‑1 (Verified) : 86,2 %
- AIME 2025: 100 %
- FrontierMath Tier 1–3: 40,3 %
GPT‑5.2 übertrifft die Modelle der vorangegangenen Generation deutlich in Intelligenz, Zuverlässigkeit und Produktivität und positioniert sich als Praxis-KI auf Expertenniveau für den Einsatz im Berufsalltag.
Noch keine Kommentare.