GPT‑5.2 vorgestellt
(openai.com)- GPT‑5.2 ist die leistungsstärkste KI-Modellserie für professionelle Wissensarbeit und verbessert die Fähigkeiten beim Programmieren, bei der Bilderkennung und bei der Ausführung komplexer Projekte.
- In der GDPval-Bewertung übertraf oder erreichte GPT‑5.2 in 70,9 % der Wissensarbeitsaufgaben aus 44 Berufen den Stand von Industriefachleuten oder erreichte Gleichstand; es ist 11-fach schneller und die Kosten liegen unter 1 %.
- SWE‑Bench Pro 55,6 %, GPQA Diamond 92,4 %, ARC‑AGI‑1 86,2 % und weitere wichtige Benchmarks wurden auf Spitzenniveau erreicht.
- Gegenüber GPT‑5.1 gibt es große Verbesserungen beim Langkontextverständnis (256k Tokens), der visuellen Informationsverarbeitung und der Tool-Nutzung (98,7 %).
- GPT‑5.2 wird in ChatGPT und über die API schrittweise bereitgestellt und zielt darauf ab, die Produktivität und Zuverlässigkeit für Profis zu steigern.
GPT‑5.2 Überblick
- GPT‑5.2 ist eine KI-Modellserie für professionelle Wissensarbeit und stärkt Fähigkeiten wie Tabellenkalkulation, Präsentationserstellung, Programmierung, Bilderkennung, Langtextverständnis, Tool-Nutzung und die Bearbeitung komplexer Projekte.
- ChatGPT Enterprise-Nutzer sparen bereits im Schnitt 40–60 Minuten pro Tag bzw. über 10 Stunden pro Woche; GPT‑5.2 wird diese Effizienz weiter ausbauen.
- In ChatGPT wird es in drei Versionen bereitgestellt: Instant, Thinking, Pro. In der API ist es sofort für Entwickler verfügbar.
Modellleistung
- GPT‑5.2 Thinking erzielt in der GDPval-Bewertung erstmals eine Leistung auf Expertenniveau.
- In 70,9 % der Wissensarbeitsaufgaben aus 44 Berufen übertraf es oder erreichte Gleichstand mit Branchenexperten.
- Es ist 11-mal schneller und kostet weniger als 1 %.
- In internen Tests verbesserte sich die Punktzahl bei der Investment-Banking-Spreadsheet-Modeling-Aufgabe gegenüber GPT‑5.1 um 9,3 % (59,1 % → 68,4 %).
- Mit SWE‑Bench Pro 55,6 % und SWE‑Bench Verified 80 % wurde die Software-Engineering-Leistung verbessert.
- Stabiles Arbeiten bei echtem Code-Debugging, Funktionsimplementierung, Refactoring und Bereitstellung.
- Verbesserungen auch bei Frontend-Entwicklung und 3D-UI-Arbeiten gegenüber GPT‑5.1.
- Die Quote fehlerhafter Antworten sank um 30 %, wodurch die Häufigkeit von Halluzinationen sinkt.
Langkontextverständnis und visuelle Erkennung
- In der OpenAI MRCRv2-Evaluierung wurde die beste Leistung beim integrierten Verstehen langer Dokumente erreicht.
- Fast 100 % Genauigkeit bis zu 256k Tokens wurde erreicht.
- Geeignet für die Analyse langer Dokumente wie Berichte, Verträge, Forschungsartikel.
- Kompatibel mit dem
/compact-Endpoint und unterstützt damit kontexterweiternde Workflows. - Verbesserte visuelle Erkennungsleistung reduziert die Fehlerquote bei Diagrammen, Dashboards und UI-Screenshots auf etwa die Hälfte.
- Die Fähigkeit, die räumliche Anordnung von Elementen in Bildern zu verstehen, wurde verbessert.
Tool-Nutzung und komplexe Arbeitsabläufe
- Mit Tau2‑bench Telecom 98,7 % wurde die beste Tool-Nutzungsleistung erreicht.
- Verbesserte Fähigkeit zur Ausführung von End-to-End-Workflows wie mehrstufiger Kundensupport, Datenerhebung, Analyse und Ergebnisgenerierung.
- Beispiel: vollständige Abwicklung komplexer Kundenserviceabläufe, z. B. Flugverspätung, Umstieg, Entschädigungsanfrage.
Wissenschafts-, Mathematik- und Schlussfolgerungsfähigkeit
- Mit GPQA Diamond 92,4 %, FrontierMath Tier 1–3 40,3 %, ARC‑AGI‑1 86,2 % und ARC‑AGI‑2 52,9 % wurden in wichtigen wissenschaftlichen Benchmarks Spitzenleistungen erzielt.
- GPT‑5.2 Pro übertrifft in ARC‑AGI‑1 die Marke von 90 %; die Kosteneffizienz wurde um das 390-Fache verbessert.
- GPT‑5.2 Pro und Thinking können zur Beschleunigung wissenschaftlicher Forschung eingesetzt werden.
- In realen Forschungsfällen wurden Vorschläge für statistische Theorembeweise vorgelegt und verifiziert.
ChatGPT-Erlebnis
- GPT‑5.2 Instant: schnelle Antworten und klare Erklärungen für den täglichen Lern- und Arbeitsgebrauch.
- GPT‑5.2 Thinking: geeignet für anspruchsvolle Aufgaben wie Programmieren, Langtextzusammenfassung, Mathematik- und Logikprobleme sowie Planung.
- GPT‑5.2 Pro: liefert bei schwierigen Fragen Antworten mit hoher Zuverlässigkeit und reduziert die Fehlerquote.
Sicherheitsverbesserungen
- GPT‑5.2 basiert auf der Safe Completion-Forschung von GPT‑5 und verbessert Reaktionen auf Gespräche zu Suizid, psychischer Gesundheit und emotionaler Abhängigkeit.
- Der Anteil unangemessener Antworten wurde gegenüber GPT‑5.1 reduziert.
- Ein Altersvorhersagemodell wurde eingeführt, um Nutzern unter 18 Jahren den Zugriff auf sensible Inhalte einzuschränken.
- Arbeiten zur Verbesserung der übermäßigen Verweigerungsrate (over-refusal) in ChatGPT sind im Gange.
Preis und Verfügbarkeit
- Schrittweise Einführung in kostenpflichtigen ChatGPT-Plänen (Plus, Pro, Business, Enterprise).
- In der API verfügbar als
gpt‑5.2,gpt‑5.2‑chat‑latest,gpt‑5.2‑pro. - Preis: $1,75 pro 1 Million Eingabetoken, $14 pro 1 Million Ausgabetoken, 90 % Rabatt auf gecachte Eingabetoken.
- Obwohl der Preis höher ist als bei GPT‑5.1, sinken die Gesamtkosten dank verbesserter Token-Effizienz.
- GPT‑5.1 bleibt drei Monate lang verfügbar und wird anschließend schrittweise eingestellt.
- Eine Codex-optimierte Version wird zu einem späteren Zeitpunkt veröffentlicht.
Technologiepartnerschaften
- GPT‑5.2 wurde in Zusammenarbeit mit NVIDIA und Microsoft entwickelt.
- Nutzung der Azure-Datacenter-Infrastruktur und der H100, H200, GB200‑NVL72-GPU-Infrastruktur.
- Unterstützung für effizienteres Großtraining und verbesserte Modellintelligenz.
Wichtige Benchmark-Zusammenfassung
- GDPval: 70,9 % (GPT‑5.1 38,8 %)
- SWE‑Bench Verified: 80,0 %
- OpenAI MRCRv2 (256k) : 77,0 %
- CharXiv Reasoning (w/ Python) : 88,7 %
- Tau2‑bench Telecom: 98,7 %
- ARC‑AGI‑1 (Verified) : 86,2 %
- AIME 2025: 100 %
- FrontierMath Tier 1–3: 40,3 %
GPT‑5.2 übertrifft die Modelle der vorangegangenen Generation deutlich in Intelligenz, Zuverlässigkeit und Produktivität und positioniert sich als Praxis-KI auf Expertenniveau für den Einsatz im Berufsalltag.
1 Kommentare
Hacker-News-Kommentare
Ich habe in den letzten Monaten ChatGPT als Bezahlversion für fast alles genutzt: Programmieren, Nachrichten, Aktienanalyse und alltägliche Problemlösung.
Nachdem jedoch Gemini 3 erschienen ist und ich es ausprobiert habe, liefert es in allen Anwendungsfällen deutlich bessere Ergebnisse.
Besonders stark war es bei der Suche nach aktuellen Informationen, wenn integrierte Websuche nötig war. Auch das OCR ist hervorragend und erkennt sogar meine schlechte Handschrift gut.
Allerdings gibt es viele App-Bugs, Sitzungen brechen häufig ab und auch beim Hochladen von Fotos treten Fehler auf.
Am meisten stört mich, dass alle Links über die Google-Suche geleitet werden, sodass man sie anpassen muss, wenn man direkt zur Website will.
Insgesamt komme ich zu dem Schluss, dass ChatGPT bei der Suchintegration zurückliegt und das wohl schwer aufholen wird.
Schon eine Unterbrechung reicht aus, damit Daten verloren gehen; es fühlt sich wie ein typisches unfertiges Google-Produkt an.
Die Idee des Sprachmodus ist gut, aber er bricht oft und wiederholt eigenmächtig Fragen.
ChatGPT öffnet PDFs oder Screenshots und nutzt sie als OCR-Eingabe, aber Gemini ignoriert sie.
Allerdings übernehmen Browser das heute ohnehin selbst, daher gibt es keinen zwingenden Grund, Klickdaten an Google zu senden.
Man kann die Links problemlos auf direkte Zieladressen ändern.
Opus 4.5 ist qualitativ besser, aber die Nutzungslimits sind so streng, dass ich überlege, mehrere Abos parallel zu nutzen.
Da ich Sprachfunktionen häufiger als OCR nutze, ist das für mich ein schwerwiegender Nachteil.
Auch die Behauptung, die „Suchintegration sei die Stärke“, kann ich nicht nachvollziehen. Mich würde interessieren, bei welchem konkreten Beispiel ChatGPT bei der Suche nach aktuellen Informationen tatsächlich schlechter war.
Im Blog-Hinweis steht es nicht, aber das tatsächliche Kontextfenster beträgt 400.000 Token.
Es ist in der offiziellen Dokumentation angegeben.
Dort steht auch, dass die Fähigkeit zur Nutzung des gesamten Kontexts verbessert wurde, deshalb bin ich gespannt.
Ich habe in einem Rust/CUDA-Projekt Codex 5.1 verwendet und bin dann zu Gemini 3 gewechselt. Anfangs war ich beeindruckt, weil es Bugs gut fand, aber bald wäre ich wegen ignorierter Anweisungen, kaputter Ausgaben und intransparenter Schlussfolgerungsprozesse fast wahnsinnig geworden.
Als ich wieder zu Codex zurückging, war alles stabil und Feedback wurde gut berücksichtigt. Jetzt gibt es sogar noch den GPT‑5.2-xhigh-Modus, was sich fast wie ein Weihnachtsgeschenk anfühlt.
Ich vermisse die frühere Forenkultur, in der Probleme und Lösungen offen und ehrlich diskutiert wurden.
Ich habe viele Entwickler gesehen, die in einer einzigen Sitzung alle Themen mischen — Kochen, Geschenke, Programmieren und mehr — und sich dann über seltsame Antworten wundern.
LLMs bekommen fortlaufend den gesamten Gesprächskontext mitgeschickt, deshalb sollte man für jedes Thema einen neuen Chat beginnen.
Sonst bekommt man am Ende merkwürdige Antworten wie „was die Ehefrau über globale Variablen denkt“.
Apps wie Cursor oder ChatGPT sind für sie vermutlich schwer zu verstehen.
Wenn man das Konzept des Kontextfensters nicht kennt, wirkt KI leicht einfach nur dumm. Ich glaube, deshalb unterschätzen viele Menschen KI.
Außerdem ist schwer Vertrauen aufzubauen, wenn man nicht weiß, ob das Modell gerade A/B-Tests durchläuft oder Reasoning-Token begrenzt werden.
Um alles vollständig zu trennen, muss man diese Option deaktivieren.
Im Mainboard-Bild sind RAM, PCIe-Slots und die Position des DisplayPorts alle falsch.
Bildlink
Ich frage mich, warum man so etwas als Werbebild verwendet hat.
Im Extended-NYT-Connections-Benchmark hat sich die High-Reasoning-Version von GPT‑5.2 von 69,9 auf 77,9 verbessert.
Benchmark-Link
Auch die Versionen mit mittlerem und niedrigem Reasoning wurden alle verbessert, aber Gemini 3 Pro und Grok 4.1 Fast Reasoning liegen weiterhin höher.
Der Test mit dem „Pelikan auf dem Fahrrad“ ist interessant.
Bildbeispiel
Die Verbesserung beim ARC‑AGI‑2-Score ist erstaunlich. Die Generalisierungsfähigkeit scheint sich stark verbessert zu haben.
Frühere Modelle wirkten eher überangepasst, jetzt scheint Selbstkorrektur (self-correction) gut zu funktionieren.
Wenn solche Fortschritte ohne neue Rechenzentren oder massive Modellskalierung möglich sind, macht das Hoffnung für die Zukunft.
Inzwischen habe ich das Gefühl, dass Benutzererfahrung wichtiger ist als Benchmarks.
Ich abonniere ChatGPT weiterhin wegen der Chat-Organisation nach Projekten.
Aber alle Plattformen haben gemeinsam, dass sie
Diese grundlegenden Usability-Probleme müssen gelöst werden.
Deshalb werden Benchmarks zu einer Art Katz-und-Maus-Spiel.
Es wirkt, als würden kritische Beiträge in r/Codex zensiert, deshalb sage ich es hier offen.
Es ist zwar schneller geworden, aber immer noch langsamer als Opus 4.5, und gegenüber 5.1 gibt es gefühlt kaum Verbesserungen.
Die Token-Kosten sind um 40 % gestiegen, ohne dass ich darin einen entsprechenden Mehrwert sehe.
Gemini 3 ist kostenlos auf dem Niveau von ChatGPT Pro, und auch Claude Code für 100 Dollar pro Monat ist stark.
Es wirkt, als stecke OpenAI in einer existenziellen Krise.
Dass der „Knowledge Cutoff im August 2025“ liegt und zugleich die Preise steigen, deutet auf ein neues Pretraining-Modell hin.
Über GPT‑5.1 hieß es, dass es dasselbe Pretraining wie GPT‑4o verwendet habe.