5 Punkte von GN⁺ 2025-12-12 | Noch keine Kommentare. | Auf WhatsApp teilen
  • GPT‑5.2 ist die leistungsstärkste KI-Modellserie für professionelle Wissensarbeit und verbessert die Fähigkeiten beim Programmieren, bei der Bilderkennung und bei der Ausführung komplexer Projekte.
  • In der GDPval-Bewertung übertraf oder erreichte GPT‑5.2 in 70,9 % der Wissensarbeitsaufgaben aus 44 Berufen den Stand von Industriefachleuten oder erreichte Gleichstand; es ist 11-fach schneller und die Kosten liegen unter 1 %.
  • SWE‑Bench Pro 55,6 %, GPQA Diamond 92,4 %, ARC‑AGI‑1 86,2 % und weitere wichtige Benchmarks wurden auf Spitzenniveau erreicht.
  • Gegenüber GPT‑5.1 gibt es große Verbesserungen beim Langkontextverständnis (256k Tokens), der visuellen Informationsverarbeitung und der Tool-Nutzung (98,7 %).
  • GPT‑5.2 wird in ChatGPT und über die API schrittweise bereitgestellt und zielt darauf ab, die Produktivität und Zuverlässigkeit für Profis zu steigern.

GPT‑5.2 Überblick

  • GPT‑5.2 ist eine KI-Modellserie für professionelle Wissensarbeit und stärkt Fähigkeiten wie Tabellenkalkulation, Präsentationserstellung, Programmierung, Bilderkennung, Langtextverständnis, Tool-Nutzung und die Bearbeitung komplexer Projekte.
  • ChatGPT Enterprise-Nutzer sparen bereits im Schnitt 40–60 Minuten pro Tag bzw. über 10 Stunden pro Woche; GPT‑5.2 wird diese Effizienz weiter ausbauen.
  • In ChatGPT wird es in drei Versionen bereitgestellt: Instant, Thinking, Pro. In der API ist es sofort für Entwickler verfügbar.

Modellleistung

  • GPT‑5.2 Thinking erzielt in der GDPval-Bewertung erstmals eine Leistung auf Expertenniveau.
    • In 70,9 % der Wissensarbeitsaufgaben aus 44 Berufen übertraf es oder erreichte Gleichstand mit Branchenexperten.
    • Es ist 11-mal schneller und kostet weniger als 1 %.
  • In internen Tests verbesserte sich die Punktzahl bei der Investment-Banking-Spreadsheet-Modeling-Aufgabe gegenüber GPT‑5.1 um 9,3 % (59,1 % → 68,4 %).
  • Mit SWE‑Bench Pro 55,6 % und SWE‑Bench Verified 80 % wurde die Software-Engineering-Leistung verbessert.
    • Stabiles Arbeiten bei echtem Code-Debugging, Funktionsimplementierung, Refactoring und Bereitstellung.
  • Verbesserungen auch bei Frontend-Entwicklung und 3D-UI-Arbeiten gegenüber GPT‑5.1.
  • Die Quote fehlerhafter Antworten sank um 30 %, wodurch die Häufigkeit von Halluzinationen sinkt.

Langkontextverständnis und visuelle Erkennung

  • In der OpenAI MRCRv2-Evaluierung wurde die beste Leistung beim integrierten Verstehen langer Dokumente erreicht.
    • Fast 100 % Genauigkeit bis zu 256k Tokens wurde erreicht.
    • Geeignet für die Analyse langer Dokumente wie Berichte, Verträge, Forschungsartikel.
  • Kompatibel mit dem /compact-Endpoint und unterstützt damit kontexterweiternde Workflows.
  • Verbesserte visuelle Erkennungsleistung reduziert die Fehlerquote bei Diagrammen, Dashboards und UI-Screenshots auf etwa die Hälfte.
    • Die Fähigkeit, die räumliche Anordnung von Elementen in Bildern zu verstehen, wurde verbessert.

Tool-Nutzung und komplexe Arbeitsabläufe

  • Mit Tau2‑bench Telecom 98,7 % wurde die beste Tool-Nutzungsleistung erreicht.
  • Verbesserte Fähigkeit zur Ausführung von End-to-End-Workflows wie mehrstufiger Kundensupport, Datenerhebung, Analyse und Ergebnisgenerierung.
    • Beispiel: vollständige Abwicklung komplexer Kundenserviceabläufe, z. B. Flugverspätung, Umstieg, Entschädigungsanfrage.

Wissenschafts-, Mathematik- und Schlussfolgerungsfähigkeit

  • Mit GPQA Diamond 92,4 %, FrontierMath Tier 1–3 40,3 %, ARC‑AGI‑1 86,2 % und ARC‑AGI‑2 52,9 % wurden in wichtigen wissenschaftlichen Benchmarks Spitzenleistungen erzielt.
  • GPT‑5.2 Pro übertrifft in ARC‑AGI‑1 die Marke von 90 %; die Kosteneffizienz wurde um das 390-Fache verbessert.
  • GPT‑5.2 Pro und Thinking können zur Beschleunigung wissenschaftlicher Forschung eingesetzt werden.
    • In realen Forschungsfällen wurden Vorschläge für statistische Theorembeweise vorgelegt und verifiziert.

ChatGPT-Erlebnis

  • GPT‑5.2 Instant: schnelle Antworten und klare Erklärungen für den täglichen Lern- und Arbeitsgebrauch.
  • GPT‑5.2 Thinking: geeignet für anspruchsvolle Aufgaben wie Programmieren, Langtextzusammenfassung, Mathematik- und Logikprobleme sowie Planung.
  • GPT‑5.2 Pro: liefert bei schwierigen Fragen Antworten mit hoher Zuverlässigkeit und reduziert die Fehlerquote.

Sicherheitsverbesserungen

  • GPT‑5.2 basiert auf der Safe Completion-Forschung von GPT‑5 und verbessert Reaktionen auf Gespräche zu Suizid, psychischer Gesundheit und emotionaler Abhängigkeit.
    • Der Anteil unangemessener Antworten wurde gegenüber GPT‑5.1 reduziert.
  • Ein Altersvorhersagemodell wurde eingeführt, um Nutzern unter 18 Jahren den Zugriff auf sensible Inhalte einzuschränken.
  • Arbeiten zur Verbesserung der übermäßigen Verweigerungsrate (over-refusal) in ChatGPT sind im Gange.

Preis und Verfügbarkeit

  • Schrittweise Einführung in kostenpflichtigen ChatGPT-Plänen (Plus, Pro, Business, Enterprise).
  • In der API verfügbar als gpt‑5.2, gpt‑5.2‑chat‑latest, gpt‑5.2‑pro.
  • Preis: $1,75 pro 1 Million Eingabetoken, $14 pro 1 Million Ausgabetoken, 90 % Rabatt auf gecachte Eingabetoken.
    • Obwohl der Preis höher ist als bei GPT‑5.1, sinken die Gesamtkosten dank verbesserter Token-Effizienz.
  • GPT‑5.1 bleibt drei Monate lang verfügbar und wird anschließend schrittweise eingestellt.
  • Eine Codex-optimierte Version wird zu einem späteren Zeitpunkt veröffentlicht.

Technologiepartnerschaften

  • GPT‑5.2 wurde in Zusammenarbeit mit NVIDIA und Microsoft entwickelt.
    • Nutzung der Azure-Datacenter-Infrastruktur und der H100, H200, GB200‑NVL72-GPU-Infrastruktur.
    • Unterstützung für effizienteres Großtraining und verbesserte Modellintelligenz.

Wichtige Benchmark-Zusammenfassung

  • GDPval: 70,9 % (GPT‑5.1 38,8 %)
  • SWE‑Bench Verified: 80,0 %
  • OpenAI MRCRv2 (256k) : 77,0 %
  • CharXiv Reasoning (w/ Python) : 88,7 %
  • Tau2‑bench Telecom: 98,7 %
  • ARC‑AGI‑1 (Verified) : 86,2 %
  • AIME 2025: 100 %
  • FrontierMath Tier 1–3: 40,3 %

GPT‑5.2 übertrifft die Modelle der vorangegangenen Generation deutlich in Intelligenz, Zuverlässigkeit und Produktivität und positioniert sich als Praxis-KI auf Expertenniveau für den Einsatz im Berufsalltag.

Noch keine Kommentare.

Noch keine Kommentare.