5 Punkte von GN⁺ 2025-12-12 | 1 Kommentare | Auf WhatsApp teilen
  • GPT‑5.2 ist die leistungsstärkste KI-Modellserie für professionelle Wissensarbeit und verbessert die Fähigkeiten beim Programmieren, bei der Bilderkennung und bei der Ausführung komplexer Projekte.
  • In der GDPval-Bewertung übertraf oder erreichte GPT‑5.2 in 70,9 % der Wissensarbeitsaufgaben aus 44 Berufen den Stand von Industriefachleuten oder erreichte Gleichstand; es ist 11-fach schneller und die Kosten liegen unter 1 %.
  • SWE‑Bench Pro 55,6 %, GPQA Diamond 92,4 %, ARC‑AGI‑1 86,2 % und weitere wichtige Benchmarks wurden auf Spitzenniveau erreicht.
  • Gegenüber GPT‑5.1 gibt es große Verbesserungen beim Langkontextverständnis (256k Tokens), der visuellen Informationsverarbeitung und der Tool-Nutzung (98,7 %).
  • GPT‑5.2 wird in ChatGPT und über die API schrittweise bereitgestellt und zielt darauf ab, die Produktivität und Zuverlässigkeit für Profis zu steigern.

GPT‑5.2 Überblick

  • GPT‑5.2 ist eine KI-Modellserie für professionelle Wissensarbeit und stärkt Fähigkeiten wie Tabellenkalkulation, Präsentationserstellung, Programmierung, Bilderkennung, Langtextverständnis, Tool-Nutzung und die Bearbeitung komplexer Projekte.
  • ChatGPT Enterprise-Nutzer sparen bereits im Schnitt 40–60 Minuten pro Tag bzw. über 10 Stunden pro Woche; GPT‑5.2 wird diese Effizienz weiter ausbauen.
  • In ChatGPT wird es in drei Versionen bereitgestellt: Instant, Thinking, Pro. In der API ist es sofort für Entwickler verfügbar.

Modellleistung

  • GPT‑5.2 Thinking erzielt in der GDPval-Bewertung erstmals eine Leistung auf Expertenniveau.
    • In 70,9 % der Wissensarbeitsaufgaben aus 44 Berufen übertraf es oder erreichte Gleichstand mit Branchenexperten.
    • Es ist 11-mal schneller und kostet weniger als 1 %.
  • In internen Tests verbesserte sich die Punktzahl bei der Investment-Banking-Spreadsheet-Modeling-Aufgabe gegenüber GPT‑5.1 um 9,3 % (59,1 % → 68,4 %).
  • Mit SWE‑Bench Pro 55,6 % und SWE‑Bench Verified 80 % wurde die Software-Engineering-Leistung verbessert.
    • Stabiles Arbeiten bei echtem Code-Debugging, Funktionsimplementierung, Refactoring und Bereitstellung.
  • Verbesserungen auch bei Frontend-Entwicklung und 3D-UI-Arbeiten gegenüber GPT‑5.1.
  • Die Quote fehlerhafter Antworten sank um 30 %, wodurch die Häufigkeit von Halluzinationen sinkt.

Langkontextverständnis und visuelle Erkennung

  • In der OpenAI MRCRv2-Evaluierung wurde die beste Leistung beim integrierten Verstehen langer Dokumente erreicht.
    • Fast 100 % Genauigkeit bis zu 256k Tokens wurde erreicht.
    • Geeignet für die Analyse langer Dokumente wie Berichte, Verträge, Forschungsartikel.
  • Kompatibel mit dem /compact-Endpoint und unterstützt damit kontexterweiternde Workflows.
  • Verbesserte visuelle Erkennungsleistung reduziert die Fehlerquote bei Diagrammen, Dashboards und UI-Screenshots auf etwa die Hälfte.
    • Die Fähigkeit, die räumliche Anordnung von Elementen in Bildern zu verstehen, wurde verbessert.

Tool-Nutzung und komplexe Arbeitsabläufe

  • Mit Tau2‑bench Telecom 98,7 % wurde die beste Tool-Nutzungsleistung erreicht.
  • Verbesserte Fähigkeit zur Ausführung von End-to-End-Workflows wie mehrstufiger Kundensupport, Datenerhebung, Analyse und Ergebnisgenerierung.
    • Beispiel: vollständige Abwicklung komplexer Kundenserviceabläufe, z. B. Flugverspätung, Umstieg, Entschädigungsanfrage.

Wissenschafts-, Mathematik- und Schlussfolgerungsfähigkeit

  • Mit GPQA Diamond 92,4 %, FrontierMath Tier 1–3 40,3 %, ARC‑AGI‑1 86,2 % und ARC‑AGI‑2 52,9 % wurden in wichtigen wissenschaftlichen Benchmarks Spitzenleistungen erzielt.
  • GPT‑5.2 Pro übertrifft in ARC‑AGI‑1 die Marke von 90 %; die Kosteneffizienz wurde um das 390-Fache verbessert.
  • GPT‑5.2 Pro und Thinking können zur Beschleunigung wissenschaftlicher Forschung eingesetzt werden.
    • In realen Forschungsfällen wurden Vorschläge für statistische Theorembeweise vorgelegt und verifiziert.

ChatGPT-Erlebnis

  • GPT‑5.2 Instant: schnelle Antworten und klare Erklärungen für den täglichen Lern- und Arbeitsgebrauch.
  • GPT‑5.2 Thinking: geeignet für anspruchsvolle Aufgaben wie Programmieren, Langtextzusammenfassung, Mathematik- und Logikprobleme sowie Planung.
  • GPT‑5.2 Pro: liefert bei schwierigen Fragen Antworten mit hoher Zuverlässigkeit und reduziert die Fehlerquote.

Sicherheitsverbesserungen

  • GPT‑5.2 basiert auf der Safe Completion-Forschung von GPT‑5 und verbessert Reaktionen auf Gespräche zu Suizid, psychischer Gesundheit und emotionaler Abhängigkeit.
    • Der Anteil unangemessener Antworten wurde gegenüber GPT‑5.1 reduziert.
  • Ein Altersvorhersagemodell wurde eingeführt, um Nutzern unter 18 Jahren den Zugriff auf sensible Inhalte einzuschränken.
  • Arbeiten zur Verbesserung der übermäßigen Verweigerungsrate (over-refusal) in ChatGPT sind im Gange.

Preis und Verfügbarkeit

  • Schrittweise Einführung in kostenpflichtigen ChatGPT-Plänen (Plus, Pro, Business, Enterprise).
  • In der API verfügbar als gpt‑5.2, gpt‑5.2‑chat‑latest, gpt‑5.2‑pro.
  • Preis: $1,75 pro 1 Million Eingabetoken, $14 pro 1 Million Ausgabetoken, 90 % Rabatt auf gecachte Eingabetoken.
    • Obwohl der Preis höher ist als bei GPT‑5.1, sinken die Gesamtkosten dank verbesserter Token-Effizienz.
  • GPT‑5.1 bleibt drei Monate lang verfügbar und wird anschließend schrittweise eingestellt.
  • Eine Codex-optimierte Version wird zu einem späteren Zeitpunkt veröffentlicht.

Technologiepartnerschaften

  • GPT‑5.2 wurde in Zusammenarbeit mit NVIDIA und Microsoft entwickelt.
    • Nutzung der Azure-Datacenter-Infrastruktur und der H100, H200, GB200‑NVL72-GPU-Infrastruktur.
    • Unterstützung für effizienteres Großtraining und verbesserte Modellintelligenz.

Wichtige Benchmark-Zusammenfassung

  • GDPval: 70,9 % (GPT‑5.1 38,8 %)
  • SWE‑Bench Verified: 80,0 %
  • OpenAI MRCRv2 (256k) : 77,0 %
  • CharXiv Reasoning (w/ Python) : 88,7 %
  • Tau2‑bench Telecom: 98,7 %
  • ARC‑AGI‑1 (Verified) : 86,2 %
  • AIME 2025: 100 %
  • FrontierMath Tier 1–3: 40,3 %

GPT‑5.2 übertrifft die Modelle der vorangegangenen Generation deutlich in Intelligenz, Zuverlässigkeit und Produktivität und positioniert sich als Praxis-KI auf Expertenniveau für den Einsatz im Berufsalltag.

1 Kommentare

 
GN⁺ 2025-12-12
Hacker-News-Kommentare
  • Ich habe in den letzten Monaten ChatGPT als Bezahlversion für fast alles genutzt: Programmieren, Nachrichten, Aktienanalyse und alltägliche Problemlösung.
    Nachdem jedoch Gemini 3 erschienen ist und ich es ausprobiert habe, liefert es in allen Anwendungsfällen deutlich bessere Ergebnisse.
    Besonders stark war es bei der Suche nach aktuellen Informationen, wenn integrierte Websuche nötig war. Auch das OCR ist hervorragend und erkennt sogar meine schlechte Handschrift gut.
    Allerdings gibt es viele App-Bugs, Sitzungen brechen häufig ab und auch beim Hochladen von Fotos treten Fehler auf.
    Am meisten stört mich, dass alle Links über die Google-Suche geleitet werden, sodass man sie anpassen muss, wenn man direkt zur Website will.
    Insgesamt komme ich zu dem Schluss, dass ChatGPT bei der Suchintegration zurückliegt und das wohl schwer aufholen wird.

    • Die Formulierung „es gibt nur Policy-Probleme“ ist viel zu harmlos. Mehrmals am Tag gibt es einen Bug, bei dem ganze Threads verschwinden, sodass man fluchen könnte.
      Schon eine Unterbrechung reicht aus, damit Daten verloren gehen; es fühlt sich wie ein typisches unfertiges Google-Produkt an.
      Die Idee des Sprachmodus ist gut, aber er bricht oft und wiederholt eigenmächtig Fragen.
    • Ich habe genau die gegenteilige Erfahrung gemacht. ChatGPT sucht mehrfach, analysiert die Ergebnisse und sucht dann noch weiter, während Gemini fast gar nicht sucht.
      ChatGPT öffnet PDFs oder Screenshots und nutzt sie als OCR-Eingabe, aber Gemini ignoriert sie.
    • Dass Links über die Google-Suche laufen, liegt daran, dass intern Malware- und Phishing-Prüfungen durchgeführt werden.
      Allerdings übernehmen Browser das heute ohnehin selbst, daher gibt es keinen zwingenden Grund, Klickdaten an Google zu senden.
      Man kann die Links problemlos auf direkte Zieladressen ändern.
    • Bei mir hatte Gemini 3 Pro im Gegenteil stärkere Halluzinationen (hallucination). Es hat sogar Quellen erfunden, die gar nicht existieren.
      Opus 4.5 ist qualitativ besser, aber die Nutzungslimits sind so streng, dass ich überlege, mehrere Abos parallel zu nutzen.
    • Die Spracherkennungsqualität von Gemini war so schlecht, dass ich es nicht verwenden konnte.
      Da ich Sprachfunktionen häufiger als OCR nutze, ist das für mich ein schwerwiegender Nachteil.
      Auch die Behauptung, die „Suchintegration sei die Stärke“, kann ich nicht nachvollziehen. Mich würde interessieren, bei welchem konkreten Beispiel ChatGPT bei der Suche nach aktuellen Informationen tatsächlich schlechter war.
  • Im Blog-Hinweis steht es nicht, aber das tatsächliche Kontextfenster beträgt 400.000 Token.
    Es ist in der offiziellen Dokumentation angegeben.
    Dort steht auch, dass die Fähigkeit zur Nutzung des gesamten Kontexts verbessert wurde, deshalb bin ich gespannt.
    Ich habe in einem Rust/CUDA-Projekt Codex 5.1 verwendet und bin dann zu Gemini 3 gewechselt. Anfangs war ich beeindruckt, weil es Bugs gut fand, aber bald wäre ich wegen ignorierter Anweisungen, kaputter Ausgaben und intransparenter Schlussfolgerungsprozesse fast wahnsinnig geworden.
    Als ich wieder zu Codex zurückging, war alles stabil und Feedback wurde gut berücksichtigt. Jetzt gibt es sogar noch den GPT‑5.2-xhigh-Modus, was sich fast wie ein Weihnachtsgeschenk anfühlt.

    • 400.000 Token gab es bereits bei GPT‑5, 5.1, 5‑mini und anderen. Wenn allerdings die Leistung bei der Verarbeitung langer Kontexte verbessert wurde, ist das sehr bedeutsam.
    • Bei mir waren die Ergebnisse im xhigh-Modus sogar schlechter als im high-Modus, sodass ich mich fragte, ob es PEBKAC (Benutzerfehler) war. Mich würde interessieren, ob jemand das verglichen hat.
    • Wenn man sich die Kommentare in letzter Zeit ansieht, ist kaum noch zu erkennen, ob es echte Erfahrungsberichte oder gesponserte Werbung sind.
      Ich vermisse die frühere Forenkultur, in der Probleme und Lösungen offen und ehrlich diskutiert wurden.
  • Ich habe viele Entwickler gesehen, die in einer einzigen Sitzung alle Themen mischen — Kochen, Geschenke, Programmieren und mehr — und sich dann über seltsame Antworten wundern.
    LLMs bekommen fortlaufend den gesamten Gesprächskontext mitgeschickt, deshalb sollte man für jedes Thema einen neuen Chat beginnen.
    Sonst bekommt man am Ende merkwürdige Antworten wie „was die Ehefrau über globale Variablen denkt“.

    • Manchmal denke ich daran, wie seltsam diese Werkzeuge für Menschen wirken müssen, die die interne Funktionsweise von LLMs nicht kennen.
      Apps wie Cursor oder ChatGPT sind für sie vermutlich schwer zu verstehen.
    • Mir hat es sehr geholfen, den fast.ai-Kurs zu hören und selbst verschiedene Modelle wie VLLM auszuprobieren.
      Wenn man das Konzept des Kontextfensters nicht kennt, wirkt KI leicht einfach nur dumm. Ich glaube, deshalb unterschätzen viele Menschen KI.
    • Es ist auch nicht klar, welchen Kontext man überhaupt behalten sollte. Als ich Texte mit ähnlichem Stil hinzugefügt habe, wurde die Leistung im Gegenteil schlechter.
      Außerdem ist schwer Vertrauen aufzubauen, wenn man nicht weiß, ob das Modell gerade A/B-Tests durchläuft oder Reasoning-Token begrenzt werden.
    • Die Option „Reference chat history“ in ChatGPT ist standardmäßig aktiviert, sodass selbst in einem neuen Gespräch Inhalte aus früheren Chats einfließen.
      Um alles vollständig zu trennen, muss man diese Option deaktivieren.
    • Ich habe einen Podcast über Menschen gehört, die in eine „Liebesbeziehung“ mit einem LLM geraten, und es schien, als wüssten sie nicht, dass es durch ein bloßes Zurücksetzen des Kontexts wieder zu einem völlig fremden Gegenüber wird.
  • Im Mainboard-Bild sind RAM, PCIe-Slots und die Position des DisplayPorts alle falsch.
    Bildlink
    Ich frage mich, warum man so etwas als Werbebild verwendet hat.

    • Damit sollte wohl gezeigt werden, dass sich die Vision-Leistung von GPT‑5.2 verbessert hat, aber nicht perfekt ist. Würde man nur perfekte Ergebnisse auswählen, könnte das im Gegenteil irreführend sein.
    • Auch die USB-Type-A-Ports sind nicht als zwei übereinanderliegende Paare dargestellt, sondern als vier einzelne.
    • Im Artikeltext selbst steht ausdrücklich, dass „beide Modelle Fehler haben, GPT‑5.2 aber ein besseres Verständnis gezeigt hat“.
    • Ich glaube, solche Fehler entstehen auch deshalb, weil die Kultur in der AI-Community heute dazu neigt, massenhaft generierte Inhalte zu produzieren, ohne die Ergebnisse zu verifizieren.
    • Andererseits ist die Bildauflösung auf dem Niveau eines Klapphandys von 2003, da sind Fehler fast schon zu erwarten.
  • Im Extended-NYT-Connections-Benchmark hat sich die High-Reasoning-Version von GPT‑5.2 von 69,9 auf 77,9 verbessert.
    Benchmark-Link
    Auch die Versionen mit mittlerem und niedrigem Reasoning wurden alle verbessert, aber Gemini 3 Pro und Grok 4.1 Fast Reasoning liegen weiterhin höher.

    • Beeindruckend, dass Gemini 3 Pro Preview im selben Test auf 96,8 % kommt.
    • Jemand anderes hat mit dem Puzzle Clues by Sam getestet, und dort lag GPT‑5 Pro bereits auf Platz 1.
    • Ich frage mich, warum das Ergebnis für Grok 4.1 reasoning fehlt.
  • Der Test mit dem „Pelikan auf dem Fahrrad“ ist interessant.
    Bildbeispiel

    • Die Schwankungen sind so groß, dass der Test wenig Wert hat. Ich habe ihn zehnmal laufen lassen, und bei der Hälfte war das Ergebnis perfekt.
    • Vermutlich wurde damit auf das Feedback reagiert, dass Version 5.1 zu eintönig sei. Bei der POV‑Ray-Version hatte ich dieselbe Erfahrung.
    • Wenn man sieht, wie es immer aerodynamischer evolviert, fühlt es sich an, als würde die KI klüger werden.
    • Es gibt schon Scherze wie „Das ist der einzige Benchmark, dem ich vertraue“.
    • Dennoch ist es keine gute Idee, denselben Benchmark zu lange zu verwenden.
  • Die Verbesserung beim ARC‑AGI‑2-Score ist erstaunlich. Die Generalisierungsfähigkeit scheint sich stark verbessert zu haben.
    Frühere Modelle wirkten eher überangepasst, jetzt scheint Selbstkorrektur (self-correction) gut zu funktionieren.
    Wenn solche Fortschritte ohne neue Rechenzentren oder massive Modellskalierung möglich sind, macht das Hoffnung für die Zukunft.

    • Auch ich habe besonders auf das ARC‑AGI‑2-Ergebnis geachtet. Das ist wirklich ein großer Sprung.
  • Inzwischen habe ich das Gefühl, dass Benutzererfahrung wichtiger ist als Benchmarks.
    Ich abonniere ChatGPT weiterhin wegen der Chat-Organisation nach Projekten.
    Aber alle Plattformen haben gemeinsam, dass sie

    • selbstbewusst lügen
    • Prompts nicht zuverlässig befolgen
    • Unsicherheit nicht ausdrücken
    • mit unnötigem Lob und ausufernden Antworten nicht aufhören
    • Quellen uneinheitlich zitieren
    • nicht klar sagen, ob sie den Originaltext oder nur eine Zusammenfassung gesehen haben
      Diese grundlegenden Usability-Probleme müssen gelöst werden.
    • Sobald man sich von objektiven Kennzahlen entfernt, ist es schwer, die Aussagekraft einer Messung zu begründen, aber messbare Kennzahlen lassen sich leicht manipulieren.
      Deshalb werden Benchmarks zu einer Art Katz-und-Maus-Spiel.
  • Es wirkt, als würden kritische Beiträge in r/Codex zensiert, deshalb sage ich es hier offen.
    Es ist zwar schneller geworden, aber immer noch langsamer als Opus 4.5, und gegenüber 5.1 gibt es gefühlt kaum Verbesserungen.
    Die Token-Kosten sind um 40 % gestiegen, ohne dass ich darin einen entsprechenden Mehrwert sehe.
    Gemini 3 ist kostenlos auf dem Niveau von ChatGPT Pro, und auch Claude Code für 100 Dollar pro Monat ist stark.
    Es wirkt, als stecke OpenAI in einer existenziellen Krise.

    • Schon beim Wechsel von Gemini 2.5 auf 3 gab es keine große Verbesserung. Insgesamt fühlt es sich an, als würde der substantielle Fortschritt stagnieren.
  • Dass der „Knowledge Cutoff im August 2025“ liegt und zugleich die Preise steigen, deutet auf ein neues Pretraining-Modell hin.
    Über GPT‑5.1 hieß es, dass es dasselbe Pretraining wie GPT‑4o verwendet habe.

    • Ein neues Pretraining kostet enorm viel, daher dürfte es kaum bei einer bloßen Versionssteigerung um 0,1 bleiben.
    • Oder 5.1 war einfach ein älterer Checkpoint beziehungsweise stärker quantisiert (quantization).
    • Oder man hat dem gleichen Modell einfach noch einmal minderwertige Daten (slop) zugefüttert.