GPT-5.2 veröffentlicht
(openai.com)[GPT-5.1 thinking -> GPT-5.2 thinking]
-
Investment-Banking-Spreadsheet-Aufgabe (intern): 59.1% → 68.4%
- 3 Finanzberichts-/LBO-Spreadsheet-Modellierungsaufgaben
-
SWE-Bench Pro (öffentlich): 50.8% → 55.6%
- Patch-Anwendung in echten Repositories in 4 Sprachen
-
OpenAI MRCRv2 (8 Needles, 128k–256k): 29.6% → 77.0%
- Abruf und Reproduktion von Informationen aus sehr langen Dokumenten
-
ScreenSpot Pro (inkl. Python): 64.2% → 86.3%
- Verstehen von UI-Screenshots und Beantwortung von Fragen
-
ARC-AGI-2 (verifiziert): 17.6% → 52.9%
- Schwierige abstrakte Schlussfolgerungsrätsel (verifiziert)
Noch keine Kommentare.