3 Punkte von fortune 2025-12-12 | Noch keine Kommentare. | Auf WhatsApp teilen

[GPT-5.1 thinking -> GPT-5.2 thinking]

  • Investment-Banking-Spreadsheet-Aufgabe (intern): 59.1% → 68.4%

    • 3 Finanzberichts-/LBO-Spreadsheet-Modellierungsaufgaben
  • SWE-Bench Pro (öffentlich): 50.8% → 55.6%

    • Patch-Anwendung in echten Repositories in 4 Sprachen
  • OpenAI MRCRv2 (8 Needles, 128k–256k): 29.6% → 77.0%

    • Abruf und Reproduktion von Informationen aus sehr langen Dokumenten
  • ScreenSpot Pro (inkl. Python): 64.2% → 86.3%

    • Verstehen von UI-Screenshots und Beantwortung von Fragen
  • ARC-AGI-2 (verifiziert): 17.6% → 52.9%

    • Schwierige abstrakte Schlussfolgerungsrätsel (verifiziert)

Noch keine Kommentare.

Noch keine Kommentare.