GPT-5.5 vorgestellt
(openai.com)- Ein agentisches Modell, das komplexe Aufgaben selbst plant, Tools kombiniert und bis zum Ende ausführt, mit einem breiten Einsatzspektrum von Code-Erstellung und Debugging über Web-Recherche, Datenanalyse sowie die Erstellung von Dokumenten und Tabellen bis hin zur Bedienung von Software
- Bei derselben per-token latency wie GPT-5.4 stieg die Leistung in den Bereichen Coding, computer use, Wissensarbeit und frühe wissenschaftliche Forschung; zudem schließt es dieselben Codex-Aufgaben mit weniger Tokens ab und arbeitet damit effizienter
- Im Software Engineering erreichte es 82,7 % auf Terminal-Bench 2.0, 73,1 % auf Expert-SWE und 58,6 % auf SWE-Bench Pro; besondere Stärken zeigen sich bei Implementierung, Refactoring, Debugging, Testing, Verifikation und beim Beibehalten des Kontexts großer Codebasen
- Auch in allgemeinen Arbeits- und Research-Workflows wurden die Erstellung von Dokumenten, Tabellen und Slides, bildschirmbasierte computer use, mehrstufige Datenanalyse, Hypothesenprüfung und Ergebnisinterpretation als zusammenhängender Ablauf verbessert; GPT-5.5 Pro zielt dabei auf noch höhere Genauigkeit und Vollständigkeit
- Vor dem Release lief das Modell durch verstärkte Sicherheitsmaßnahmen sowie interne und externe Tests und wird in ChatGPT und Codex schrittweise vor allem für Plus-, Pro-, Business- und Enterprise-Nutzer ausgerollt, was wie eine weitere Ausweitung praxisnaher KI-Anwendungen wirkt
Modellüberblick und Umfang des Rollouts
- GPT-5.5 wird als Modell vorgestellt, das Absichten schneller versteht, mehrstufig verschachtelte Aufgaben selbst plant und mit Tools konsequent zu Ende führt
- Es kann Code schreiben und debuggen, Web-Recherche betreiben, Daten analysieren, Dokumente und Tabellen erstellen, Software bedienen und Aufgaben über mehrere Tools hinweg ausführen
- Statt jeden Schritt fein granular zu steuern, ist es darauf ausgelegt, komplexe und unstrukturierte Aufgaben auf einmal zu übernehmen und Planung, Tool-Nutzung, Verifikation und den Umgang mit Unklarheiten durchgängig fortzuführen
- Besonders hervorgehoben werden Fortschritte bei agentischen Aufgaben; starke Leistung zeigt es in den Bereichen coding, computer use, knowledge work und frühe wissenschaftliche Forschung
- Obwohl größere Modelle oft langsamer werden, bleibt die per-token latency im realen Einsatz auf dem Niveau von GPT-5.4
- Dieselben Codex-Aufgaben werden mit weniger Tokens abgeschlossen, was die Effizienz zusätzlich erhöht
- Vor dem Start wurden die Sicherheitsvorkehrungen verstärkt; eingeflossen sind interne und externe Red-Team-Tests, zusätzliche Prüfungen zu fortgeschrittenen Cybersecurity- und Biology-Fähigkeiten sowie frühes Nutzungsfeedback von rund 200 vertrauenswürdigen Partnern
- Der Rollout läuft derzeit in ChatGPT und Codex schrittweise für Nutzer von Plus, Pro, Business und Enterprise; GPT-5.5 Pro wird in ChatGPT für Pro, Business und Enterprise angeboten
- Die API erfüllt noch separate Sicherheitsanforderungen; GPT-5.5 und GPT-5.5 Pro sollen dort in Kürze verfügbar sein
Software Engineering und agentisches Coding
- OpenAI baut eine agentic AI infrastructure auf, und im vergangenen Jahr hat KI das Software Engineering deutlich beschleunigt
- Mit der Integration von GPT-5.5 in Codex und ChatGPT beginnt sich diese Veränderung auch auf wissenschaftliche Forschung und allgemeine Computerarbeit auszuweiten
- Laut dem Artificial Analysis Coding Index liefert es im Vergleich zu konkurrierenden Frontier-Coding-Modellen Spitzenintelligenz bei halben Kosten
- GPT-5.5 wird von OpenAI als stärkstes agentisches Coding-Modell des Unternehmens vorgestellt
- Auf Terminal-Bench 2.0 erzielte es 82,7 %; bewertet werden dort komplexe Command-Line-Workflows, die Planung, Iteration und Tool-Kombination erfordern
- Auf SWE-Bench Pro erreichte es 58,6 % und löste bei realen GitHub-Issues mehr Aufgaben als frühere Modelle in einem einzelnen End-to-End-Durchlauf
- Auch in der internen Bewertung Expert-SWE liegt es vor GPT-5.4
- Über alle drei Coding-Benchmarks hinweg erzielt es höhere Werte mit weniger Tokens als GPT-5.4
- In Codex zeigen sich seine Stärken bei Implementierung, Refactoring, Debugging, Testing und Verifikation
- Es ist stärker bei realen Engineering-Aufgaben wie dem Halten des Kontexts großer Systeme, dem Nachverfolgen mehrdeutiger Fehlerursachen, dem Prüfen von Annahmen mit Tools und dem Umsetzen von Änderungen über die gesamte Codebasis hinweg
Beispiele für Coding-Nutzung und frühe Tests
- Als Beispiel ist ein Implementierungs-Prompt für eine WebGL- + Vite-App mit realen Daten von Artemis II enthalten
- Mithilfe von NASA/JPL-Horizons-Vektordaten werden die Bahnen von Orion, Moon und Sun gerendert
- Zur besseren Lesbarkeit wird eine Darstellungs-Skalierung angewendet
- Frühe Tester bewerteten, dass GPT-5.5 die Systemarchitektur besser versteht
- Es erkennt präziser, was warum fehlschlägt, wo Änderungen vorgenommen werden müssen und welche Auswirkungen sie auf andere Teile der Codebasis haben
- Dan Shipper testete, ob sich nach dem Zurückrollen einer Störung nach dem Release ein Redesign auf demselben Niveau erzeugen lässt; GPT-5.4 scheiterte, GPT-5.5 war erfolgreich
- Pietro Schirano führte einen Branch mit Hunderten Frontend- und Refactor-Änderungen in etwa 20 Minuten in einem Durchgang in einen stark veränderten Main-Branch zusammen
- In Tests mit Senior Engineers fielen reasoning und autonomy im Vergleich zu GPT-5.4 und Claude Opus 4.7 besonders auf
- Auch ohne expliziten Prompt erkennt es Probleme im Voraus und antizipiert sogar den Bedarf an Tests und Reviews
- Als um ein Redesign des Comment-Systems eines kollaborativen Markdown-Editors gebeten wurde, lieferte es einen Stack aus 12 Diffs in nahezu fertigem Zustand
- Es waren weniger Implementierungsanpassungen als erwartet nötig, und auch das Vertrauen in den Plan war höher als bei GPT-5.4
- Im Zitat von Michael Truell von Cursor zeigt sich, dass das Modell länger an Aufgaben dranbleibt und sich besser für komplexe, lang laufende Aufgaben ohne vorzeitigen Abbruch eignet
Allgemeine Wissensarbeit und Computer-Nutzung
- Die im Coding sichtbaren Stärken übertragen sich direkt auf alltägliche Computerarbeit
- Weil das Modell Absichten besser versteht, erledigt es Informationssuche, Auswahl wichtiger Informationen, Tool-Nutzung, Ergebnisprüfung und die Umwandlung von Rohmaterial in nützliche Ergebnisse deutlich natürlicher
- In Codex ist GPT-5.5 bei der Erstellung von Dokumenten, Tabellen und Slides stärker als GPT-5.4
- Alpha-Tester gaben an, dass es bei Operations Research, Tabellenmodellierung und der Umwandlung unstrukturierter Business-Eingaben in Pläne besser sei als frühere Modelle
- In Kombination mit den computer use-Fähigkeiten von Codex kann es den Bildschirm sehen, klicken, tippen, Interfaces navigieren und präzise zwischen mehreren Tools wechseln
- Auch intern bei OpenAI wird es bereits in realen Workflows eingesetzt; aktuell nutzen mehr als 85 % der Mitarbeitenden Codex jede Woche
- Eingesetzt wird es über Software Engineering, Finance, Communications, Marketing, Data Science und Product Management hinweg
- Das Communications-Team analysierte sechs Monate an Speaking-Request-Daten und entwickelte ein Scoring- und Risk-Framework; damit wurde ein Slack-Agent validiert, der Anfragen mit niedrigem Risiko automatisch bearbeitet und Anfragen mit hohem Risiko an Menschen zur Prüfung weiterleitet
- Das Finance-Team prüfte 24.771 K-1-Steuerformulare mit insgesamt 71.637 Seiten und war durch einen Workflow zum Ausschluss personenbezogener Daten zwei Wochen schneller als im Vorjahr
- Im Go-to-Market-Team spart die Automatisierung der Erstellung wöchentlicher Business-Reports 5 bis 10 Stunden pro Woche
GPT-5.5 Thinking und GPT-5.5 Pro in ChatGPT
- GPT-5.5 Thinking in ChatGPT wurde dafür entwickelt, schwierigere Probleme schneller zu beantworten, und ermöglicht mit intelligenteren und prägnanteren Antworten eine effizientere Bearbeitung komplexer Aufgaben
- stark bei Coding, Research, Informationssynthese und -analyse sowie dokumentenzentrierten Arbeiten, besonders vorteilhaft bei der Nutzung von Plugins
- GPT-5.5 Pro zielt auf schwierigere Aufgaben und höhere Qualität, wobei die geringere Latenz die Praxistauglichkeit erhöht
- im Vergleich zu GPT-5.4 Pro sind die Antworten umfassender, besser strukturiert, präziser, relevanter und nützlicher
- besonders stark in Business, Recht, Bildung und Data Science
- Auch bei Benchmarks, die nah an professionellen Aufgaben liegen, werden hohe Werte erzielt
- GDPval 84,9 %, OSWorld-Verified 78,7 %, Tau2-bench Telecom 98,0 %
- Tau2-bench Telecom wurde ohne Prompt Tuning durchgeführt
- Außerdem werden FinanceAgent 60,0 %, interne Investment-Banking-Modeling-Tasks 88,5 % und OfficeQA Pro 54,1 % genannt
- Im Zitat von Justin Boitano von NVIDIA wird ein Ablauf beschrieben, bei dem die Bereitstellung auf NVIDIA-GB200-NVL72-Systemen erfolgt, End-to-End-Funktionalität per Natural-Language-Prompt ausgeliefert wird, die Debugging-Zeit von Tagen auf Stunden sinkt und Experimente, die Wochen dauern würden, über Nacht durchgeführt werden können
Wissenschaftliche Forschung und technische Research-Workflows
- GPT-5.5 zeigt auch Leistungsverbesserungen in wissenschaftlichen und technischen Research-Workflows
- Es geht über das reine Beantworten schwieriger Fragen hinaus und hält den Loop von Ideenfindung, Evidenzsammlung, Überprüfung von Annahmen, Interpretation von Ergebnissen bis zur Entscheidung über das nächste Experiment besser aufrecht
- Bei GeneBench zeigt sich eine deutliche Verbesserung gegenüber GPT-5.4
- eine neue Evaluierung für mehrstufige Datenanalyse in Genetik und quantitativer Biologie
- behandelt mehrdeutige oder fehlerhafte Daten, versteckte Confounder, QC-Fehlschläge sowie die Implementierung und Interpretation moderner statistischer Methoden
- die Aufgaben hier entsprechen selbst für wissenschaftliche Fachleute Projekten von mehreren Tagen
- Auch bei BixBench wird unter Modellen mit veröffentlichten Scores eine führende Leistung erreicht
- vorgestellt als Benchmark, der reale Bioinformatik und Datenanalyse abbildet
- zeigt das Potenzial für Beschleunigung auf Co-Scientist-Niveau an der Spitze der biomedizinischen Forschung
- Die interne Version GPT-5.5 und ein Custom Harness wurden auch verwendet, um einen neuen Beweis zu Ramsey-Zahlen zu finden
- Link zum neuen Beweis
- in der Kombinatorik wurde ein Beweis zu asymptotischen Aussagen über lang bekannte off-diagonal Ramsey-Zahlen gefunden und anschließend mit Lean verifiziert
- trägt über Code oder Erklärungen hinaus auch zu nützlichen mathematischen Argumentationen in zentralen Forschungsfeldern bei
- Frühe Tester nutzten GPT-5.5 Pro eher als Forschungspartner denn als Engine für Einmalantworten
- sie überprüften Manuskripte wiederholt kritisch, unterzogen technische Argumentationen einem Stress Test, schlugen Analysen vor und arbeiteten mit dem Kontext aus Code, Notizen und PDFs
- es unterstützt den Ablauf von der Frage über das Experiment bis zum Ergebnis besser
Forschungsbeispiele
- Derya Unutmaz vom Jackson Laboratory for Genomic Medicine analysierte mit GPT-5.5 Pro einen Gene-Expression-Datensatz mit 62 Samples und rund 28.000 Genen
- es wurde ein detaillierter Forschungsbericht erstellt, der nicht nur die Ergebnisse zusammenfasst, sondern auch Kernfragen und Erkenntnisse sichtbar macht
- wenn sein Team diese Arbeit durchgeführt hätte, hätte sie Monate gedauert
- Bartosz Naskręcki von der Adam Mickiewicz University erstellte mit Codex in 11 Minuten aus einem einzigen Prompt eine App für algebraische Geometrie
- sie visualisiert den Schnitt zweier quadratischer Flächen und wandelt die resultierende Kurve in ein Weierstraß-Modell um
- anschließend wurden die Singularity-Visualisierung robuster gemacht und wiederverwendbare exakte Koeffizienten für Folgearbeiten ergänzt
- Codex half auch bei der Umsetzung maßgeschneiderter mathematischer Visualisierungen und Computer-Algebra-Workflows, für die sonst spezialisierte Tools nötig gewesen wären
- Credit: Bartosz Naskręcki
- Im Zitat von Brandon White von Axiom Bio wird beschrieben, wie aus riesigen biochemischen Datensätzen auf human drug outcomes geschlossen wird und sich bei den schwierigsten Evaluierungen im Bereich Drug Discovery sinnvolle Genauigkeitsverbesserungen zeigen
Inferenz-Infrastruktur und Performance-Optimierung
- Um GPT-5.5 mit derselben Latenz wie GPT-5.4 bereitzustellen, musste die Inferenz nicht als Bündel einzelner Optimierungen, sondern als integriertes System neu entworfen werden
- GPT-5.5 wurde gemeinsam für NVIDIA GB200 und GB300 NVL72 Systeme konzipiert, trainiert und bereitgestellt
- Codex und GPT-5.5 selbst trugen direkt zum Erreichen der Performance-Ziele bei
- Codex wurde genutzt, um Ideen schnell in benchmarkfähige Implementierungen zu überführen, Ansätze zu skizzieren, Experimente zu verknüpfen und Optimierungen mit größerem Investitionsbedarf zu identifizieren
- GPT-5.5 half dabei, zentrale Verbesserungen innerhalb des Stacks zu finden und umzusetzen
- letztlich trug das Modell auch zur Verbesserung der Infrastruktur bei, die es selbst bereitstellt
- Als repräsentatives Beispiel für Verbesserungen werden Load Balancing und Partitioning-Heuristics vorgestellt
- zuvor wurden Requests auf den Accelerators in eine feste Anzahl von Chunks aufgeteilt, sodass große und kleine Requests auf derselben GPU liefen
- eine statische Anzahl von Chunks war jedoch nicht für jede Form von Traffic optimal
- Codex analysierte Production-Traffic-Muster über mehrere Wochen und schrieb einen maßgeschneiderten Heuristic-Algorithmus, der Aufgaben optimal aufteilt und ausbalanciert
- dadurch stieg die Token-Generierungsgeschwindigkeit um mehr als 20 %
Cybersicherheit und Schutzmaßnahmen
- Ein Modell bereitzustellen, das Schwachstellen gut erkennt und patchen kann, ist eher ein Teamsport, und für die nächste Ära der Cyberabwehr braucht es die Resilienz des gesamten Ökosystems
- Zugehöriger Link: next era of cyber defense
- Die Cybersicherheitsfähigkeiten von Frontier-Modellen werden immer stärker, und da sich diese Fähigkeit breit verbreiten wird, wird der Weg wichtig, sie zur Beschleunigung der Cyberabwehr und zur Stärkung des Ökosystems einzusetzen
- GPT-5.5 wird als schrittweiser, aber wichtiger Schritt hin zu einer KI eingeordnet, die schwierige Probleme wie Cybersicherheit lösen kann
- Bereits bei GPT-5.2 wurden cyber safeguards proaktiv eingeführt, um potenziellen Cyber-Missbrauch zu begrenzen
- In GPT-5.5 wurden strengere Classifier für potenzielle Cyber-Risiken eingesetzt, was anfangs für einige Nutzer störend sein könnte
- OpenAI behandelt Cybersicherheit seit Jahren als eigene Kategorie im Preparedness Framework und hat die Gegenmaßnahmen entsprechend den steigenden Fähigkeiten immer wieder angepasst
- Schutzmaßnahmen auf branchenführendem Niveau wurden passend zu diesem Niveau an Cyber-Fähigkeiten eingeführt
- Mit GPT-5.2 wurden erstmals cyberspezifische Schutzmaßnahmen eingeführt, die seitdem bei jeder Veröffentlichung getestet, verfeinert und erweitert wurden
- In GPT-5.5 wurden die Schutzmechanismen für Hochrisikoaktivitäten, sensible Cyber-Anfragen und wiederholten Missbrauch weiter verstärkt
- Der breite Zugang wurde durch Investitionen in Modellsicherheit, verifizierte Nutzung und Monitoring unerlaubter Nutzung möglich
- Über mehrere Monate hinweg wurde die Robustheit gemeinsam mit externen Experten entwickelt, getestet und verbessert
- Entwicklern soll es erleichtert werden, Code zu schützen, während für Cyber-Workflows, mit denen böswillige Akteure leichter Schaden anrichten könnten, stärkere Kontrollen gelten
- Auch der Ausbau des Zugangs für Verteidigungszwecke läuft parallel
- Über Trusted Access for Cyber wird Zugang zu cyber-permissiven Modellen angeboten; Ausgangspunkt ist Codex
- Verifizierten Nutzern, die bestimmte trust signals erfüllen, werden die erweiterten Cybersicherheitsfunktionen von GPT-5.5 mit weniger Einschränkungen bereitgestellt
- Organisationen, die für den Schutz kritischer Infrastrukturen verantwortlich sind, können Zugang zu cyber-permissiven Modellen wie GPT-5.4-Cyber beantragen
- Ziel ist es, verifizierten Verteidigern Werkzeuge für legitime Sicherheitsarbeit mit weniger Reibung bereitzustellen
- Bewerbungslink: chatgpt.com/cyber
- Dazu gehört auch die Zusammenarbeit mit Regierungspartnern
- Gemeinsam wird untersucht, wie fortschrittliche KI öffentliche Stellen unterstützen kann, die kritische Infrastrukturen wie digitale Systeme zum Schutz von Steuerdaten, Stromnetze und die kommunale Wasserversorgung verteidigen
- Die biologischen/chemischen und Cybersicherheitsfähigkeiten von GPT-5.5 sind im Preparedness Framework als High eingestuft
- Das Niveau kritischer Cybersicherheitsfähigkeiten wurde zwar noch nicht erreicht, aber Bewertungen und Tests bestätigten eine um eine Stufe höhere Cyber-Fähigkeit als bei GPT-5.4
- Vor dem Release durchlief das Modell den vollständigen safety and governance process
- Dazu gehörten Preparedness-Bewertungen, domänenspezifische Tests, neue gezielte Bewertungen für fortgeschrittene Biology- und Cybersicherheitsrisiken sowie belastbare Tests mit externen Experten
- Weitere Details finden sich in der GPT-5.5 system card
- Dieser Ansatz ist Teil einer AI-resilience-Strategie, die im Zeitalter stärkerer Modelle nötig ist
- Leistungsfähige KI muss auch denjenigen zur Verfügung stehen, die Systeme, Institutionen und die Öffentlichkeit schützen; als zentraler Weg werden vertrauensbasierter Zugang, proportional zu den Fähigkeiten verschärfte Schutzmaßnahmen sowie operative Fähigkeiten zur Erkennung und Reaktion auf schwerwiegenden Missbrauch genannt
Verfügbare Pläne und Preise
- GPT-5.5 wird derzeit in ChatGPT und Codex für Nutzer von Plus, Pro, Business und Enterprise ausgerollt; GPT-5.5 Pro ist in ChatGPT für Pro, Business und Enterprise verfügbar
- In ChatGPT ist GPT-5.5 Thinking für Plus, Pro, Business und Enterprise verfügbar
- GPT-5.5 Pro ist auf schwierigere Fragen und höhere Genauigkeit ausgelegt und kann in Pro, Business und Enterprise genutzt werden
- In Codex ist GPT-5.5 für die Pläne Plus, Pro, Business, Enterprise, Edu und Go verfügbar und bietet ein 400K context window
- Ein Fast mode wird ebenfalls angeboten; die Token-Generierung ist 1,5-mal schneller und kostet das 2,5-Fache
- gpt-5.5 für API-Entwickler soll bald in der Responses API und der Chat Completions API verfügbar sein
- Angegeben sind 5 US-Dollar pro 1M Input-Token, 30 US-Dollar pro 1M Output-Token und ein 1M context window
- Batch- und Flex-Preise liegen bei der Hälfte der Standard-API-Gebühren, Priority processing kostet das 2,5-Fache
- gpt-5.5-pro soll ebenfalls in der API erscheinen und zielt auf höhere Genauigkeit ab
- Genannt werden 30 US-Dollar pro 1M Input-Token und 180 US-Dollar pro 1M Output-Token
- Die vollständigen Preisinfos sind auf der pricing page verlinkt
- GPT-5.5 ist zwar teurer als GPT-5.4, bietet aber auch höhere Intelligenz und bessere Token-Effizienz
- In Codex wurde das Nutzungserlebnis so abgestimmt, dass die meisten Nutzer mit weniger Tokens als bei GPT-5.4 bessere Ergebnisse erhalten
- Über alle Abo-Stufen hinweg soll weiterhin ein großzügiges Nutzungskontingent bereitgestellt werden
Detaillierte Benchmarks
-
Coding
- Bei SWE-Bench Pro (Public) erreicht GPT-5.5 58.6%, GPT-5.4 57.7%, Claude Opus 4.7 64.3% und Gemini 3.1 Pro 54.2%
- Bei Terminal-Bench 2.0 erreicht GPT-5.5 82.7%, GPT-5.4 75.1%, Claude Opus 4.7 69.4% und Gemini 3.1 Pro 68.5%
- Expert-SWE (Internal) wird mit GPT-5.5 73.1% und GPT-5.4 68.5% angegeben
-
Fachliche Aufgaben
- Bei GDPval (wins or ties) erreicht GPT-5.5 84.9%, GPT-5.4 83.0%, GPT-5.5 Pro 82.3%, GPT-5.4 Pro 82.0%, Claude Opus 4.7 80.3% und Gemini 3.1 Pro 67.3%
- Bei FinanceAgent v1.1 erreicht GPT-5.5 60.0%, GPT-5.4 56.0%, GPT-5.4 Pro 61.5%, Claude Opus 4.7 64.4% und Gemini 3.1 Pro 59.7%
- Investment Banking Modeling Tasks (Internal) wird mit GPT-5.5 88.5%, GPT-5.4 87.3%, GPT-5.5 Pro 88.6% und GPT-5.4 Pro 83.6% angegeben
- Bei OfficeQA Pro erreicht GPT-5.5 54.1%, GPT-5.4 53.2%, Claude Opus 4.7 43.6% und Gemini 3.1 Pro 18.1%
-
Computernutzung und Vision
- Bei OSWorld-Verified erreicht GPT-5.5 78.7%, GPT-5.4 75.0% und Claude Opus 4.7 78.0%
- Bei MMMU Pro (no tools) liegen GPT-5.5 und GPT-5.4 beide bei 81.2%, Gemini 3.1 Pro bei 80.5%
- Bei MMMU Pro (with tools) erreicht GPT-5.5 83.2%, GPT-5.4 82.1%
-
Tool-Nutzung
- Bei BrowseComp erreicht GPT-5.5 84.4%, GPT-5.4 82.7%, GPT-5.5 Pro 90.1%, GPT-5.4 Pro 89.3%, Claude Opus 4.7 79.3% und Gemini 3.1 Pro 85.9%
- Bei MCP Atlas erreicht GPT-5.5 75.3%, GPT-5.4 70.6%, Claude Opus 4.7 79.1% und Gemini 3.1 Pro 78.2%
- Bei Toolathlon erreicht GPT-5.5 55.6%, GPT-5.4 54.6% und Gemini 3.1 Pro 48.8%
- Bei Tau2-bench Telecom auf Basis des ursprünglichen Prompts erreicht GPT-5.5 98.0%, GPT-5.4 92.8%
- Die Anmerkung zu MCP Atlas besagt, dass es sich um Ergebnisse nach dem neuesten Update von Scale AI im April 2026 handelt
- Die Anmerkung zu Tau2-bench Telecom stellt klar, dass die Auswertung ohne prompt adjustment erfolgte und Ergebnisse anderer Labore mit prompt adjustment ausgeschlossen wurden
-
Wissenschaft
- Bei GeneBench erreicht GPT-5.5 25.0%, GPT-5.4 19.0%, GPT-5.5 Pro 33.2% und GPT-5.4 Pro 25.6%
- Bei FrontierMath Tier 1–3 erreicht GPT-5.5 51.7%, GPT-5.4 47.6%, GPT-5.5 Pro 52.4%, GPT-5.4 Pro 50.0%, Claude Opus 4.7 43.8% und Gemini 3.1 Pro 36.9%
- Bei FrontierMath Tier 4 erreicht GPT-5.5 35.4%, GPT-5.4 27.1%, GPT-5.5 Pro 39.6%, GPT-5.4 Pro 38.0%, Claude Opus 4.7 22.9% und Gemini 3.1 Pro 16.7%
- Bei BixBench erreicht GPT-5.5 80.5%, GPT-5.4 74.0%
- Bei GPQA Diamond erreicht GPT-5.5 93.6%, GPT-5.4 92.8%, GPT-5.4 Pro 94.4%, Claude Opus 4.7 94.2% und Gemini 3.1 Pro 94.3%
- Bei Humanity's Last Exam (no tools) erreicht GPT-5.5 41.4%, GPT-5.4 39.8%, GPT-5.5 Pro 43.1%, GPT-5.4 Pro 42.7%, Claude Opus 4.7 46.9% und Gemini 3.1 Pro 44.4%
- Bei Humanity's Last Exam (with tools) erreicht GPT-5.5 52.2%, GPT-5.4 52.1%, GPT-5.5 Pro 57.2%, GPT-5.4 Pro 58.7%, Claude Opus 4.7 54.7% und Gemini 3.1 Pro 51.4%
-
Cybersicherheit
- Capture-the-Flags challenge tasks (Internal) wird mit GPT-5.5 88.1% und GPT-5.4 83.7% angegeben
- Bei CyberGym erreicht GPT-5.5 81.8%, GPT-5.4 79.0% und Claude Opus 4.7 73.1%
- Die Anmerkung besagt, dass die Ergebnisse auf einer Erweiterung der schwierigsten im System Card beschriebenen CTFs sowie zusätzlichen hochschwierigen Challenges beruhen
-
Langer Kontext
- Bei Graphwalks BFS 256k f1 erreicht GPT-5.5 73.7%, GPT-5.4 62.5% und Claude Opus 4.7 76.9%
- Bei Graphwalks BFS 1mil f1 erreicht GPT-5.5 45.4%, GPT-5.4 9.4% und Claude Opus 4.6 41.2%
- Bei Graphwalks parents 256k f1 erreicht GPT-5.5 90.1%, GPT-5.4 82.8% und Claude Opus 4.7 93.6%
- Bei Graphwalks parents 1mil f1 erreicht GPT-5.5 58.5%, GPT-5.4 44.4% und Claude Opus 4.6 72.0%
- OpenAI MRCR v2 8-needle wird nach Kontextlänge aufgeschlüsselt angegeben, mit 4K-8K 98.1%, 8K-16K 93.0%, 16K-32K 96.5%, 32K-64K 90.0%, 64K-128K 83.1%, 128K-256K 87.5%, 256K-512K 81.5% und 512K-1M 74.0%
- Für GPT-5.4 werden im selben Punkt jeweils 97.3%, 91.4%, 97.2%, 90.5%, 86.0%, 79.3%, 57.5% und 36.6% angegeben
- Im Bereich 128K-256K ist Claude Opus 4.7 mit 59.2% aufgeführt, im Bereich 512K-1M Claude Opus 4.7 mit 32.2%
-
Abstraktes Schlussfolgern
- Bei ARC-AGI-1 (Verified) erreicht GPT-5.5 95.0%, GPT-5.4 93.7%, GPT-5.4 Pro 94.5%, Claude Opus 4.7 93.5% und Gemini 3.1 Pro 98.0%
- Bei ARC-AGI-2 (Verified) erreicht GPT-5.5 85.0%, GPT-5.4 73.3%, GPT-5.4 Pro 83.3%, Claude Opus 4.7 75.8% und Gemini 3.1 Pro 77.1%
- Es wird angegeben, dass die Bewertungen der GPT-Reihe in einer Forschungsumgebung mit auf xhigh gesetztem reasoning effort durchgeführt wurden und die Ausgaben in manchen Fällen leicht von ChatGPT in der Produktionsumgebung abweichen können
1 Kommentare
Hacker-News-Meinungen
Die Aussage bei NVIDIA, dass sich der Verlust des Zugangs zu GPT-5.5 anfühle, als würde man Arme und Beine verlieren, klingt deutlich unheimlicher als wohl beabsichtigt.
Das scheint generell für die Abhängigkeit von Frontier-Coding-Modellen zu gelten, und je besser die Leistung wird, desto schneller stützt man sich beim Coden darauf.
Nachdem ich es selbst erlebt habe, fühlt es sich ziemlich unangenehm an. Inzwischen ist es ungefähr 10-mal schneller, Dinge direkt vom Modell erledigen zu lassen, statt geduldig alles von Hand zu coden, und meine Rolle hat sich dadurch ebenfalls verändert.
Es ist beeindruckend, wie viel man damit zum Laufen bringen kann, aber wenn die Tokens ausgehen, steht die Arbeit faktisch still.
Wenn Claude ausfällt, hat es mehr Hebelwirkung, spazieren zu gehen, als sich zum Coden zu zwingen. Wenn Claude eine Stunde später wieder online ist, komme ich weiter, als wenn ich mich an von einem LLM erzeugtem Code festbeiße und versuche, das Problem manuell zu lösen, bis ich erschöpft bin.
Jedenfalls fühlt sich dieser Zustand weiterhin etwas beunruhigend an.
Der Markt basiert derzeit auf der Annahme, dass Arbeit atomisiert ist und nur geringe Verhandlungsmacht besitzt, während Kapital viel stärkere Verhandlungsmacht hat und den Preis von Arbeit faktisch festlegt.
Was aber, wenn diese Arbeit von einem anderen, noch größeren Unternehmen bereitgestellt wird und diese Arbeit im Unterschied zu traditioneller Arbeit ihre Lieferung auf unbestimmte Zeit einstellen kann?
Arbeit ist nun zu einer anderen Form von Kapital geworden, und Kapital muss nichts essen.
Unternehmen ohne eigene Modelle werden die Folgen wohl am eigenen Leib lernen.
Man entwickelt schneller, schreibt weniger eigenen Code, und Zustandsverwaltung oder Memory-Management übernimmt die Bibliothek.
Manche mögen sich unwohl dabei fühlen, statt mit Zeigern und
malloc()direkt zu arbeiten von Bibliotheksaufrufen abhängig zu sein, aber für andere ist es befreiend, weil sie sich auf Architektur auf höherer Ebene konzentrieren können, ohne ständig in Low-Level-Kontextwechsel abzurutschen.Ich bitte oft darum, statt einer fertigen Antwort eigenständige CLI-Programme oder Tools zu bauen.
Ich frage auch, wie das Modell zu seinen Schlussfolgerungen gekommen ist, um meinen eigenen Blickwinkel zu erweitern, und lasse mir sogar seine Klassifikationsweise auf Metadatenebene erklären.
Gerade in großen Codebasen, in denen die Schwierigkeit eher in der Größe des Referenzgraphen als im Konzept selbst liegt, versuche ich das so einzusetzen, dass sich meine eigene Problemlösefähigkeit verbessert.
Selbst wenn gehostete Modelle verschwinden oder zu teuer werden, würde man dann nur diesen kleinen Leistungsunterschied verlieren.
Natürlich ist keine dieser beiden Annahmen wirklich selbstverständlich, also ist das eher eine Hoffnung.
Und dass immer noch der Slogan von 10-facher Produktivität wiederholt wird, ist ehrlich gesagt schwer zu glauben.
Die Einführung von GPT-5.5 ist zwar heute, aber die Bereitstellung in ChatGPT und Codex erfolgt laut OpenAI über mehrere Stunden schrittweise.
Zur Stabilität des Dienstes wird wie bei früheren Releases gestaffelt ausgerollt, normalerweise zuerst für Pro/Enterprise und dann weiter runter bis Plus.
Es kann also sein, dass es nicht sofort sichtbar ist; man solle später noch einmal nachsehen.
Das zufällige Warten kann nervig sein, aber es diene der Stabilität.
Der Verfasser sagt, er arbeite bei OpenAI.
Nach dem Anthropic-OAuthgate wollte ich es ernsthaft als Alternative nutzen, aber selbst schnelle, sichere und harmlose Teilaufgaben konnte es nicht abschließen.
Die Unterhaltung endete nur in endlosen Entschuldigungen wie „Hier hätte ich X tun sollen“ – „Stimmt, ich bin gescheitert“ – „Dann mach es jetzt“ – „Das hätte ich tun sollen, habe ich aber nicht“.
Dass GLM, Kimi und Minimax es später problemlos geschafft haben, machte es noch absurder, und deshalb musste ich OpenAI sofort fallenlassen.
Noch besser wäre es, wenn die UI zeigen würde, dass das Modell existiert, aber für mein Konto noch nicht freigeschaltet ist.
Mit einer ETA wäre es ideal, auch wenn Vorhersagen während eines Rollouts wegen möglicher Probleme natürlich schwierig sind.
Ich frage mich, ob Images 2.0 innerhalb von ChatGPT mit ausgerollt wird oder ob das vorerst nur eine Funktion für API/Playground bleibt.
Es gibt noch keinen offiziellen API-Zugang, aber derzeit scheint OpenAI den von OpenClaw genutzten Backdoor-Zugang zur Codex-API faktisch zu dulden.
https://twitter.com/steipete/status/2046775849769148838 und https://twitter.com/romainhuet/status/2038699202834841962
In dieser Backdoor-API ist auch GPT-5.5 enthalten.
Deshalb habe ich das Pelikan-Beispiel ausprobiert, https://simonwillison.net/2026/Apr/23/gpt-5-5/#and-some-peli...
und dafür das neue LLM-Plugin https://github.com/simonw/llm-openai-via-codex verwendet.
Später habe ich den reasoning effort auf xhigh erhöht, und dann kam ein deutlich besserer Pelikan heraus.
https://gist.github.com/simonw/a6168e4165a258e4d664aeae8e602...
Immerhin ist dieser hier lustig, weil er die Beine übereinanderschlägt.
Wir sind schon bei Version 5.5, und trotzdem kann das Modell noch nicht einmal einen einfachen Fahrradrahmen ordentlich zeichnen.
Das Vorderrad könnte sich konstruktiv gar nicht seitlich drehen, aber die Zeichnung bekommt das nicht hin.
Ich weiß zwar nicht genau, was reasoning tokens eigentlich sind, aber auf jeden Fall wirkt diese Tokenzahl schockierend niedrig.
Soweit ich mich erinnere, mochte Anthropic so etwas überhaupt nicht.
Sogar offene lokale Modelle mit Open Weights wie Qwen, die gestern gepostet wurden, sahen besser aus.
Alle reden über Anthropics Mythos-Gating und das Marketing rund um CyberGym 83 %, aber OpenAI hat GPT-5.5 einfach veröffentlicht, und der Wert liegt bei 82 %.
Dass es jeder ausprobieren kann, ist viel wichtiger.
Wenn man aus dem Bereich offensiver/defensiver Cybersicherheit kommt, sollte man lieber selbst mit so einem tatsächlich veröffentlichten Modell arbeiten als sich von aufgeblasener PR leiten zu lassen.
Ich hätte nie gedacht, dass ich das einmal sagen würde, aber inzwischen wirkt OpenAI wieder wie die offenere Option.
Deshalb geriet die Sicherheitsbranche in Panik, weil sie davon ausging, dass nur noch etwa zwei Wochen blieben, um neue Zero-Days zu blockieren, bevor eine Art Open Season beginnt, in der Black Hats massenhaft Schwachstellen finden und ausnutzen.
Anthropic hat noch nie ein offenes Modell veröffentlicht, den Claude-Code nie freiwillig offengelegt und auch den Tokenizer nicht freigegeben.
In der Dokumentation steht jedenfalls, dass bei Cybersicherheitsaufgaben unter automatischer Erkennung ein Fallback auf GPT-5.2 erfolgen kann.
https://developers.openai.com/codex/concepts/cyber-safety
https://chatgpt.com/cyber
Anthropic wirkt auf mich fast wie die Verkörperung von Großspurigkeit.
Seit ich einmal Cialdini gelesen habe, langweilt mich diese Art Inszenierung bei Anthropic.
OpenAI dagegen ist sehr clever. Als Claude aufkam, verschwanden sie eine Zeit lang aus den Schlagzeilen, aber jetzt reicht allein ihre riesige Nutzerbasis, um Anthropic schon dadurch lächerlich aussehen zu lassen, dass sie einfach dessen Release-Zyklus folgen.
Für Anthropic dürfte es mit jeder neuen GPT-Version nur noch trostloser werden, und es wirkt, als würde OpenAI am Ende alles dominieren.
Ich würde mir wünschen, dass mehr Leute den Abschnitt zu Preisen/Nutzungslimits auf dieser Seite ansehen.
https://developers.openai.com/codex/pricing?codex-usage-limi...
Man muss sich nur die Unterschiede bei Local Messages zwischen 5.3, 5.4 und 5.5 ansehen.
Ich habe zwar gelesen, dass 5.5 effizienter sei und sich ähnlich wie 5.4 an der Gewinnschwelle bewege, aber insgesamt sieht es dennoch nach strengeren Limits und höheren Preisen aus.
Die Lehre aus dem Anthropic-Beispiel scheint gewesen zu sein, dass Entwickler sehr schnell abhängig oder sogar süchtig nach Coding-Agenten werden und dann schon für kleine Verbesserungen bereitwillig zahlen.
Der mit Codex und GPT gebaute 3D-Dungeon-Arena-Prototyp sieht ziemlich überzeugend aus.
Codex übernahm dabei Spielarchitektur, die TypeScript-/Three.js-Implementierung, das Kampfsystem, Gegnerbegegnungen und HUD-Feedback; die Umgebungs-Texturen wurden von GPT erzeugt, und Charaktermodelle sowie Animationen kamen aus einem Drittanbieter-Tool zur Asset-Erstellung.
Dass es visuell ordentlich aussieht, liegt wahrscheinlich auch daran, dass die Meshes nicht direkt von GPT-5.5 erzeugt wurden, sondern von einem separaten Tool.
Das wirkt so, als käme wieder eine Zeit wie in der alten Flash-Ära, in der Gamer oder Hobbyentwickler Spielkonzepte schnell bauen und sofort im Web veröffentlichen können.
Vor allem scheint Three.js, obwohl es gar keine Game Engine ist, durch AI gerade faktisch zu einem zentralen Werkzeug für Game-Design zu werden.
Nur auf Three.js bezogen war das der größte einzelne Generationssprung, vor allem bei GLSL-Shadern, und auch die Strukturierung von Szenen über mehrere Seiten/Komponenten hinweg wurde besser.
Vollständige Shader ganz von Grund auf zu erzeugen, ist immer noch schwierig, aber bestehende Shader zu modifizieren funktioniert inzwischen ziemlich brauchbar.
Bei 5.2 und darunter war das Muster one canvas, multiple page, bei dem ein Hintergrund-Canvas über mehrere Routen hinweg erhalten bleibt, wirklich schlecht; 5.4 braucht zwar noch Anleitung, reagiert aber deutlich besser auf Prompts für Refactoring und Optimierung.
Ich freue mich darauf zu testen, wie 5.5 sich in der Praxis schlägt.
Auch meine schräge Uhrenvisualisierung beruht zu einem großen Teil darauf.
Es ist zwar keine Game Engine, aber für WebGL-3D im Web ist es faktisch Standard, und durch sein Alter gibt es auch enorme Trainingsdaten dazu.
Vor den LLMs habe ich eher Babylon.js verwendet, weil es auf höherer Ebene mehr Funktionen bietet.
Früher hieß es Spielwerk, und es ist eine App für iOS, mit der man Spiele erstellen und teilen kann.
Alles ist webbasiert, also leicht teilbar.
https://apps.apple.com/uz/app/jamboree-game-maker/id67473110...
GPT habe ich nicht ausprobiert, aber mit Claude konnte ich trotz aller Prompt-Optimierung keinen Rubik’s Cube lösen, und selbst Opus 4.6 kam nur auf etwa 70 % eines Puzzles, bevor es steckenblieb.
Ein einziger Versuch kostet dabei 20 Dollar, was finanziell kaum tragbar ist.
Wenn man 3D-Reasoning wirklich zuverlässig hinbekäme, könnte man denselben Ansatz vielleicht auch auf mathematische Probleme ausweiten, die heute noch unlösbar sind.
Ich überlege, meinen Rubik’s Cube MCP-Server öffentlich zu machen und Leute herauszufordern, ob jemand den Würfel rein per Prompt lösen kann.
Interessanter als die Benchmarks war in dieser Ankündigung für mich, dass Codex mehrere Wochen realer Traffic-Muster analysiert, die GPU-Auslastung erhöht und maßgeschneiderte heuristische Algorithmen für Task-Aufteilung und Balancing geschrieben haben soll, um die Token-Generierung um mehr als 20 % zu beschleunigen.
Dass agentische LLMs auf diese Weise Optimierungen der Recheneffizienz erreichen, hat große Auswirkungen, wird aber offenbar seltener geprüft als Benchmarks.
Meiner Erfahrung nach ist Opus in diesem Bereich noch besser als GPT/Codex, aber OpenAI erzielt unter Druck bei Kosten und Kapazität hier spürbare Gewinne und wird diese Richtung wohl weiter verfolgen.
Dabei musste ich an die früher berühmte Intel-FizzBuzz-Codegolf-Optimierung denken, also gab ich gemini pro meinen Code und bat um „eine ähnlich clevere Optimierung“, und der Vorschlag war wirklich großartig.
LLMs überraschen mich weiterhin fast täglich.
Und da alle Unternehmen wissen, dass die Optimierung der eigenen Infrastruktur und Modelle ein zentraler Weg zum Wettbewerbsvorteil ist, nehme ich an, dass sie diesen Bereich sehr ernst nehmen.
Es ist zwar gut, über klassische Benchmarks wie MMLU hinauszugehen, aber solche Zahlen ohne sauber kontrollierte Experimente sind nicht besonders hilfreich.
Wenn man Mythos vs. GPT-5.5 rein numerisch betrachtet, ist der Abstand bei SWE-bench Pro zwar noch groß, ansonsten sieht es aber ziemlich ähnlich aus.
SWE-bench Pro 77,8 % zu 58,6 %
Terminal-bench-2.0 82,0 % zu 82,7 %
GPQA Diamond 94,6 % zu 93,6 %
H. Last Exam 56,8 % zu 41,4 %
H. Last Exam (tools) 64,7 % zu 52,2 %
BrowseComp 86,9 % zu 84,4 %, auf Pro-Basis 90,1 %
OSWorld-Verified 79,6 % zu 78,7 %
Quelle für die Mythos-Werte ist https://www.anthropic.com/glasswing.
Wenn ich Opus 4.7 derzeit verwende, fühlt sich seine Autonomie massiv zurückgestutzt an, und unter dem Etikett Sicherheit scheint es starke Einschränkungen zu geben.
Daher bin ich mir nicht sicher, ob es in der Praxis wirklich so beeindruckend ist, wie Anthropic es darstellt.
Hier steht es:
https://www.anthropic.com/news/claude-opus-4-7#:~:text=memor...
Wenn man die offiziellen Einreichungen unter https://github.com/SWE-bench/experiments/tree/main/evaluatio... betrachtet, nur Modelle ab Sonnet 4 auswählt und über alle 500 Probleme summiert, lag die Lösungsquote aller Modelle zusammen exakt bei 93 %.
Wenn Mythos aber 93,7 % erreicht hat, würde das bedeuten, dass es sogar Probleme löst, die kein anderes Modell geschafft hat. Als ich mir genau diese Fälle angesehen habe, wurde es noch verdächtiger.
Die verbleibenden 7 % der Aufgaben wirkten nahezu unlösbar, ohne den Test-Patch vorab zu kennen, und die tatsächlichen Lösungen verliefen so anders als die Problembeschreibung, dass es sich beinahe anfühlte, als würde ein ganz anderes Problem gelöst.
Ich will nicht behaupten, dass Mythos geschummelt hat, aber vielleicht erinnert es sich an zu viele Zustände des Repositories und rekonstruiert allein aus Diff-Erinnerungen die eigentliche Problemstellung rückwärts.
Anders lässt sich schwer erklären, wie es solche mehrdeutigen Aufgabenbeschreibungen so präzise interpretieren kann.
Bei Benchmarks tauchen immer wieder Ausreißer auf.
Ich finde es schade, dass die Halluzinationsrate immer noch bei 86 % liegt.
Zum Vergleich: Opus liegt bei etwa 36 %.
Quelle: https://artificialanalysis.ai/models?omniscience=omniscience...
Je nach Frage liegt Halluzination eher bei fast 100 %, deshalb wirkt dieser Benchmark intuitiv nicht besonders überzeugend.
Wer fragt, versteht das Problem vermutlich nicht vollständig und bevorzugt daher offenbar eine selbstsichere Antwort, egal wie das Ergebnis ausfällt.
Das Ziel scheint eher darin zu bestehen, den Eindruck von Kompetenz zu verkaufen als die tatsächlichen Fähigkeiten der Technologie.
LLMs können ein Produkt ruinieren, und wenn die Denkmaschine eines Milliardärs angeblich Mitarbeiter ersetzen soll und man deshalb 75 % des Arbeitsbudgets hineinsteckt, dann kann ich nur sagen: viel Spaß dabei, über den Tisch gezogen zu werden.
Dieses Modell soll bei langfristigen Aufgaben sehr stark sein, und in Codex gibt es jetzt auch heartbeats, mit denen man den Status laufend prüfen kann.
Wenn man ihm schwierige Probleme mit überprüfbaren Einschränkungen gibt, die mehrere Stunden dauern können, merke man erst, wie gut es ist.
Der Verfasser sagt, er arbeite bei OpenAI.
Ich bin in letzter Zeit von anderen Modellen, vor allem Opus, genervt, weil sie mitten in Aufgaben ständig stoppen.
Glückwunsch zum Release.