GPT-5.5 vorgestellt

(openai.com)

4 Punkte von GN⁺ 6 일 전 | 1 Kommentare | Auf WhatsApp teilen

Ein agentisches Modell, das komplexe Aufgaben selbst plant, Tools kombiniert und bis zum Ende ausführt, mit einem breiten Einsatzspektrum von Code-Erstellung und Debugging über Web-Recherche, Datenanalyse sowie die Erstellung von Dokumenten und Tabellen bis hin zur Bedienung von Software
Bei derselben per-token latency wie GPT-5.4 stieg die Leistung in den Bereichen Coding, computer use, Wissensarbeit und frühe wissenschaftliche Forschung; zudem schließt es dieselben Codex-Aufgaben mit weniger Tokens ab und arbeitet damit effizienter
Im Software Engineering erreichte es 82,7 % auf Terminal-Bench 2.0, 73,1 % auf Expert-SWE und 58,6 % auf SWE-Bench Pro; besondere Stärken zeigen sich bei Implementierung, Refactoring, Debugging, Testing, Verifikation und beim Beibehalten des Kontexts großer Codebasen
Auch in allgemeinen Arbeits- und Research-Workflows wurden die Erstellung von Dokumenten, Tabellen und Slides, bildschirmbasierte computer use, mehrstufige Datenanalyse, Hypothesenprüfung und Ergebnisinterpretation als zusammenhängender Ablauf verbessert; GPT-5.5 Pro zielt dabei auf noch höhere Genauigkeit und Vollständigkeit
Vor dem Release lief das Modell durch verstärkte Sicherheitsmaßnahmen sowie interne und externe Tests und wird in ChatGPT und Codex schrittweise vor allem für Plus-, Pro-, Business- und Enterprise-Nutzer ausgerollt, was wie eine weitere Ausweitung praxisnaher KI-Anwendungen wirkt

Modellüberblick und Umfang des Rollouts

GPT-5.5 wird als Modell vorgestellt, das Absichten schneller versteht, mehrstufig verschachtelte Aufgaben selbst plant und mit Tools konsequent zu Ende führt
- Es kann Code schreiben und debuggen, Web-Recherche betreiben, Daten analysieren, Dokumente und Tabellen erstellen, Software bedienen und Aufgaben über mehrere Tools hinweg ausführen
- Statt jeden Schritt fein granular zu steuern, ist es darauf ausgelegt, komplexe und unstrukturierte Aufgaben auf einmal zu übernehmen und Planung, Tool-Nutzung, Verifikation und den Umgang mit Unklarheiten durchgängig fortzuführen
Besonders hervorgehoben werden Fortschritte bei agentischen Aufgaben; starke Leistung zeigt es in den Bereichen coding, computer use, knowledge work und frühe wissenschaftliche Forschung
- Obwohl größere Modelle oft langsamer werden, bleibt die per-token latency im realen Einsatz auf dem Niveau von GPT-5.4
- Dieselben Codex-Aufgaben werden mit weniger Tokens abgeschlossen, was die Effizienz zusätzlich erhöht
Vor dem Start wurden die Sicherheitsvorkehrungen verstärkt; eingeflossen sind interne und externe Red-Team-Tests, zusätzliche Prüfungen zu fortgeschrittenen Cybersecurity- und Biology-Fähigkeiten sowie frühes Nutzungsfeedback von rund 200 vertrauenswürdigen Partnern
Der Rollout läuft derzeit in ChatGPT und Codex schrittweise für Nutzer von Plus, Pro, Business und Enterprise; GPT-5.5 Pro wird in ChatGPT für Pro, Business und Enterprise angeboten
- Die API erfüllt noch separate Sicherheitsanforderungen; GPT-5.5 und GPT-5.5 Pro sollen dort in Kürze verfügbar sein

Software Engineering und agentisches Coding

OpenAI baut eine agentic AI infrastructure auf, und im vergangenen Jahr hat KI das Software Engineering deutlich beschleunigt
- Mit der Integration von GPT-5.5 in Codex und ChatGPT beginnt sich diese Veränderung auch auf wissenschaftliche Forschung und allgemeine Computerarbeit auszuweiten
Laut dem Artificial Analysis Coding Index liefert es im Vergleich zu konkurrierenden Frontier-Coding-Modellen Spitzenintelligenz bei halben Kosten
GPT-5.5 wird von OpenAI als stärkstes agentisches Coding-Modell des Unternehmens vorgestellt
- Auf Terminal-Bench 2.0 erzielte es 82,7 %; bewertet werden dort komplexe Command-Line-Workflows, die Planung, Iteration und Tool-Kombination erfordern
- Auf SWE-Bench Pro erreichte es 58,6 % und löste bei realen GitHub-Issues mehr Aufgaben als frühere Modelle in einem einzelnen End-to-End-Durchlauf
- Auch in der internen Bewertung Expert-SWE liegt es vor GPT-5.4
Über alle drei Coding-Benchmarks hinweg erzielt es höhere Werte mit weniger Tokens als GPT-5.4
In Codex zeigen sich seine Stärken bei Implementierung, Refactoring, Debugging, Testing und Verifikation
- Es ist stärker bei realen Engineering-Aufgaben wie dem Halten des Kontexts großer Systeme, dem Nachverfolgen mehrdeutiger Fehlerursachen, dem Prüfen von Annahmen mit Tools und dem Umsetzen von Änderungen über die gesamte Codebasis hinweg

Beispiele für Coding-Nutzung und frühe Tests

Als Beispiel ist ein Implementierungs-Prompt für eine WebGL- + Vite-App mit realen Daten von Artemis II enthalten
- Mithilfe von NASA/JPL-Horizons-Vektordaten werden die Bahnen von Orion, Moon und Sun gerendert
- Zur besseren Lesbarkeit wird eine Darstellungs-Skalierung angewendet
Frühe Tester bewerteten, dass GPT-5.5 die Systemarchitektur besser versteht
- Es erkennt präziser, was warum fehlschlägt, wo Änderungen vorgenommen werden müssen und welche Auswirkungen sie auf andere Teile der Codebasis haben
Dan Shipper testete, ob sich nach dem Zurückrollen einer Störung nach dem Release ein Redesign auf demselben Niveau erzeugen lässt; GPT-5.4 scheiterte, GPT-5.5 war erfolgreich
Pietro Schirano führte einen Branch mit Hunderten Frontend- und Refactor-Änderungen in etwa 20 Minuten in einem Durchgang in einen stark veränderten Main-Branch zusammen
In Tests mit Senior Engineers fielen reasoning und autonomy im Vergleich zu GPT-5.4 und Claude Opus 4.7 besonders auf
- Auch ohne expliziten Prompt erkennt es Probleme im Voraus und antizipiert sogar den Bedarf an Tests und Reviews
- Als um ein Redesign des Comment-Systems eines kollaborativen Markdown-Editors gebeten wurde, lieferte es einen Stack aus 12 Diffs in nahezu fertigem Zustand
- Es waren weniger Implementierungsanpassungen als erwartet nötig, und auch das Vertrauen in den Plan war höher als bei GPT-5.4
Im Zitat von Michael Truell von Cursor zeigt sich, dass das Modell länger an Aufgaben dranbleibt und sich besser für komplexe, lang laufende Aufgaben ohne vorzeitigen Abbruch eignet

Allgemeine Wissensarbeit und Computer-Nutzung

Die im Coding sichtbaren Stärken übertragen sich direkt auf alltägliche Computerarbeit
- Weil das Modell Absichten besser versteht, erledigt es Informationssuche, Auswahl wichtiger Informationen, Tool-Nutzung, Ergebnisprüfung und die Umwandlung von Rohmaterial in nützliche Ergebnisse deutlich natürlicher
In Codex ist GPT-5.5 bei der Erstellung von Dokumenten, Tabellen und Slides stärker als GPT-5.4
- Alpha-Tester gaben an, dass es bei Operations Research, Tabellenmodellierung und der Umwandlung unstrukturierter Business-Eingaben in Pläne besser sei als frühere Modelle
In Kombination mit den computer use-Fähigkeiten von Codex kann es den Bildschirm sehen, klicken, tippen, Interfaces navigieren und präzise zwischen mehreren Tools wechseln
Auch intern bei OpenAI wird es bereits in realen Workflows eingesetzt; aktuell nutzen mehr als 85 % der Mitarbeitenden Codex jede Woche
- Eingesetzt wird es über Software Engineering, Finance, Communications, Marketing, Data Science und Product Management hinweg
Das Communications-Team analysierte sechs Monate an Speaking-Request-Daten und entwickelte ein Scoring- und Risk-Framework; damit wurde ein Slack-Agent validiert, der Anfragen mit niedrigem Risiko automatisch bearbeitet und Anfragen mit hohem Risiko an Menschen zur Prüfung weiterleitet
Das Finance-Team prüfte 24.771 K-1-Steuerformulare mit insgesamt 71.637 Seiten und war durch einen Workflow zum Ausschluss personenbezogener Daten zwei Wochen schneller als im Vorjahr
Im Go-to-Market-Team spart die Automatisierung der Erstellung wöchentlicher Business-Reports 5 bis 10 Stunden pro Woche

GPT-5.5 Thinking und GPT-5.5 Pro in ChatGPT

GPT-5.5 Thinking in ChatGPT wurde dafür entwickelt, schwierigere Probleme schneller zu beantworten, und ermöglicht mit intelligenteren und prägnanteren Antworten eine effizientere Bearbeitung komplexer Aufgaben
- stark bei Coding, Research, Informationssynthese und -analyse sowie dokumentenzentrierten Arbeiten, besonders vorteilhaft bei der Nutzung von Plugins
GPT-5.5 Pro zielt auf schwierigere Aufgaben und höhere Qualität, wobei die geringere Latenz die Praxistauglichkeit erhöht
- im Vergleich zu GPT-5.4 Pro sind die Antworten umfassender, besser strukturiert, präziser, relevanter und nützlicher
- besonders stark in Business, Recht, Bildung und Data Science
Auch bei Benchmarks, die nah an professionellen Aufgaben liegen, werden hohe Werte erzielt
- GDPval 84,9 %, OSWorld-Verified 78,7 %, Tau2-bench Telecom 98,0 %
- Tau2-bench Telecom wurde ohne Prompt Tuning durchgeführt
- Außerdem werden FinanceAgent 60,0 %, interne Investment-Banking-Modeling-Tasks 88,5 % und OfficeQA Pro 54,1 % genannt
Im Zitat von Justin Boitano von NVIDIA wird ein Ablauf beschrieben, bei dem die Bereitstellung auf NVIDIA-GB200-NVL72-Systemen erfolgt, End-to-End-Funktionalität per Natural-Language-Prompt ausgeliefert wird, die Debugging-Zeit von Tagen auf Stunden sinkt und Experimente, die Wochen dauern würden, über Nacht durchgeführt werden können

Wissenschaftliche Forschung und technische Research-Workflows

GPT-5.5 zeigt auch Leistungsverbesserungen in wissenschaftlichen und technischen Research-Workflows
- Es geht über das reine Beantworten schwieriger Fragen hinaus und hält den Loop von Ideenfindung, Evidenzsammlung, Überprüfung von Annahmen, Interpretation von Ergebnissen bis zur Entscheidung über das nächste Experiment besser aufrecht
Bei GeneBench zeigt sich eine deutliche Verbesserung gegenüber GPT-5.4
- eine neue Evaluierung für mehrstufige Datenanalyse in Genetik und quantitativer Biologie
- behandelt mehrdeutige oder fehlerhafte Daten, versteckte Confounder, QC-Fehlschläge sowie die Implementierung und Interpretation moderner statistischer Methoden
- die Aufgaben hier entsprechen selbst für wissenschaftliche Fachleute Projekten von mehreren Tagen
Auch bei BixBench wird unter Modellen mit veröffentlichten Scores eine führende Leistung erreicht
- vorgestellt als Benchmark, der reale Bioinformatik und Datenanalyse abbildet
- zeigt das Potenzial für Beschleunigung auf Co-Scientist-Niveau an der Spitze der biomedizinischen Forschung
Die interne Version GPT-5.5 und ein Custom Harness wurden auch verwendet, um einen neuen Beweis zu Ramsey-Zahlen zu finden
- Link zum neuen Beweis
- in der Kombinatorik wurde ein Beweis zu asymptotischen Aussagen über lang bekannte off-diagonal Ramsey-Zahlen gefunden und anschließend mit Lean verifiziert
- trägt über Code oder Erklärungen hinaus auch zu nützlichen mathematischen Argumentationen in zentralen Forschungsfeldern bei
Frühe Tester nutzten GPT-5.5 Pro eher als Forschungspartner denn als Engine für Einmalantworten
- sie überprüften Manuskripte wiederholt kritisch, unterzogen technische Argumentationen einem Stress Test, schlugen Analysen vor und arbeiteten mit dem Kontext aus Code, Notizen und PDFs
- es unterstützt den Ablauf von der Frage über das Experiment bis zum Ergebnis besser

Forschungsbeispiele

Derya Unutmaz vom Jackson Laboratory for Genomic Medicine analysierte mit GPT-5.5 Pro einen Gene-Expression-Datensatz mit 62 Samples und rund 28.000 Genen
- es wurde ein detaillierter Forschungsbericht erstellt, der nicht nur die Ergebnisse zusammenfasst, sondern auch Kernfragen und Erkenntnisse sichtbar macht
- wenn sein Team diese Arbeit durchgeführt hätte, hätte sie Monate gedauert
Bartosz Naskręcki von der Adam Mickiewicz University erstellte mit Codex in 11 Minuten aus einem einzigen Prompt eine App für algebraische Geometrie
- sie visualisiert den Schnitt zweier quadratischer Flächen und wandelt die resultierende Kurve in ein Weierstraß-Modell um
- anschließend wurden die Singularity-Visualisierung robuster gemacht und wiederverwendbare exakte Koeffizienten für Folgearbeiten ergänzt
- Codex half auch bei der Umsetzung maßgeschneiderter mathematischer Visualisierungen und Computer-Algebra-Workflows, für die sonst spezialisierte Tools nötig gewesen wären
Credit: Bartosz Naskręcki
Im Zitat von Brandon White von Axiom Bio wird beschrieben, wie aus riesigen biochemischen Datensätzen auf human drug outcomes geschlossen wird und sich bei den schwierigsten Evaluierungen im Bereich Drug Discovery sinnvolle Genauigkeitsverbesserungen zeigen

Inferenz-Infrastruktur und Performance-Optimierung

Um GPT-5.5 mit derselben Latenz wie GPT-5.4 bereitzustellen, musste die Inferenz nicht als Bündel einzelner Optimierungen, sondern als integriertes System neu entworfen werden
- GPT-5.5 wurde gemeinsam für NVIDIA GB200 und GB300 NVL72 Systeme konzipiert, trainiert und bereitgestellt
Codex und GPT-5.5 selbst trugen direkt zum Erreichen der Performance-Ziele bei
- Codex wurde genutzt, um Ideen schnell in benchmarkfähige Implementierungen zu überführen, Ansätze zu skizzieren, Experimente zu verknüpfen und Optimierungen mit größerem Investitionsbedarf zu identifizieren
- GPT-5.5 half dabei, zentrale Verbesserungen innerhalb des Stacks zu finden und umzusetzen
- letztlich trug das Modell auch zur Verbesserung der Infrastruktur bei, die es selbst bereitstellt
Als repräsentatives Beispiel für Verbesserungen werden Load Balancing und Partitioning-Heuristics vorgestellt
- zuvor wurden Requests auf den Accelerators in eine feste Anzahl von Chunks aufgeteilt, sodass große und kleine Requests auf derselben GPU liefen
- eine statische Anzahl von Chunks war jedoch nicht für jede Form von Traffic optimal
- Codex analysierte Production-Traffic-Muster über mehrere Wochen und schrieb einen maßgeschneiderten Heuristic-Algorithmus, der Aufgaben optimal aufteilt und ausbalanciert
- dadurch stieg die Token-Generierungsgeschwindigkeit um mehr als 20 %

Cybersicherheit und Schutzmaßnahmen

Ein Modell bereitzustellen, das Schwachstellen gut erkennt und patchen kann, ist eher ein Teamsport, und für die nächste Ära der Cyberabwehr braucht es die Resilienz des gesamten Ökosystems
- Zugehöriger Link: next era of cyber defense
Die Cybersicherheitsfähigkeiten von Frontier-Modellen werden immer stärker, und da sich diese Fähigkeit breit verbreiten wird, wird der Weg wichtig, sie zur Beschleunigung der Cyberabwehr und zur Stärkung des Ökosystems einzusetzen
GPT-5.5 wird als schrittweiser, aber wichtiger Schritt hin zu einer KI eingeordnet, die schwierige Probleme wie Cybersicherheit lösen kann
- Bereits bei GPT-5.2 wurden cyber safeguards proaktiv eingeführt, um potenziellen Cyber-Missbrauch zu begrenzen
- In GPT-5.5 wurden strengere Classifier für potenzielle Cyber-Risiken eingesetzt, was anfangs für einige Nutzer störend sein könnte
OpenAI behandelt Cybersicherheit seit Jahren als eigene Kategorie im Preparedness Framework und hat die Gegenmaßnahmen entsprechend den steigenden Fähigkeiten immer wieder angepasst
Schutzmaßnahmen auf branchenführendem Niveau wurden passend zu diesem Niveau an Cyber-Fähigkeiten eingeführt
- Mit GPT-5.2 wurden erstmals cyberspezifische Schutzmaßnahmen eingeführt, die seitdem bei jeder Veröffentlichung getestet, verfeinert und erweitert wurden
- In GPT-5.5 wurden die Schutzmechanismen für Hochrisikoaktivitäten, sensible Cyber-Anfragen und wiederholten Missbrauch weiter verstärkt
- Der breite Zugang wurde durch Investitionen in Modellsicherheit, verifizierte Nutzung und Monitoring unerlaubter Nutzung möglich
- Über mehrere Monate hinweg wurde die Robustheit gemeinsam mit externen Experten entwickelt, getestet und verbessert
- Entwicklern soll es erleichtert werden, Code zu schützen, während für Cyber-Workflows, mit denen böswillige Akteure leichter Schaden anrichten könnten, stärkere Kontrollen gelten
Auch der Ausbau des Zugangs für Verteidigungszwecke läuft parallel
- Über Trusted Access for Cyber wird Zugang zu cyber-permissiven Modellen angeboten; Ausgangspunkt ist Codex
- Verifizierten Nutzern, die bestimmte trust signals erfüllen, werden die erweiterten Cybersicherheitsfunktionen von GPT-5.5 mit weniger Einschränkungen bereitgestellt
- Organisationen, die für den Schutz kritischer Infrastrukturen verantwortlich sind, können Zugang zu cyber-permissiven Modellen wie GPT-5.4-Cyber beantragen
- Ziel ist es, verifizierten Verteidigern Werkzeuge für legitime Sicherheitsarbeit mit weniger Reibung bereitzustellen
- Bewerbungslink: chatgpt.com/cyber
Dazu gehört auch die Zusammenarbeit mit Regierungspartnern
- Gemeinsam wird untersucht, wie fortschrittliche KI öffentliche Stellen unterstützen kann, die kritische Infrastrukturen wie digitale Systeme zum Schutz von Steuerdaten, Stromnetze und die kommunale Wasserversorgung verteidigen
Die biologischen/chemischen und Cybersicherheitsfähigkeiten von GPT-5.5 sind im Preparedness Framework als High eingestuft
- Das Niveau kritischer Cybersicherheitsfähigkeiten wurde zwar noch nicht erreicht, aber Bewertungen und Tests bestätigten eine um eine Stufe höhere Cyber-Fähigkeit als bei GPT-5.4
Vor dem Release durchlief das Modell den vollständigen safety and governance process
- Dazu gehörten Preparedness-Bewertungen, domänenspezifische Tests, neue gezielte Bewertungen für fortgeschrittene Biology- und Cybersicherheitsrisiken sowie belastbare Tests mit externen Experten
- Weitere Details finden sich in der GPT-5.5 system card
Dieser Ansatz ist Teil einer AI-resilience-Strategie, die im Zeitalter stärkerer Modelle nötig ist
- Leistungsfähige KI muss auch denjenigen zur Verfügung stehen, die Systeme, Institutionen und die Öffentlichkeit schützen; als zentraler Weg werden vertrauensbasierter Zugang, proportional zu den Fähigkeiten verschärfte Schutzmaßnahmen sowie operative Fähigkeiten zur Erkennung und Reaktion auf schwerwiegenden Missbrauch genannt

Verfügbare Pläne und Preise

GPT-5.5 wird derzeit in ChatGPT und Codex für Nutzer von Plus, Pro, Business und Enterprise ausgerollt; GPT-5.5 Pro ist in ChatGPT für Pro, Business und Enterprise verfügbar
In ChatGPT ist GPT-5.5 Thinking für Plus, Pro, Business und Enterprise verfügbar
- GPT-5.5 Pro ist auf schwierigere Fragen und höhere Genauigkeit ausgelegt und kann in Pro, Business und Enterprise genutzt werden
In Codex ist GPT-5.5 für die Pläne Plus, Pro, Business, Enterprise, Edu und Go verfügbar und bietet ein 400K context window
- Ein Fast mode wird ebenfalls angeboten; die Token-Generierung ist 1,5-mal schneller und kostet das 2,5-Fache
gpt-5.5 für API-Entwickler soll bald in der Responses API und der Chat Completions API verfügbar sein
- Angegeben sind 5 US-Dollar pro 1M Input-Token, 30 US-Dollar pro 1M Output-Token und ein 1M context window
- Batch- und Flex-Preise liegen bei der Hälfte der Standard-API-Gebühren, Priority processing kostet das 2,5-Fache
gpt-5.5-pro soll ebenfalls in der API erscheinen und zielt auf höhere Genauigkeit ab
- Genannt werden 30 US-Dollar pro 1M Input-Token und 180 US-Dollar pro 1M Output-Token
- Die vollständigen Preisinfos sind auf der pricing page verlinkt
GPT-5.5 ist zwar teurer als GPT-5.4, bietet aber auch höhere Intelligenz und bessere Token-Effizienz
- In Codex wurde das Nutzungserlebnis so abgestimmt, dass die meisten Nutzer mit weniger Tokens als bei GPT-5.4 bessere Ergebnisse erhalten
- Über alle Abo-Stufen hinweg soll weiterhin ein großzügiges Nutzungskontingent bereitgestellt werden

Detaillierte Benchmarks

Coding
- Bei SWE-Bench Pro (Public) erreicht GPT-5.5 58.6%, GPT-5.4 57.7%, Claude Opus 4.7 64.3% und Gemini 3.1 Pro 54.2%
- Bei Terminal-Bench 2.0 erreicht GPT-5.5 82.7%, GPT-5.4 75.1%, Claude Opus 4.7 69.4% und Gemini 3.1 Pro 68.5%
- Expert-SWE (Internal) wird mit GPT-5.5 73.1% und GPT-5.4 68.5% angegeben
Fachliche Aufgaben
- Bei GDPval (wins or ties) erreicht GPT-5.5 84.9%, GPT-5.4 83.0%, GPT-5.5 Pro 82.3%, GPT-5.4 Pro 82.0%, Claude Opus 4.7 80.3% und Gemini 3.1 Pro 67.3%
- Bei FinanceAgent v1.1 erreicht GPT-5.5 60.0%, GPT-5.4 56.0%, GPT-5.4 Pro 61.5%, Claude Opus 4.7 64.4% und Gemini 3.1 Pro 59.7%
- Investment Banking Modeling Tasks (Internal) wird mit GPT-5.5 88.5%, GPT-5.4 87.3%, GPT-5.5 Pro 88.6% und GPT-5.4 Pro 83.6% angegeben
- Bei OfficeQA Pro erreicht GPT-5.5 54.1%, GPT-5.4 53.2%, Claude Opus 4.7 43.6% und Gemini 3.1 Pro 18.1%
Computernutzung und Vision
- Bei OSWorld-Verified erreicht GPT-5.5 78.7%, GPT-5.4 75.0% und Claude Opus 4.7 78.0%
- Bei MMMU Pro (no tools) liegen GPT-5.5 und GPT-5.4 beide bei 81.2%, Gemini 3.1 Pro bei 80.5%
- Bei MMMU Pro (with tools) erreicht GPT-5.5 83.2%, GPT-5.4 82.1%
Tool-Nutzung
- Bei BrowseComp erreicht GPT-5.5 84.4%, GPT-5.4 82.7%, GPT-5.5 Pro 90.1%, GPT-5.4 Pro 89.3%, Claude Opus 4.7 79.3% und Gemini 3.1 Pro 85.9%
- Bei MCP Atlas erreicht GPT-5.5 75.3%, GPT-5.4 70.6%, Claude Opus 4.7 79.1% und Gemini 3.1 Pro 78.2%
- Bei Toolathlon erreicht GPT-5.5 55.6%, GPT-5.4 54.6% und Gemini 3.1 Pro 48.8%
- Bei Tau2-bench Telecom auf Basis des ursprünglichen Prompts erreicht GPT-5.5 98.0%, GPT-5.4 92.8%
- Die Anmerkung zu MCP Atlas besagt, dass es sich um Ergebnisse nach dem neuesten Update von Scale AI im April 2026 handelt
- Die Anmerkung zu Tau2-bench Telecom stellt klar, dass die Auswertung ohne prompt adjustment erfolgte und Ergebnisse anderer Labore mit prompt adjustment ausgeschlossen wurden
Wissenschaft
- Bei GeneBench erreicht GPT-5.5 25.0%, GPT-5.4 19.0%, GPT-5.5 Pro 33.2% und GPT-5.4 Pro 25.6%
- Bei FrontierMath Tier 1–3 erreicht GPT-5.5 51.7%, GPT-5.4 47.6%, GPT-5.5 Pro 52.4%, GPT-5.4 Pro 50.0%, Claude Opus 4.7 43.8% und Gemini 3.1 Pro 36.9%
- Bei FrontierMath Tier 4 erreicht GPT-5.5 35.4%, GPT-5.4 27.1%, GPT-5.5 Pro 39.6%, GPT-5.4 Pro 38.0%, Claude Opus 4.7 22.9% und Gemini 3.1 Pro 16.7%
- Bei BixBench erreicht GPT-5.5 80.5%, GPT-5.4 74.0%
- Bei GPQA Diamond erreicht GPT-5.5 93.6%, GPT-5.4 92.8%, GPT-5.4 Pro 94.4%, Claude Opus 4.7 94.2% und Gemini 3.1 Pro 94.3%
- Bei Humanity's Last Exam (no tools) erreicht GPT-5.5 41.4%, GPT-5.4 39.8%, GPT-5.5 Pro 43.1%, GPT-5.4 Pro 42.7%, Claude Opus 4.7 46.9% und Gemini 3.1 Pro 44.4%
- Bei Humanity's Last Exam (with tools) erreicht GPT-5.5 52.2%, GPT-5.4 52.1%, GPT-5.5 Pro 57.2%, GPT-5.4 Pro 58.7%, Claude Opus 4.7 54.7% und Gemini 3.1 Pro 51.4%
Cybersicherheit
- Capture-the-Flags challenge tasks (Internal) wird mit GPT-5.5 88.1% und GPT-5.4 83.7% angegeben
- Bei CyberGym erreicht GPT-5.5 81.8%, GPT-5.4 79.0% und Claude Opus 4.7 73.1%
- Die Anmerkung besagt, dass die Ergebnisse auf einer Erweiterung der schwierigsten im System Card beschriebenen CTFs sowie zusätzlichen hochschwierigen Challenges beruhen
Langer Kontext
- Bei Graphwalks BFS 256k f1 erreicht GPT-5.5 73.7%, GPT-5.4 62.5% und Claude Opus 4.7 76.9%
- Bei Graphwalks BFS 1mil f1 erreicht GPT-5.5 45.4%, GPT-5.4 9.4% und Claude Opus 4.6 41.2%
- Bei Graphwalks parents 256k f1 erreicht GPT-5.5 90.1%, GPT-5.4 82.8% und Claude Opus 4.7 93.6%
- Bei Graphwalks parents 1mil f1 erreicht GPT-5.5 58.5%, GPT-5.4 44.4% und Claude Opus 4.6 72.0%
- OpenAI MRCR v2 8-needle wird nach Kontextlänge aufgeschlüsselt angegeben, mit 4K-8K 98.1%, 8K-16K 93.0%, 16K-32K 96.5%, 32K-64K 90.0%, 64K-128K 83.1%, 128K-256K 87.5%, 256K-512K 81.5% und 512K-1M 74.0%
- Für GPT-5.4 werden im selben Punkt jeweils 97.3%, 91.4%, 97.2%, 90.5%, 86.0%, 79.3%, 57.5% und 36.6% angegeben
- Im Bereich 128K-256K ist Claude Opus 4.7 mit 59.2% aufgeführt, im Bereich 512K-1M Claude Opus 4.7 mit 32.2%
Abstraktes Schlussfolgern
- Bei ARC-AGI-1 (Verified) erreicht GPT-5.5 95.0%, GPT-5.4 93.7%, GPT-5.4 Pro 94.5%, Claude Opus 4.7 93.5% und Gemini 3.1 Pro 98.0%
- Bei ARC-AGI-2 (Verified) erreicht GPT-5.5 85.0%, GPT-5.4 73.3%, GPT-5.4 Pro 83.3%, Claude Opus 4.7 75.8% und Gemini 3.1 Pro 77.1%
- Es wird angegeben, dass die Bewertungen der GPT-Reihe in einer Forschungsumgebung mit auf xhigh gesetztem reasoning effort durchgeführt wurden und die Ausgaben in manchen Fällen leicht von ChatGPT in der Produktionsumgebung abweichen können

1 Kommentare

GN⁺ 6 일 전

Hacker-News-Meinungen

Die Aussage bei NVIDIA, dass sich der Verlust des Zugangs zu GPT-5.5 anfühle, als würde man Arme und Beine verlieren, klingt deutlich unheimlicher als wohl beabsichtigt.
Das scheint generell für die Abhängigkeit von Frontier-Coding-Modellen zu gelten, und je besser die Leistung wird, desto schneller stützt man sich beim Coden darauf.
Nachdem ich es selbst erlebt habe, fühlt es sich ziemlich unangenehm an. Inzwischen ist es ungefähr 10-mal schneller, Dinge direkt vom Modell erledigen zu lassen, statt geduldig alles von Hand zu coden, und meine Rolle hat sich dadurch ebenfalls verändert.
Es ist beeindruckend, wie viel man damit zum Laufen bringen kann, aber wenn die Tokens ausgehen, steht die Arbeit faktisch still.
Wenn Claude ausfällt, hat es mehr Hebelwirkung, spazieren zu gehen, als sich zum Coden zu zwingen. Wenn Claude eine Stunde später wieder online ist, komme ich weiter, als wenn ich mich an von einem LLM erzeugtem Code festbeiße und versuche, das Problem manuell zu lösen, bis ich erschöpft bin.
Jedenfalls fühlt sich dieser Zustand weiterhin etwas beunruhigend an.
- Es fühlt sich so an, als würde schon die Theorie der Arbeit selbst durch LLMs auf den Kopf gestellt.
  Der Markt basiert derzeit auf der Annahme, dass Arbeit atomisiert ist und nur geringe Verhandlungsmacht besitzt, während Kapital viel stärkere Verhandlungsmacht hat und den Preis von Arbeit faktisch festlegt.
  Was aber, wenn diese Arbeit von einem anderen, noch größeren Unternehmen bereitgestellt wird und diese Arbeit im Unterschied zu traditioneller Arbeit ihre Lieferung auf unbestimmte Zeit einstellen kann?
  Arbeit ist nun zu einer anderen Form von Kapital geworden, und Kapital muss nichts essen.
  Unternehmen ohne eigene Modelle werden die Folgen wohl am eigenen Leib lernen.
- Man kann es auch als gar nicht so anders als die Nutzung von Bibliotheksabstraktionen sehen.
  Man entwickelt schneller, schreibt weniger eigenen Code, und Zustandsverwaltung oder Memory-Management übernimmt die Bibliothek.
  Manche mögen sich unwohl dabei fühlen, statt mit Zeigern und malloc() direkt zu arbeiten von Bibliotheksaufrufen abhängig zu sein, aber für andere ist es befreiend, weil sie sich auf Architektur auf höherer Ebene konzentrieren können, ohne ständig in Low-Level-Kontextwechsel abzurutschen.
- Es gibt eine bewusste Nutzungsweise, um mein eigenes Grab nicht zu schnell zu schaufeln.
  Ich bitte oft darum, statt einer fertigen Antwort eigenständige CLI-Programme oder Tools zu bauen.
  Ich frage auch, wie das Modell zu seinen Schlussfolgerungen gekommen ist, um meinen eigenen Blickwinkel zu erweitern, und lasse mir sogar seine Klassifikationsweise auf Metadatenebene erklären.
  Gerade in großen Codebasen, in denen die Schwierigkeit eher in der Größe des Referenzgraphen als im Konzept selbst liegt, versuche ich das so einzusetzen, dass sich meine eigene Problemlösefähigkeit verbessert.
- Falls lokale Modelle gegenüber aktuellen gehosteten Modellen nur einen moderaten Abstand halten, zum Beispiel höchstens 12 Monate zurückliegen, und lokale Hardware weiter zugänglich bleibt, könnte das Risiko begrenzt sein.
  Selbst wenn gehostete Modelle verschwinden oder zu teuer werden, würde man dann nur diesen kleinen Leistungsunterschied verlieren.
  Natürlich ist keine dieser beiden Annahmen wirklich selbstverständlich, also ist das eher eine Hoffnung.
- Wenn man die Kursinteressen von NVIDIA und OpenAI bedenkt, ist es nicht verwunderlich, dass solche Aussagen fallen.
  Und dass immer noch der Slogan von 10-facher Produktivität wiederholt wird, ist ehrlich gesagt schwer zu glauben.
Die Einführung von GPT-5.5 ist zwar heute, aber die Bereitstellung in ChatGPT und Codex erfolgt laut OpenAI über mehrere Stunden schrittweise.
Zur Stabilität des Dienstes wird wie bei früheren Releases gestaffelt ausgerollt, normalerweise zuerst für Pro/Enterprise und dann weiter runter bis Plus.
Es kann also sein, dass es nicht sofort sichtbar ist; man solle später noch einmal nachsehen.
Das zufällige Warten kann nervig sein, aber es diene der Stabilität.
Der Verfasser sagt, er arbeite bei OpenAI.
- Ich habe OpenClaw mit GPT-5.4 API xhigh ausprobiert, und ich konnte das Modell einfach nicht dazu bringen, tatsächlich etwas zu erledigen.
  Nach dem Anthropic-OAuthgate wollte ich es ernsthaft als Alternative nutzen, aber selbst schnelle, sichere und harmlose Teilaufgaben konnte es nicht abschließen.
  Die Unterhaltung endete nur in endlosen Entschuldigungen wie „Hier hätte ich X tun sollen“ – „Stimmt, ich bin gescheitert“ – „Dann mach es jetzt“ – „Das hätte ich tun sollen, habe ich aber nicht“.
  Dass GLM, Kimi und Minimax es später problemlos geschafft haben, machte es noch absurder, und deshalb musste ich OpenAI sofort fallenlassen.
- Ein öffentliches Rollout-Dashboard würde die Verwirrung deutlich verringern.
  Noch besser wäre es, wenn die UI zeigen würde, dass das Modell existiert, aber für mein Konto noch nicht freigeschaltet ist.
  Mit einer ETA wäre es ideal, auch wenn Vorhersagen während eines Rollouts wegen möglicher Probleme natürlich schwierig sind.
- Glückwunsch zum Release.
  Ich frage mich, ob Images 2.0 innerhalb von ChatGPT mit ausgerollt wird oder ob das vorerst nur eine Funktion für API/Playground bleibt.
- Aus Sicht eines Plus-Nutzers zögere ich, Codex auszuprobieren, weil ich nicht weiß, wie stark es auf das Nutzungslimit angerechnet wird.
- Ich frage mich, ob GPT-5.5-Finetuning auch bald kommt.
Es gibt noch keinen offiziellen API-Zugang, aber derzeit scheint OpenAI den von OpenClaw genutzten Backdoor-Zugang zur Codex-API faktisch zu dulden.
https://twitter.com/steipete/status/2046775849769148838 und https://twitter.com/romainhuet/status/2038699202834841962
In dieser Backdoor-API ist auch GPT-5.5 enthalten.
Deshalb habe ich das Pelikan-Beispiel ausprobiert, https://simonwillison.net/2026/Apr/23/gpt-5-5/#and-some-peli...
und dafür das neue LLM-Plugin https://github.com/simonw/llm-openai-via-codex verwendet.
Später habe ich den reasoning effort auf xhigh erhöht, und dann kam ein deutlich besserer Pelikan heraus.
https://gist.github.com/simonw/a6168e4165a258e4d664aeae8e602...
- Der lokale Modell-Pelikan, den ich gestern gepostet habe, sah besser aus als dieser.
  Immerhin ist dieser hier lustig, weil er die Beine übereinanderschlägt.
- Ehrlich gesagt ist das ziemlich schwach.
  Wir sind schon bei Version 5.5, und trotzdem kann das Modell noch nicht einmal einen einfachen Fahrradrahmen ordentlich zeichnen.
  Das Vorderrad könnte sich konstruktiv gar nicht seitlich drehen, aber die Zeichnung bekommt das nicht hin.
- Dass es mit der Standardeinstellung nur 39 reasoning tokens verwendet hat und trotzdem so weit gekommen ist, ist ziemlich überraschend.
  Ich weiß zwar nicht genau, was reasoning tokens eigentlich sind, aber auf jeden Fall wirkt diese Tokenzahl schockierend niedrig.
- Ich frage mich, ob diese Art der direkten API-Nutzung laut Nutzungsbedingungen erlaubt ist.
  Soweit ich mich erinnere, mochte Anthropic so etwas überhaupt nicht.
- Ich frage mich, warum es so viel schlechter zeichnet als andere Dinge, die kürzlich gepostet wurden.
  Sogar offene lokale Modelle mit Open Weights wie Qwen, die gestern gepostet wurden, sahen besser aus.
Alle reden über Anthropics Mythos-Gating und das Marketing rund um CyberGym 83 %, aber OpenAI hat GPT-5.5 einfach veröffentlicht, und der Wert liegt bei 82 %.
Dass es jeder ausprobieren kann, ist viel wichtiger.
Wenn man aus dem Bereich offensiver/defensiver Cybersicherheit kommt, sollte man lieber selbst mit so einem tatsächlich veröffentlichten Modell arbeiten als sich von aufgeblasener PR leiten zu lassen.
Ich hätte nie gedacht, dass ich das einmal sagen würde, aber inzwischen wirkt OpenAI wieder wie die offenere Option.
- Der eigentliche Hype bestand darin, dass allen klar wurde: Kaum hatte Anthropic Mythos angekündigt, würde OpenAI innerhalb weniger Wochen ein Konkurrenzmodell veröffentlichen, und Sam würde den Zugang wohl nicht einmal sperren.
  Deshalb geriet die Sicherheitsbranche in Panik, weil sie davon ausging, dass nur noch etwa zwei Wochen blieben, um neue Zero-Days zu blockieren, bevor eine Art Open Season beginnt, in der Black Hats massenhaft Schwachstellen finden und ausnutzen.
- Verglichen mit Anthropic war OpenAI schon immer offener.
  Anthropic hat noch nie ein offenes Modell veröffentlicht, den Claude-Code nie freiwillig offengelegt und auch den Tokenizer nicht freigegeben.
- Wenn man OpenAI Cybersicherheitsfragen stellt, reagieren sie dann nicht verärgert, verlangen das Hochladen eines behördlichen Ausweises und routen einen sonst stillschweigend auf ein schwächeres Modell?
  In der Dokumentation steht jedenfalls, dass bei Cybersicherheitsaufgaben unter automatischer Erkennung ein Fallback auf GPT-5.2 erfolgen kann.
  https://developers.openai.com/codex/concepts/cyber-safety
  https://chatgpt.com/cyber
- Ich ignoriere alle Hype-News.
  Anthropic wirkt auf mich fast wie die Verkörperung von Großspurigkeit.
  Seit ich einmal Cialdini gelesen habe, langweilt mich diese Art Inszenierung bei Anthropic.
  OpenAI dagegen ist sehr clever. Als Claude aufkam, verschwanden sie eine Zeit lang aus den Schlagzeilen, aber jetzt reicht allein ihre riesige Nutzerbasis, um Anthropic schon dadurch lächerlich aussehen zu lassen, dass sie einfach dessen Release-Zyklus folgen.
  Für Anthropic dürfte es mit jeder neuen GPT-Version nur noch trostloser werden, und es wirkt, als würde OpenAI am Ende alles dominieren.
- Ich habe auch den Eindruck, dass OpenAI Cyber-Fragen einfach auf ein dümmeres Modell umleitet.
Ich würde mir wünschen, dass mehr Leute den Abschnitt zu Preisen/Nutzungslimits auf dieser Seite ansehen.
https://developers.openai.com/codex/pricing?codex-usage-limi...
Man muss sich nur die Unterschiede bei Local Messages zwischen 5.3, 5.4 und 5.5 ansehen.
Ich habe zwar gelesen, dass 5.5 effizienter sei und sich ähnlich wie 5.4 an der Gewinnschwelle bewege, aber insgesamt sieht es dennoch nach strengeren Limits und höheren Preisen aus.
- Über die API gerechnet kostet GPT-5.5 doppelt so viel wie GPT-5.4, etwa viermal so viel wie GPT-5.1 und etwa zehnmal so viel wie Kimi-2.6.
  Die Lehre aus dem Anthropic-Beispiel scheint gewesen zu sein, dass Entwickler sehr schnell abhängig oder sogar süchtig nach Coding-Agenten werden und dann schon für kleine Verbesserungen bereitwillig zahlen.
Der mit Codex und GPT gebaute 3D-Dungeon-Arena-Prototyp sieht ziemlich überzeugend aus.
Codex übernahm dabei Spielarchitektur, die TypeScript-/Three.js-Implementierung, das Kampfsystem, Gegnerbegegnungen und HUD-Feedback; die Umgebungs-Texturen wurden von GPT erzeugt, und Charaktermodelle sowie Animationen kamen aus einem Drittanbieter-Tool zur Asset-Erstellung.
Dass es visuell ordentlich aussieht, liegt wahrscheinlich auch daran, dass die Meshes nicht direkt von GPT-5.5 erzeugt wurden, sondern von einem separaten Tool.
Das wirkt so, als käme wieder eine Zeit wie in der alten Flash-Ära, in der Gamer oder Hobbyentwickler Spielkonzepte schnell bauen und sofort im Web veröffentlichen können.
Vor allem scheint Three.js, obwohl es gar keine Game Engine ist, durch AI gerade faktisch zu einem zentralen Werkzeug für Game-Design zu werden.
- Ich habe in den letzten drei Jahren mit Three.js und AI weiter experimentiert und bei 5.4 besonders einen großen Sprung gespürt.
  Nur auf Three.js bezogen war das der größte einzelne Generationssprung, vor allem bei GLSL-Shadern, und auch die Strukturierung von Szenen über mehrere Seiten/Komponenten hinweg wurde besser.
  Vollständige Shader ganz von Grund auf zu erzeugen, ist immer noch schwierig, aber bestehende Shader zu modifizieren funktioniert inzwischen ziemlich brauchbar.
  Bei 5.2 und darunter war das Muster one canvas, multiple page, bei dem ein Hintergrund-Canvas über mehrere Routen hinweg erhalten bleibt, wirklich schlecht; 5.4 braucht zwar noch Anleitung, reagiert aber deutlich besser auf Prompts für Refactoring und Optimierung.
  Ich freue mich darauf zu testen, wie 5.5 sich in der Praxis schlägt.
- Eine Flash-ähnliche Ära ist eigentlich schon seit einer ganzen Weile da, und der Engpass war immer Kreativität.
- Ich habe bei Three.js-basierten Spielen und Projekten viel LLM-Hilfe genutzt und gute Ergebnisse erzielt.
  Auch meine schräge Uhrenvisualisierung beruht zu einem großen Teil darauf.
  Es ist zwar keine Game Engine, aber für WebGL-3D im Web ist es faktisch Standard, und durch sein Alter gibt es auch enorme Trainingsdaten dazu.
  Vor den LLMs habe ich eher Babylon.js verwendet, weil es auf höherer Ebene mehr Funktionen bietet.
- Ein Bekannter baut Jamboree.
  Früher hieß es Spielwerk, und es ist eine App für iOS, mit der man Spiele erstellen und teilen kann.
  Alles ist webbasiert, also leicht teilbar.
  https://apps.apple.com/uz/app/jamboree-game-maker/id67473110...
- LLMs können noch immer kein räumliches Denken.
  GPT habe ich nicht ausprobiert, aber mit Claude konnte ich trotz aller Prompt-Optimierung keinen Rubik’s Cube lösen, und selbst Opus 4.6 kam nur auf etwa 70 % eines Puzzles, bevor es steckenblieb.
  Ein einziger Versuch kostet dabei 20 Dollar, was finanziell kaum tragbar ist.
  Wenn man 3D-Reasoning wirklich zuverlässig hinbekäme, könnte man denselben Ansatz vielleicht auch auf mathematische Probleme ausweiten, die heute noch unlösbar sind.
  Ich überlege, meinen Rubik’s Cube MCP-Server öffentlich zu machen und Leute herauszufordern, ob jemand den Würfel rein per Prompt lösen kann.
Interessanter als die Benchmarks war in dieser Ankündigung für mich, dass Codex mehrere Wochen realer Traffic-Muster analysiert, die GPU-Auslastung erhöht und maßgeschneiderte heuristische Algorithmen für Task-Aufteilung und Balancing geschrieben haben soll, um die Token-Generierung um mehr als 20 % zu beschleunigen.
Dass agentische LLMs auf diese Weise Optimierungen der Recheneffizienz erreichen, hat große Auswirkungen, wird aber offenbar seltener geprüft als Benchmarks.
Meiner Erfahrung nach ist Opus in diesem Bereich noch besser als GPT/Codex, aber OpenAI erzielt unter Druck bei Kosten und Kapazität hier spürbare Gewinne und wird diese Richtung wohl weiter verfolgen.
- Ich habe in Rust leistungsstarke Datenverarbeitung gemacht und bin auf eine Performance-Hürde gestoßen, bei der mehr als der Faktor 100 Verbesserung nötig war.
  Dabei musste ich an die früher berühmte Intel-FizzBuzz-Codegolf-Optimierung denken, also gab ich gemini pro meinen Code und bat um „eine ähnlich clevere Optimierung“, und der Vorschlag war wirklich großartig.
  LLMs überraschen mich weiterhin fast täglich.
- KernelBench testet bereits die Optimierung von CUDA-Kernels.
  Und da alle Unternehmen wissen, dass die Optimierung der eigenen Infrastruktur und Modelle ein zentraler Weg zum Wettbewerbsvorteil ist, nehme ich an, dass sie diesen Bereich sehr ernst nehmen.
- Das Problem bei solchen Aussagen ist, dass sie zu anekdotisch sind und sich schwer reproduzieren lassen.
  Es ist zwar gut, über klassische Benchmarks wie MMLU hinauszugehen, aber solche Zahlen ohne sauber kontrollierte Experimente sind nicht besonders hilfreich.
Wenn man Mythos vs. GPT-5.5 rein numerisch betrachtet, ist der Abstand bei SWE-bench Pro zwar noch groß, ansonsten sieht es aber ziemlich ähnlich aus.
SWE-bench Pro 77,8 % zu 58,6 %
Terminal-bench-2.0 82,0 % zu 82,7 %
GPQA Diamond 94,6 % zu 93,6 %
H. Last Exam 56,8 % zu 41,4 %
H. Last Exam (tools) 64,7 % zu 52,2 %
BrowseComp 86,9 % zu 84,4 %, auf Pro-Basis 90,1 %
OSWorld-Verified 79,6 % zu 78,7 %
Quelle für die Mythos-Werte ist https://www.anthropic.com/glasswing.
- Mythos ist nur dann relevant, wenn man es tatsächlich nutzen kann.
  Wenn ich Opus 4.7 derzeit verwende, fühlt sich seine Autonomie massiv zurückgestutzt an, und unter dem Etikett Sicherheit scheint es starke Einschränkungen zu geben.
  Daher bin ich mir nicht sicher, ob es in der Praxis wirklich so beeindruckend ist, wie Anthropic es darstellt.
- Laut der Release-Seite von Anthropic hat das Claude-Team eine SWE-bench-Memorisierung bestätigt, und der Test war tatsächlich in den Trainingsdaten enthalten.
  Hier steht es:
  https://www.anthropic.com/news/claude-opus-4-7#:~:text=memor...
- Ich habe mir SWE-bench Verified etwas genauer angesehen, und die Mythos-Zahlen werfen mehrere Fragen auf.
  Wenn man die offiziellen Einreichungen unter https://github.com/SWE-bench/experiments/tree/main/evaluatio... betrachtet, nur Modelle ab Sonnet 4 auswählt und über alle 500 Probleme summiert, lag die Lösungsquote aller Modelle zusammen exakt bei 93 %.
  Wenn Mythos aber 93,7 % erreicht hat, würde das bedeuten, dass es sogar Probleme löst, die kein anderes Modell geschafft hat. Als ich mir genau diese Fälle angesehen habe, wurde es noch verdächtiger.
  Die verbleibenden 7 % der Aufgaben wirkten nahezu unlösbar, ohne den Test-Patch vorab zu kennen, und die tatsächlichen Lösungen verliefen so anders als die Problembeschreibung, dass es sich beinahe anfühlte, als würde ein ganz anderes Problem gelöst.
  Ich will nicht behaupten, dass Mythos geschummelt hat, aber vielleicht erinnert es sich an zu viele Zustände des Repositories und rekonstruiert allein aus Diff-Erinnerungen die eigentliche Problemstellung rückwärts.
  Anders lässt sich schwer erklären, wie es solche mehrdeutigen Aufgabenbeschreibungen so präzise interpretieren kann.
- Ein einzelner Benchmark bedeutet gar nichts.
  Bei Benchmarks tauchen immer wieder Ausreißer auf.
Ich finde es schade, dass die Halluzinationsrate immer noch bei 86 % liegt.
Zum Vergleich: Opus liegt bei etwa 36 %.
Quelle: https://artificialanalysis.ai/models?omniscience=omniscience...
- Dass Grok bei 17 % liegt und das der niedrigste Wert sein soll, während die meisten Modelle über 80 % liegen, wirkt seltsam.
  Je nach Frage liegt Halluzination eher bei fast 100 %, deshalb wirkt dieser Benchmark intuitiv nicht besonders überzeugend.
- Da stimmt doch etwas nicht, Haiku kann unmöglich so gut abschneiden.
- Das liest sich so, als wollten die Anbieter genau dieses Verhalten fördern.
  Wer fragt, versteht das Problem vermutlich nicht vollständig und bevorzugt daher offenbar eine selbstsichere Antwort, egal wie das Ergebnis ausfällt.
  Das Ziel scheint eher darin zu bestehen, den Eindruck von Kompetenz zu verkaufen als die tatsächlichen Fähigkeiten der Technologie.
  LLMs können ein Produkt ruinieren, und wenn die Denkmaschine eines Milliardärs angeblich Mitarbeiter ersetzen soll und man deshalb 75 % des Arbeitsbudgets hineinsteckt, dann kann ich nur sagen: viel Spaß dabei, über den Tisch gezogen zu werden.
Dieses Modell soll bei langfristigen Aufgaben sehr stark sein, und in Codex gibt es jetzt auch heartbeats, mit denen man den Status laufend prüfen kann.
Wenn man ihm schwierige Probleme mit überprüfbaren Einschränkungen gibt, die mehrere Stunden dauern können, merke man erst, wie gut es ist.
Der Verfasser sagt, er arbeite bei OpenAI.
- Klingt nach einer guten Funktion, ich will das schnell testen.
  Ich bin in letzter Zeit von anderen Modellen, vor allem Opus, genervt, weil sie mitten in Aufgaben ständig stoppen.
- In Canvas internen Evaluierungen hat GPT-5.5 viele langfristige Frontier-Challenges gelöst, in mehreren Fällen sogar als erstes AI-Modell, das wir getestet haben.
  Glückwunsch zum Release.
- Es bräuchte eine Erklärung, was heartbeats genau sind.

GPT-5.5 vorgestellt

Modellüberblick und Umfang des Rollouts

Software Engineering und agentisches Coding

Beispiele für Coding-Nutzung und frühe Tests

Allgemeine Wissensarbeit und Computer-Nutzung

GPT-5.5 Thinking und GPT-5.5 Pro in ChatGPT

Wissenschaftliche Forschung und technische Research-Workflows

Forschungsbeispiele

Inferenz-Infrastruktur und Performance-Optimierung

Cybersicherheit und Schutzmaßnahmen

Verfügbare Pläne und Preise

Detaillierte Benchmarks

Coding

Fachliche Aufgaben

Computernutzung und Vision

Tool-Nutzung

Wissenschaft

Cybersicherheit

Langer Kontext

Abstraktes Schlussfolgern

Verwandte Beiträge

1 Kommentare

Hacker-News-Meinungen