OpenAI veröffentlicht GPT-5.5 und GPT-5.5 Pro in der API
(developers.openai.com)- GPT-5.5 wurde in der Chat Completions API und der Responses API veröffentlicht; zusätzlich wurde für schwierige Probleme, bei denen mehr Rechenleistung vorteilhaft ist, GPT-5.5 pro zu Requests an die Responses API hinzugefügt
- GPT-5.5 unterstützt ein Kontextfenster von 1 Million Token, Bildeingabe, strukturierte Ausgaben, Function Calling, Prompt Caching, Batch, Tool Search, integrierte Computernutzung, Hosted Shell, Apply Patch, Skills, MCP und Websuche
- Der Standardwert für reasoning effort ist auf
mediumgesetzt; wennimage_detailnicht gesetzt ist oder aufautosteht, bleibt das bisherige Verhalten erhalten - Das Caching von GPT-5.5 funktioniert nur mit extended prompt caching; In-Memory Prompt Caching wird nicht unterstützt: behavioral changes
- Änderungen vom 21. April
- GPT Image 2 wurde als neuestes Modell zur Bildgenerierung und -bearbeitung veröffentlicht
- GPT Image 2 umfasst flexible Bildgrößen, hochgradig originalgetreue Bildeingaben, tokenbasierte Abrechnung für Bilder und Unterstützung für die Batch API mit 50 % Rabatt
2 Kommentare
Ab 5.4 wird
prooffenbar nicht mehr über die Chat Completions API angeboten.Hacker-News-Kommentare
Ich musste es wegen eines Produktionsproblems sofort ausprobieren, und GPT-5.5 hat etwas gemacht, das Claude so nicht getan hätte.
Nach dem Troubleshooting sollte es ein
update-Statement schreiben, und als ich sagte: „Gut, packen wir das in eine Transaction und fügen auch ein Rollback hinzu“, kam im alten Stil einfach nurBEGIN TRAN;-- put the query herecommit;so zurück.
Es ist schon eine Weile her, dass ich ein Modell noch einmal anschieben musste, damit es die aufgetragene Arbeit auch wirklich erledigt, deshalb war das ziemlich schockierend.
Ich verstehe ja, dass es Tokens sparen will, aber wenn ich für ein State-of-the-Art-Modell bezahle und es dann so faul reagiert, nervt das.
Ich habe es nur getestet, weil es im Modellauswähler von Cursor auftauchte.
Falls das Problem nur war, dass in der Antwort
-- put the query herestand und die Query nicht noch einmal wiederholt wurde, würde ich das nicht unbedingt als Problem sehen.Wenn das eigentliche Ziel war, eine ausführbare Query zu bekommen, und du gesagt hast „Lass uns das als Transaction machen“, dann ist es ziemlich vernünftig, einfach darauf hinzuweisen, dass man nur zuerst
beginschreiben muss.Wenn die Query lang war, spart das auch Tokens, und es ist ähnlich wie bei einem
permission denied, wo man nicht den ganzen Befehl noch einmal ausschreibt, sondern einfach sagt, man solle vornesudoergänzen.Wenn du dagegen erwartet hast, dass das Modell die Query tatsächlich ausführt, und es stattdessen im Stil von „Hier ist sie, führ sie selbst aus“ reagiert hat, dann ist das eindeutig faul und nachvollziehbar irritierend.
Da zeigt sich Emergent Behavior also auf diese Weise.
Spaß beiseite: Diese obsessive Optimierung auf Intelligenz pro Token, die OpenAI vorantreibt, erinnert mich an Apples übertriebenen Drang zu ultradünnen MacBooks vor dem M1.
Es wirkt, als würde man eine einzige Kennzahl bis zum Ende verfolgen und dafür alles andere opfern.
GPT-5.3+ gehört eindeutig zu den intelligentesten Modellen, aber es ist oft so faul, dass die Zusammenarbeit mühsam wird.
Ich habe es gerade mit meinem Wordpress+GravityForms benchmark laufen lassen, und nach Leistungsmaßstäben lag es ebenfalls am unteren Ende des Leaderboards, während das Preis-Leistungs-Verhältnis das schlechteste war: https://github.com/guilamu/llms-wordpress-plugin-benchmark
Mir ist klar, dass es nur eine einzige Benchmark ist, aber ich verstehe nicht, wie es so schlecht sein kann.
Heutzutage zerfällt die Bedeutung von Wörtern viel zu leicht, deshalb passiert so etwas ständig.
Selbst Foren, in denen früher viele Leute mit echter technischer Arbeit unterwegs waren, werden inzwischen eher von einer Masse an Vibe Researchern gefüllt; sobald etwas die Popularitätsschwelle überschreitet, läuft es eben meist so.
HN wirkt zwar noch wie eine der letzten Bastionen ernsthafter Untersuchung, aber allein der ursprüngliche Kommentar zeigt, dass auch dort keine völlige Immunität besteht.
Diese Art von Benchmarking gefällt mir ziemlich gut.
Ich wüsste gern, wie die Judge-Benchmark bewertet wurde, und würde gern selbst etwas Ähnliches aufbauen.
Die Prompts sind extrem dünn, aber die Bewertungskriterien enorm zahlreich.
Die Preise nach Kontextlänge sehen so aus:
Input bis 272K: $5/M, darüber: $10/M
Output bis 272K: $30/M, darüber: $45/M
Cache-Reads bis 272K: $0.50/M, darüber: $1/M
Oberhalb von 272K ist es definitiv teurer als Opus 4.7, und zumindest bei meiner Arbeit wirkte es nicht so, als wäre es entsprechend tokeneffizienter.
Es war nicht genug, um diesen Preisunterschied auszugleichen.
GPT-5.4 hatte 400k Kontext und verlässliche Compaction als Stärken, und beides scheint sich etwas zurückentwickelt zu haben.
Ob die Compaction in der Praxis tatsächlich weniger zuverlässig geworden ist, lässt sich allerdings noch nicht sicher sagen.
Auch die Frontend-Ausgabe neigt weiterhin zu dieser auffälligen blau getönten Vorlage mit vielen ausgelegten Karten.
Das ist ein Stil, der mir schon seit Horizon Alpha/Beta vor dem GPT-5-Release verdächtig vorkam; damals war die Task Adherence aber so gut, dass man diesen einen großen Nachteil noch in Kauf nehmen konnte.
Dass GPT-5.5 als völlig neue Foundation eingeführt wird und dieser Teil trotzdem noch so eingeschränkt ist, wirkt etwas seltsam.
Die Ergebnisse von GPT 5.5 in allgemeinen Coding-Reasoning-Benchmarks wurden auf https://gertlabs.com/ veröffentlicht.
Live Decision und schwerere agentische Evals werden in den nächsten 24 Stunden weiter ergänzt, aber es sieht nicht mehr so aus, als würde sich die Reihenfolge im Leaderboard noch ändern.
GPT 5.5 ist das intelligenteste öffentliche Modell und klar schneller als sein Vorgänger.
Gestern hieß es noch so:
https://simonwillison.net/2026/Apr/23/gpt-5-5/#the-openclaw-backdoor
Deshalb könnte genau diese Tatsache die jetzige Veröffentlichung beschleunigt haben.
Es gibt auch frühere Beispiele:
Vielleicht geht es nur mir so, aber bei jeder solchen OpenAI-Meldung habe ich das Gefühl, dass bezahlte Kommentarschreiber oder Bots laufen, die Claude herabsetzen und Codex als viel besser darstellen.
Es sind einfach zu viele, und wenn man Claude täglich nutzt, sind etliche dieser Behauptungen schwer nachvollziehbar.
Das erinnert an die Stimmung, in der alle vergessen zu haben scheinen, dass OpenAI die Demokratie verraten hat, indem es sich bereit erklärt hat, mit autonomen Waffen ohne Aufsicht und großflächiger inländischer Überwachung zusammenzuarbeiten.
Zumindest nach außen sichtbar wurde es direkt nach dem Opus-4.6-Hype.
Firmen, die heute ihre eigenen Produkte pushen, machen im Grunde alle etwas Ähnliches.
Ich bin Enterprise-Nutzer, sehe aber immer noch nur 5.4.
In der gestrigen Ankündigung hieß es, dass der Rollout für alle nur ein paar Stunden dauern werde; OpenAI müsste sein GTM besser hinbekommen, wenn es Erwartungen sauber steuern will.
Schön, dass es schnell freigeschaltet wurde.
Beim nächsten Mal sollte ich wohl noch schneller jammern.
Es ist das zweite Modell, das in meiner Benchmark 25/25 erreicht hat.
Das erste war Opus 4.7, und die Ergebnisse stehen hier: https://sql-benchmark.nicklothian.com/?highlight=openai_gpt-5.5
Günstiger als Opus, aber langsamer.
Auf der API-Seite ist als Knowledge Cutoff 2025-12-01 angegeben, aber wenn man das Modell direkt fragt, antwortet es mit Juni 2024.
Knowledge cutoff: 2024-06Current date: 2026-04-24You are an AI assistant accessed via an API.Das Modell selbst nach dem Cutoff-Datum zu fragen, war schon immer die unzuverlässigste Methode, das festzustellen.
Es könnte sogar solche Kommentare wie diesen gelernt haben.
Frag einfach nach einem Ereignis, das kurz vor dem 2025-12-01 stattgefunden hat.
Wenn möglich, eignen sich Sportereignisse besonders gut.
Auf den API-Seiten älterer Modelle stand oft ebenfalls Juni 2024 als Cutoff, also könnte es das einfach aufschnappen und wiederholen.
Die richtige Methode, den tatsächlichen Cutoff zu prüfen, besteht darin, nach Dingen zu fragen, die vor diesem Datum noch nicht existierten oder noch nicht passiert waren.
Nach ein paar groben Tests wirkt es auf mich so, als liege der allgemeine Wissens-Cutoff von 5.5 weiterhin irgendwo Anfang 2025.
Die Kombination GPT 5.5 + Codex ist wirklich gut.
Ob Fragen, Planung oder Code-Implementierung: Ich überlasse es inzwischen fast ohne Zweifel.
Opus 4.7 prüfe ich dagegen ständig doppelt.
Den Anweisungen in
CLAUDE.mdfolgt es nicht zuverlässig, es halluziniert häufiger, und wenn es keine Antwort findet, neigt es standardmäßig eher zum Erfinden — das fällt stark ins Gewicht.Letztes Jahr ging es unglaublich schnell, als die Leute meinten, OpenAI habe den Anschluss verloren und es sei code red; im Rückblick sieht die Lage heute völlig anders aus.