5 Punkte von GN⁺ 4 일 전 | 2 Kommentare | Auf WhatsApp teilen
  • GPT-5.5 wurde in der Chat Completions API und der Responses API veröffentlicht; zusätzlich wurde für schwierige Probleme, bei denen mehr Rechenleistung vorteilhaft ist, GPT-5.5 pro zu Requests an die Responses API hinzugefügt
  • GPT-5.5 unterstützt ein Kontextfenster von 1 Million Token, Bildeingabe, strukturierte Ausgaben, Function Calling, Prompt Caching, Batch, Tool Search, integrierte Computernutzung, Hosted Shell, Apply Patch, Skills, MCP und Websuche
  • Der Standardwert für reasoning effort ist auf medium gesetzt; wenn image_detail nicht gesetzt ist oder auf auto steht, bleibt das bisherige Verhalten erhalten
  • Das Caching von GPT-5.5 funktioniert nur mit extended prompt caching; In-Memory Prompt Caching wird nicht unterstützt: behavioral changes
  • Änderungen vom 21. April
    • GPT Image 2 wurde als neuestes Modell zur Bildgenerierung und -bearbeitung veröffentlicht
    • GPT Image 2 umfasst flexible Bildgrößen, hochgradig originalgetreue Bildeingaben, tokenbasierte Abrechnung für Bilder und Unterstützung für die Batch API mit 50 % Rabatt

2 Kommentare

 
ragingwind 4 일 전

Ab 5.4 wird pro offenbar nicht mehr über die Chat Completions API angeboten.

 
GN⁺ 4 일 전
Hacker-News-Kommentare
  • Ich musste es wegen eines Produktionsproblems sofort ausprobieren, und GPT-5.5 hat etwas gemacht, das Claude so nicht getan hätte.
    Nach dem Troubleshooting sollte es ein update-Statement schreiben, und als ich sagte: „Gut, packen wir das in eine Transaction und fügen auch ein Rollback hinzu“, kam im alten Stil einfach nur
    BEGIN TRAN;
    -- put the query here
    commit;
    so zurück.
    Es ist schon eine Weile her, dass ich ein Modell noch einmal anschieben musste, damit es die aufgetragene Arbeit auch wirklich erledigt, deshalb war das ziemlich schockierend.
    Ich verstehe ja, dass es Tokens sparen will, aber wenn ich für ein State-of-the-Art-Modell bezahle und es dann so faul reagiert, nervt das.
    Ich habe es nur getestet, weil es im Modellauswähler von Cursor auftauchte.

    • Seit gpt-5.3-codex wirken die letzten zwei bis drei Generationen nicht so, als wären sie deutlich besser geworden, sondern eher so, als hätte man hier und da Dinge verändert und damit nur andere Trade-offs erzeugt.
    • Vielleicht habe ich es falsch verstanden, aber ich frage mich, was genau das Problem war.
      Falls das Problem nur war, dass in der Antwort -- put the query here stand und die Query nicht noch einmal wiederholt wurde, würde ich das nicht unbedingt als Problem sehen.
      Wenn das eigentliche Ziel war, eine ausführbare Query zu bekommen, und du gesagt hast „Lass uns das als Transaction machen“, dann ist es ziemlich vernünftig, einfach darauf hinzuweisen, dass man nur zuerst begin schreiben muss.
      Wenn die Query lang war, spart das auch Tokens, und es ist ähnlich wie bei einem permission denied, wo man nicht den ganzen Befehl noch einmal ausschreibt, sondern einfach sagt, man solle vorne sudo ergänzen.
      Wenn du dagegen erwartet hast, dass das Modell die Query tatsächlich ausführt, und es stattdessen im Stil von „Hier ist sie, führ sie selbst aus“ reagiert hat, dann ist das eindeutig faul und nachvollziehbar irritierend.
    • OpenAI scheint endlich das erste Unternehmen zu sein, das die Intelligenzstufe erreicht hat, auf der der Nutzer die Arbeit machen muss.
      Da zeigt sich Emergent Behavior also auf diese Weise.
      Spaß beiseite: Diese obsessive Optimierung auf Intelligenz pro Token, die OpenAI vorantreibt, erinnert mich an Apples übertriebenen Drang zu ultradünnen MacBooks vor dem M1.
      Es wirkt, als würde man eine einzige Kennzahl bis zum Ende verfolgen und dafür alles andere opfern.
      GPT-5.3+ gehört eindeutig zu den intelligentesten Modellen, aber es ist oft so faul, dass die Zusammenarbeit mühsam wird.
    • Ich kann schlecht einschätzen, ob das obige Beispiel gut oder schlecht ist.
    • GPT-5.5 zertrümmert zumindest beim Vertrauen in den Nutzer jede Benchmark.
  • Ich habe es gerade mit meinem Wordpress+GravityForms benchmark laufen lassen, und nach Leistungsmaßstäben lag es ebenfalls am unteren Ende des Leaderboards, während das Preis-Leistungs-Verhältnis das schlechteste war: https://github.com/guilamu/llms-wordpress-plugin-benchmark
    Mir ist klar, dass es nur eine einzige Benchmark ist, aber ich verstehe nicht, wie es so schlecht sein kann.

    • Das wirkt wie ein schlampiger Test, an dem ein Junior aus einem fachfremden Bereich in der Garage herumgebastelt und ihn dann Benchmark genannt hat.
      Heutzutage zerfällt die Bedeutung von Wörtern viel zu leicht, deshalb passiert so etwas ständig.
      Selbst Foren, in denen früher viele Leute mit echter technischer Arbeit unterwegs waren, werden inzwischen eher von einer Masse an Vibe Researchern gefüllt; sobald etwas die Popularitätsschwelle überschreitet, läuft es eben meist so.
      HN wirkt zwar noch wie eine der letzten Bastionen ernsthafter Untersuchung, aber allein der ursprüngliche Kommentar zeigt, dass auch dort keine völlige Immunität besteht.
    • In deiner Benchmark schneidet gemma4-e4b um 50 % besser ab als gemma4-26b; da scheint etwas nicht zu stimmen.
    • In deiner Benchmark schneidet Opus 4.7 deutlich schlechter ab als Sonnet 4.6; selbst wenn das für genau diese Benchmark stimmen sollte, repräsentiert das nicht die Gesamtleistung des Modells.
    • Du hast anscheinend sogar eine Zeitreise gemacht, um diese Benchmark mitzubringen.
      Diese Art von Benchmarking gefällt mir ziemlich gut.
      Ich wüsste gern, wie die Judge-Benchmark bewertet wurde, und würde gern selbst etwas Ähnliches aufbauen.
    • Das sieht eher nach einer Benchmark dafür aus, wie gut ein Modell Vibe Coding beherrscht.
      Die Prompts sind extrem dünn, aber die Bewertungskriterien enorm zahlreich.
  • Die Preise nach Kontextlänge sehen so aus:
    Input bis 272K: $5/M, darüber: $10/M
    Output bis 272K: $30/M, darüber: $45/M
    Cache-Reads bis 272K: $0.50/M, darüber: $1/M
    Oberhalb von 272K ist es definitiv teurer als Opus 4.7, und zumindest bei meiner Arbeit wirkte es nicht so, als wäre es entsprechend tokeneffizienter.
    Es war nicht genug, um diesen Preisunterschied auszugleichen.
    GPT-5.4 hatte 400k Kontext und verlässliche Compaction als Stärken, und beides scheint sich etwas zurückentwickelt zu haben.
    Ob die Compaction in der Praxis tatsächlich weniger zuverlässig geworden ist, lässt sich allerdings noch nicht sicher sagen.
    Auch die Frontend-Ausgabe neigt weiterhin zu dieser auffälligen blau getönten Vorlage mit vielen ausgelegten Karten.
    Das ist ein Stil, der mir schon seit Horizon Alpha/Beta vor dem GPT-5-Release verdächtig vorkam; damals war die Task Adherence aber so gut, dass man diesen einen großen Nachteil noch in Kauf nehmen konnte.
    Dass GPT-5.5 als völlig neue Foundation eingeführt wird und dieser Teil trotzdem noch so eingeschränkt ist, wirkt etwas seltsam.

  • Die Ergebnisse von GPT 5.5 in allgemeinen Coding-Reasoning-Benchmarks wurden auf https://gertlabs.com/ veröffentlicht.
    Live Decision und schwerere agentische Evals werden in den nächsten 24 Stunden weiter ergänzt, aber es sieht nicht mehr so aus, als würde sich die Reihenfolge im Leaderboard noch ändern.
    GPT 5.5 ist das intelligenteste öffentliche Modell und klar schneller als sein Vorgänger.

  • Gestern hieß es noch so:

    API deployments require different safeguards and we are working closely with partners and customers on the safety and security requirements for serving it at scale.
    Und heute heißt es schon wieder so.
    Ein Tag ist zwar durchaus „very soon“, aber ich frage mich schon, was genau mit diesen safeguards und security requirements gemeint war.

    • Wenn gesagt wird, etwas verzögere sich wegen safeguards, bedeutet das meistens einfach nur, dass gerade keine Rechenkapazität für den Vollbetrieb frei ist.
    • GPT-5.5 gab es bereits in der Codex-exklusiven API, und dort wurde ausdrücklich gesagt, dass es auch für andere Zwecke genutzt werden dürfe.
      https://simonwillison.net/2026/Apr/23/gpt-5-5/#the-openclaw-backdoor
      Deshalb könnte genau diese Tatsache die jetzige Veröffentlichung beschleunigt haben.
    • Wenn jemand so offen über Sicherheit gelogen hat und trotzdem noch das Unternehmen führt, sehe ich nicht, warum man erwarten sollte, dass es künftig anders läuft.
      Es gibt auch frühere Beispiele:

      In 2023, the company was preparing to release its GPT-4 Turbo model. As Sutskever details in the memos, Altman apparently told Murati that the model didn’t need safety approval, citing the company’s general counsel, Jason Kwon. But when she asked Kwon, over Slack, he replied, “ugh . . . confused where sam got that impression.”
      Altman war mehrfach nicht vollständig ehrlich darüber, wie wichtig Safety bei OpenAI ist.
      https://www.newyorker.com/magazine/2026/04/13/sam-altman-may-control-our-future-can-he-be-trusted (https://archive.is/a2vqW)

  • Vielleicht geht es nur mir so, aber bei jeder solchen OpenAI-Meldung habe ich das Gefühl, dass bezahlte Kommentarschreiber oder Bots laufen, die Claude herabsetzen und Codex als viel besser darstellen.
    Es sind einfach zu viele, und wenn man Claude täglich nutzt, sind etliche dieser Behauptungen schwer nachvollziehbar.

    • Ja, es wirkt auf seltsame Weise so.
      Das erinnert an die Stimmung, in der alle vergessen zu haben scheinen, dass OpenAI die Demokratie verraten hat, indem es sich bereit erklärt hat, mit autonomen Waffen ohne Aufsicht und großflächiger inländischer Überwachung zusammenzuarbeiten.
    • Mir kommt das auch ziemlich offensichtlich vor.
      Zumindest nach außen sichtbar wurde es direkt nach dem Opus-4.6-Hype.
    • Natürlich passiert so etwas.
      Firmen, die heute ihre eigenen Produkte pushen, machen im Grunde alle etwas Ähnliches.
  • Ich bin Enterprise-Nutzer, sehe aber immer noch nur 5.4.
    In der gestrigen Ankündigung hieß es, dass der Rollout für alle nur ein paar Stunden dauern werde; OpenAI müsste sein GTM besser hinbekommen, wenn es Erwartungen sauber steuern will.

    • Ich habe gerade aktualisiert, und jetzt ist 5.5 da.
      Schön, dass es schnell freigeschaltet wurde.
      Beim nächsten Mal sollte ich wohl noch schneller jammern.
  • Es ist das zweite Modell, das in meiner Benchmark 25/25 erreicht hat.
    Das erste war Opus 4.7, und die Ergebnisse stehen hier: https://sql-benchmark.nicklothian.com/?highlight=openai_gpt-5.5
    Günstiger als Opus, aber langsamer.

  • Auf der API-Seite ist als Knowledge Cutoff 2025-12-01 angegeben, aber wenn man das Modell direkt fragt, antwortet es mit Juni 2024.
    Knowledge cutoff: 2024-06
    Current date: 2026-04-24
    You are an AI assistant accessed via an API.

    • Ich verstehe nicht, warum das immer wieder aufkommt.
      Das Modell selbst nach dem Cutoff-Datum zu fragen, war schon immer die unzuverlässigste Methode, das festzustellen.
      Es könnte sogar solche Kommentare wie diesen gelernt haben.
      Frag einfach nach einem Ereignis, das kurz vor dem 2025-12-01 stattgefunden hat.
      Wenn möglich, eignen sich Sportereignisse besonders gut.
    • Ich bezweifle ohnehin, dass man dem glauben kann, was das Modell über sich selbst sagt.
      Auf den API-Seiten älterer Modelle stand oft ebenfalls Juni 2024 als Cutoff, also könnte es das einfach aufschnappen und wiederholen.
    • Wenn es nicht per System Prompt mitgeteilt wird, kennt das Modell sein eigenes Cutoff-Datum nicht.
      Die richtige Methode, den tatsächlichen Cutoff zu prüfen, besteht darin, nach Dingen zu fragen, die vor diesem Datum noch nicht existierten oder noch nicht passiert waren.
      Nach ein paar groben Tests wirkt es auf mich so, als liege der allgemeine Wissens-Cutoff von 5.5 weiterhin irgendwo Anfang 2025.
    • Könnte man das dann daran testen, wer die US-Präsidentschaftswahl 2024 gewonnen hat?
  • Die Kombination GPT 5.5 + Codex ist wirklich gut.
    Ob Fragen, Planung oder Code-Implementierung: Ich überlasse es inzwischen fast ohne Zweifel.
    Opus 4.7 prüfe ich dagegen ständig doppelt.
    Den Anweisungen in CLAUDE.md folgt es nicht zuverlässig, es halluziniert häufiger, und wenn es keine Antwort findet, neigt es standardmäßig eher zum Erfinden — das fällt stark ins Gewicht.
    Letztes Jahr ging es unglaublich schnell, als die Leute meinten, OpenAI habe den Anschluss verloren und es sei code red; im Rückblick sieht die Lage heute völlig anders aus.