3 Punkte von GN⁺ 2026-02-13 | 1 Kommentare | Auf WhatsApp teilen
  • Eine kleinere Version von GPT‑5.3‑Codex, die für Coding in Echtzeit entwickelt wurde und eine Geschwindigkeit von über 1000 Token/Sekunde bietet
  • Ein reines Textmodell auf Basis eines 128k-Kontextfensters, spezialisiert auf sofortige Code-Änderungen und iterative Arbeit
  • Durch die Einführung eines WebSocket-basierten Antwortpfads wurden die Antwortlatenzen um 80 % reduziert, der Overhead pro Token um 30 % gesenkt und die Zeit bis zum ersten Token um 50 % verkürzt
  • In Zusammenarbeit mit Cerebras entwickelt und ausgeführt in einer Hochgeschwindigkeits-Inferenzumgebung mit der Wafer Scale Engine 3
  • Das erste Modell der dualen Codex-Strategie, die langfristige autonome Arbeit mit Echtzeit-Zusammenarbeit kombiniert

Überblick über GPT‑5.3‑Codex‑Spark

  • GPT‑5.3‑Codex‑Spark ist eine kleinere Version von GPT‑5.3‑Codex und das erste Modell, das für Coding-Aufgaben in Echtzeit entwickelt wurde
    • Erreicht auf Hardware mit extrem niedriger Latenz eine Generierungsgeschwindigkeit von über 1000 Token/Sekunde
    • Bietet bei realen Coding-Aufgaben unmittelbare Reaktionsfähigkeit
  • Das erste Modell, das in Zusammenarbeit mit Cerebras entwickelt wurde, und der erste Meilenstein der Partnerschaft zwischen OpenAI und Cerebras
  • Wird ChatGPT-Pro-Nutzern als Research Preview bereitgestellt, mit dem Ziel früher Experimente und der Sammlung von Feedback

Zentrale Funktionen und Leistung

  • Unterstützt ein 128k-Kontextfenster und ist derzeit als reines Textmodell verfügbar
  • Zeigt in den Benchmarks SWE‑Bench Pro und Terminal‑Bench 2.0 im Vergleich zu GPT‑5.3‑Codex höhere Leistung in kürzerer Zeit
  • Durch geschwindigkeitsorientierte Optimierung ist die Standard-Arbeitsweise leichtgewichtig und zielorientiert; automatische Tests werden nicht ausgeführt, sofern sie nicht angefordert werden
  • Ermöglicht Zusammenarbeit in Echtzeit, sodass Nutzer den Fortschritt des Modells unterbrechen und neu anweisen und dabei sofort Ergebnisse sehen können

Latenz- und Infrastruktur-Optimierung

  • Neben der Modellgeschwindigkeit wurden auch Verbesserungen vorgenommen, um die Latenz der gesamten Request-Response-Pipeline zu verringern
    • 80 % weniger Roundtrip-Overhead zwischen Client und Server
    • 30 % weniger Overhead pro Token, 50 % kürzere Zeit bis zum ersten Token
  • Dafür wurden dauerhafte Verbindungen auf WebSocket-Basis und interne Optimierungen der Responses API eingesetzt
  • Diese Verbesserungen sollen nicht nur für Codex‑Spark, sondern für alle Modelle angewendet werden

Integration der Cerebras-Hardware

  • Codex‑Spark läuft auf der Cerebras Wafer Scale Engine 3 und bietet eine latenzorientierte Inferenzschicht
  • OpenAI hat diesen Pfad gemeinsam mit Cerebras in den bestehenden Production-Serving-Stack integriert und damit eine konsistente Laufzeitumgebung für Codex insgesamt geschaffen
  • Die GPU-Infrastruktur bleibt weiterhin die Grundlage für Training und Inferenz; Cerebras ist auf Workloads mit extrem niedriger Latenz spezialisiert und übernimmt damit eine komplementäre Rolle
  • Durch die Kombination von GPU und Cerebras in einem einzelnen Workload kann optimale Leistung erreicht werden

Bereitstellung und Zugang

  • Codex‑Spark wird als Research Preview für ChatGPT-Pro-Nutzer in der Codex-App, CLI und VS-Code-Erweiterung bereitgestellt
  • Es gilt ein dediziertes Nutzungslimit (Rate Limit), das je nach Nachfrage angepasst werden kann
  • Ausgewählte Design-Partner erhalten API-Zugang, um Feedback zur Art der Produktintegration zu sammeln
  • In den kommenden Wochen soll der Zugang schrittweise erweitert und die Integration auf Basis realer Workloads angepasst werden

Sicherheit und weiterer Ausblick

  • Codex‑Spark umfasst dieselben Sicherheitstrainings wie die bestehenden Mainline-Modelle und hat cyberbezogene Evaluierungen bestanden
  • Die Ergebnisse bestätigen, dass es nicht die Schwelle für Hochrisiko-Fähigkeiten in den Bereichen Cybersicherheit und Biologie erreicht
  • Codex entwickelt sich in Richtung einer Kombination aus zwei Modi: lang laufendes Reasoning und iterative Arbeit in kollaborativer Echtzeit
    • Künftig sind Funktionserweiterungen wie multimodale Eingaben, größere Modelle und längere Kontexte geplant
  • Ultraschnelle Inferenz beschleunigt den Prozess, Ideen sofort in ausführbare Software umzusetzen, und schafft eine natürliche Interaktionserfahrung

1 Kommentare

 
GN⁺ 2026-02-13
Hacker-News-Kommentare
  • Es wäre schön, wenn man auf HN Bilder hochladen könnte. Der WSE-3-Chip ist wirklich riesig
    Dieser Chip ist 46.255 mm² groß, enthält 4 Billionen Transistoren und liefert mit 900.000 AI-optimierten Kernen 125 Petaflops Rechenleistung. Das sind 19-mal mehr Transistoren und 28-mal mehr Rechenleistung als beim NVIDIA B200
    Details siehe auf der offiziellen Cerebras-Seite sowie Bild 1 und Bild 2

    • Es klingt, als würde die Wärmeentwicklung enorm sein, daher dürfte das Kühlsystem entscheidend sein. Hoffentlich wird der Strom aus erneuerbaren Energien bezogen
  • Ich nutze Coding Agents, um automatisch webbasierte Slide-Decks zu erzeugen. Ich definiere „Master Slides“ als Komponenten und wende Corporate-Branding-Regeln und Assets an. Wenn man dort nur Inhalte und Prompts einfügt, entsteht eine saubere Präsentation
    Was ich wirklich will, ist ein Improv-Modus. Während des Vortrags sollen je nach Fragen aus dem Publikum oder spontanen Ideen drei mögliche nächste Slides vorgeschlagen werden, aus denen ich auswähle und dann wieder in den eigentlichen Ablauf zurückkehre.
    Wenn ich zum Beispiel einen Nachrichtenartikel oder ein Paper erwähne, sollte automatisch eine Slide mit Screenshot und QR-Code erzeugt werden und danach wieder zum Präsentationsfluss zurückgesprungen werden. Wenn Echtzeit-Audio und Codegenerierung zusammenkommen, dürften Präsentationstools viel nützlicher werden

    • Ich finde solche stochastischen Präsentationen großartig. Das Ergebnis könnte verblüffend oder komisch sein
    • Wir bauen bei Octigen fast genau das. Ich kann einen Demo-Zugang oder Alpha-Zugang bereitstellen
    • Ich habe bei einem Hackathon etwas Ähnliches gebaut. Es war ein System, das die Geschwindigkeit des Teleprompters an Tonfall und Sprechtempo des Vortragenden angepasst hat. Wenn man das zu einem Improv-Modus erweitert, wäre das wirklich spannend
    • Als Professor, der viel zu viel Zeit in die Vorbereitung von Vorlesungen steckt, würde ich so ein System gern im Unterricht einsetzen
    • Ich frage mich, ob du ein konkretes Beispiel zeigen kannst
  • Ich habe gpt-5.3-codex-spark in Codex CLI ausprobiert, und es ist extrem schnell, fühlt sich aber wie ein kleineres Modell an.
    Ich habe die Leistung mit meinem selbstgebauten „bluey bench“-Test (ein Dateisystem-Benchmark) gemessen, und bei kleineren Modellen ist die Kontexteffizienz schlechter und es kommt häufiger zu Komprimierung (compaction).
    In Sachen Geschwindigkeit ist es trotzdem viel schneller als die vorherige Generation

    • Ich hoffe, dass bluey bench künftig der Standard-Benchmark für alle Modelle wird
    • Mich würde interessieren, ob es mit Opus 4.6 (mit deaktivierter Denkfunktion) verglichen wurde. Das Modell ist auch ziemlich schnell
    • Der Name ist dem bisherigen Codex so ähnlich, aber die Leistung ist viel niedriger, was ich seltsam finde
  • Ich finde, Cerebras ist immer noch ein unterschätztes Unternehmen. Ein Chip in Tellergröße funktioniert tatsächlich und ist in realen Anwendungen schneller als alles andere. Erstaunliche Technik

    • Ich glaube, die Zeit von Nvidia ist vorbei. Google will mit TPUv9 die Inferenz-Effizienz vervierfachen, und Cerebras ist bei Agent-Workloads deutlich schneller. Auch bei Energieeffizienz und Kosten liegt Google vorn.
      Die Strominfrastruktur ist der Engpass, und in den USA kann man große Kraftwerke nicht kurzfristig bauen. Am Ende dürfte Google nach TPUv8 den Markt anführen
    • Der Grund, warum der Chip tatsächlich „tellergroß“ ist, liegt darin, dass der gesamte Wafer als ein einzelner Chip verwendet wird. Wafer-Scale-Integration ist eine seit Jahrzehnten erforschte Technologie
    • Der Nachteil ist, dass der Preis viel zu hoch ist
    • Trotzdem stecken Investoren ihr Geld weiterhin in Nvidia
    • Aber dieser Chip kostet über 1 Million Dollar pro Stück, und pro Rack passt nur einer hinein. Dichte und Speicherkapazität reichen nicht aus. Nachdem Nvidia 20 Milliarden Dollar für die Übernahme von Groq ausgegeben hat, ist es zudem unwahrscheinlich, dass Cerebras übernommen wird
  • Mein Pelican-Benchmark zeigt den Qualitätsunterschied zwischen GPT-5.3-Codex-Spark und dem vollständigen GPT-5.3-Codex visuell
    Details siehe im Blogpost

    • Ich warte bei jedem neuen Modell auf genau solche Benchmarks. Sie sind nützlich, weil sie viele Faktoren gleichzeitig zeigen. Der Blog ist auch großartig
  • Die Idee von Priority Queue / Tiered-Workload-Offloading mit Coding Agents ist interessant.
    Wenn 60 % der Arbeit aus einfachen Edits oder Refactorings bestehen, sind niedrige Latenz und hoher Token-Durchsatz wichtig.
    Kürzlich erschien ein Batch-API-Plugin für Claude, und Nvidia sowie Google bereiten ebenfalls Custom Silicon für Inferenz vor (Artikel)

    • Allerdings hat die Batch API eine deutlich höhere Latenz. Für Massenjobs ist sie gut, aber ein einzelner Roundtrip kann bis zu 24 Stunden dauern. Außerdem werden Codex- oder Pro-Modelle von der Batch API nicht unterstützt
    • Ich habe ein MCP gebaut, mit dem Claude Entwicklung quasi an GLM 4.7 auf Cerebras auslagern kann. Claude kann dabei System-Prompt, Ausgabedateien und Kontextdateien festlegen, und die Entwicklungsgeschwindigkeit ist stark gestiegen
  • Es sind erst 20 Minuten vergangen, seit es zum Branchenstandard geworden ist, und trotzdem gibt es immer noch Leute, die GPT-5.3-Codex verwenden — erstaunlich

    • Ich habe beim Lesen des Titels auch gedacht: „Wenn GPT etwas angekündigt hat, dann haben Google oder Anthropic sicher auch etwas veröffentlicht“, und natürlich gab es Gemini
  • OpenAI testet das möglicherweise auf Openrouter unter dem Namen Aurora Alpha.
    Ich habe mit Aider ein kleines Projekt laufen lassen und dabei 10.000 Input-Token und 1.000 Output-Token mit 500 Token pro Sekunde verarbeitet

  • Ich habe die Formulierung gesehen: „Die neuesten Modelle können mehrere Stunden bis Tage lang autonom arbeiten“, aber bisher habe ich noch keine tatsächlich nützlichen Ergebnisse gesehen

    • Ich würde gern fragen, wie intensiv du das ausprobiert hast. Opus 4.6 oder GPT-5.3 sind bei Langzeitaufgaben definitiv besser geworden. Zum Beispiel wurden dieses Projekt und diese Demo-Seite mit nur einem einzigen Prompt fertiggestellt (Prompt-Link)
    • Ich lasse Codex oft über Nacht laufen, damit es Bugs findet. Für automatisiertes Debugging ist es wirklich ideal
    • Beeindruckend ist die Fähigkeit des Modells, immer weiter Tokens zu verbrennen, ohne anzuhalten
    • Die Formulierung „Unser Modell ist so langsam, dass Aufgaben mehrere Stunden dauern“ ist lustig. Das klingt nicht gerade nach etwas, womit man prahlen sollte
    • Vor ein paar Tagen hat Codex das Vite-8-Upgrade meiner Firmenwebsite mehr als drei Stunden lang allein bearbeitet. Inzwischen ist es tatsächlich in Produktion übernommen worden
  • Endlich sieht man, dass einer der drei großen Anbieter Cerebras nutzt. Auf diesen Tag habe ich lange gewartet

    • Anfangs war ich wegen der unbewiesenen Technologie zurückhaltend, aber jetzt scheint es beim Tempo einen großen Sprung gemacht zu haben