Einführung von GPT‑5.3‑Codex‑Spark

(openai.com)

3 Punkte von GN⁺ 2026-02-13 | 1 Kommentare | Auf WhatsApp teilen

Eine kleinere Version von GPT‑5.3‑Codex, die für Coding in Echtzeit entwickelt wurde und eine Geschwindigkeit von über 1000 Token/Sekunde bietet
Ein reines Textmodell auf Basis eines 128k-Kontextfensters, spezialisiert auf sofortige Code-Änderungen und iterative Arbeit
Durch die Einführung eines WebSocket-basierten Antwortpfads wurden die Antwortlatenzen um 80 % reduziert, der Overhead pro Token um 30 % gesenkt und die Zeit bis zum ersten Token um 50 % verkürzt
In Zusammenarbeit mit Cerebras entwickelt und ausgeführt in einer Hochgeschwindigkeits-Inferenzumgebung mit der Wafer Scale Engine 3
Das erste Modell der dualen Codex-Strategie, die langfristige autonome Arbeit mit Echtzeit-Zusammenarbeit kombiniert

Überblick über GPT‑5.3‑Codex‑Spark

GPT‑5.3‑Codex‑Spark ist eine kleinere Version von GPT‑5.3‑Codex und das erste Modell, das für Coding-Aufgaben in Echtzeit entwickelt wurde
- Erreicht auf Hardware mit extrem niedriger Latenz eine Generierungsgeschwindigkeit von über 1000 Token/Sekunde
- Bietet bei realen Coding-Aufgaben unmittelbare Reaktionsfähigkeit
Das erste Modell, das in Zusammenarbeit mit Cerebras entwickelt wurde, und der erste Meilenstein der Partnerschaft zwischen OpenAI und Cerebras
Wird ChatGPT-Pro-Nutzern als Research Preview bereitgestellt, mit dem Ziel früher Experimente und der Sammlung von Feedback

Zentrale Funktionen und Leistung

Unterstützt ein 128k-Kontextfenster und ist derzeit als reines Textmodell verfügbar
Zeigt in den Benchmarks SWE‑Bench Pro und Terminal‑Bench 2.0 im Vergleich zu GPT‑5.3‑Codex höhere Leistung in kürzerer Zeit
Durch geschwindigkeitsorientierte Optimierung ist die Standard-Arbeitsweise leichtgewichtig und zielorientiert; automatische Tests werden nicht ausgeführt, sofern sie nicht angefordert werden
Ermöglicht Zusammenarbeit in Echtzeit, sodass Nutzer den Fortschritt des Modells unterbrechen und neu anweisen und dabei sofort Ergebnisse sehen können

Latenz- und Infrastruktur-Optimierung

Neben der Modellgeschwindigkeit wurden auch Verbesserungen vorgenommen, um die Latenz der gesamten Request-Response-Pipeline zu verringern
- 80 % weniger Roundtrip-Overhead zwischen Client und Server
- 30 % weniger Overhead pro Token, 50 % kürzere Zeit bis zum ersten Token
Dafür wurden dauerhafte Verbindungen auf WebSocket-Basis und interne Optimierungen der Responses API eingesetzt
Diese Verbesserungen sollen nicht nur für Codex‑Spark, sondern für alle Modelle angewendet werden

Integration der Cerebras-Hardware

Codex‑Spark läuft auf der Cerebras Wafer Scale Engine 3 und bietet eine latenzorientierte Inferenzschicht
OpenAI hat diesen Pfad gemeinsam mit Cerebras in den bestehenden Production-Serving-Stack integriert und damit eine konsistente Laufzeitumgebung für Codex insgesamt geschaffen
Die GPU-Infrastruktur bleibt weiterhin die Grundlage für Training und Inferenz; Cerebras ist auf Workloads mit extrem niedriger Latenz spezialisiert und übernimmt damit eine komplementäre Rolle
Durch die Kombination von GPU und Cerebras in einem einzelnen Workload kann optimale Leistung erreicht werden

Bereitstellung und Zugang

Codex‑Spark wird als Research Preview für ChatGPT-Pro-Nutzer in der Codex-App, CLI und VS-Code-Erweiterung bereitgestellt
Es gilt ein dediziertes Nutzungslimit (Rate Limit), das je nach Nachfrage angepasst werden kann
Ausgewählte Design-Partner erhalten API-Zugang, um Feedback zur Art der Produktintegration zu sammeln
In den kommenden Wochen soll der Zugang schrittweise erweitert und die Integration auf Basis realer Workloads angepasst werden

Sicherheit und weiterer Ausblick

Codex‑Spark umfasst dieselben Sicherheitstrainings wie die bestehenden Mainline-Modelle und hat cyberbezogene Evaluierungen bestanden
Die Ergebnisse bestätigen, dass es nicht die Schwelle für Hochrisiko-Fähigkeiten in den Bereichen Cybersicherheit und Biologie erreicht
Codex entwickelt sich in Richtung einer Kombination aus zwei Modi: lang laufendes Reasoning und iterative Arbeit in kollaborativer Echtzeit
- Künftig sind Funktionserweiterungen wie multimodale Eingaben, größere Modelle und längere Kontexte geplant
Ultraschnelle Inferenz beschleunigt den Prozess, Ideen sofort in ausführbare Software umzusetzen, und schafft eine natürliche Interaktionserfahrung

1 Kommentare

GN⁺ 2026-02-13

Hacker-News-Kommentare

Es wäre schön, wenn man auf HN Bilder hochladen könnte. Der WSE-3-Chip ist wirklich riesig
Dieser Chip ist 46.255 mm² groß, enthält 4 Billionen Transistoren und liefert mit 900.000 AI-optimierten Kernen 125 Petaflops Rechenleistung. Das sind 19-mal mehr Transistoren und 28-mal mehr Rechenleistung als beim NVIDIA B200
Details siehe auf der offiziellen Cerebras-Seite sowie Bild 1 und Bild 2
- Es klingt, als würde die Wärmeentwicklung enorm sein, daher dürfte das Kühlsystem entscheidend sein. Hoffentlich wird der Strom aus erneuerbaren Energien bezogen
Ich nutze Coding Agents, um automatisch webbasierte Slide-Decks zu erzeugen. Ich definiere „Master Slides“ als Komponenten und wende Corporate-Branding-Regeln und Assets an. Wenn man dort nur Inhalte und Prompts einfügt, entsteht eine saubere Präsentation
Was ich wirklich will, ist ein Improv-Modus. Während des Vortrags sollen je nach Fragen aus dem Publikum oder spontanen Ideen drei mögliche nächste Slides vorgeschlagen werden, aus denen ich auswähle und dann wieder in den eigentlichen Ablauf zurückkehre.
Wenn ich zum Beispiel einen Nachrichtenartikel oder ein Paper erwähne, sollte automatisch eine Slide mit Screenshot und QR-Code erzeugt werden und danach wieder zum Präsentationsfluss zurückgesprungen werden. Wenn Echtzeit-Audio und Codegenerierung zusammenkommen, dürften Präsentationstools viel nützlicher werden
- Ich finde solche stochastischen Präsentationen großartig. Das Ergebnis könnte verblüffend oder komisch sein
- Wir bauen bei Octigen fast genau das. Ich kann einen Demo-Zugang oder Alpha-Zugang bereitstellen
- Ich habe bei einem Hackathon etwas Ähnliches gebaut. Es war ein System, das die Geschwindigkeit des Teleprompters an Tonfall und Sprechtempo des Vortragenden angepasst hat. Wenn man das zu einem Improv-Modus erweitert, wäre das wirklich spannend
- Als Professor, der viel zu viel Zeit in die Vorbereitung von Vorlesungen steckt, würde ich so ein System gern im Unterricht einsetzen
- Ich frage mich, ob du ein konkretes Beispiel zeigen kannst
Ich habe gpt-5.3-codex-spark in Codex CLI ausprobiert, und es ist extrem schnell, fühlt sich aber wie ein kleineres Modell an.
Ich habe die Leistung mit meinem selbstgebauten „bluey bench“-Test (ein Dateisystem-Benchmark) gemessen, und bei kleineren Modellen ist die Kontexteffizienz schlechter und es kommt häufiger zu Komprimierung (compaction).
In Sachen Geschwindigkeit ist es trotzdem viel schneller als die vorherige Generation
- Ich hoffe, dass bluey bench künftig der Standard-Benchmark für alle Modelle wird
- Mich würde interessieren, ob es mit Opus 4.6 (mit deaktivierter Denkfunktion) verglichen wurde. Das Modell ist auch ziemlich schnell
- Der Name ist dem bisherigen Codex so ähnlich, aber die Leistung ist viel niedriger, was ich seltsam finde
Ich finde, Cerebras ist immer noch ein unterschätztes Unternehmen. Ein Chip in Tellergröße funktioniert tatsächlich und ist in realen Anwendungen schneller als alles andere. Erstaunliche Technik
- Ich glaube, die Zeit von Nvidia ist vorbei. Google will mit TPUv9 die Inferenz-Effizienz vervierfachen, und Cerebras ist bei Agent-Workloads deutlich schneller. Auch bei Energieeffizienz und Kosten liegt Google vorn.
  Die Strominfrastruktur ist der Engpass, und in den USA kann man große Kraftwerke nicht kurzfristig bauen. Am Ende dürfte Google nach TPUv8 den Markt anführen
- Der Grund, warum der Chip tatsächlich „tellergroß“ ist, liegt darin, dass der gesamte Wafer als ein einzelner Chip verwendet wird. Wafer-Scale-Integration ist eine seit Jahrzehnten erforschte Technologie
- Der Nachteil ist, dass der Preis viel zu hoch ist
- Trotzdem stecken Investoren ihr Geld weiterhin in Nvidia
- Aber dieser Chip kostet über 1 Million Dollar pro Stück, und pro Rack passt nur einer hinein. Dichte und Speicherkapazität reichen nicht aus. Nachdem Nvidia 20 Milliarden Dollar für die Übernahme von Groq ausgegeben hat, ist es zudem unwahrscheinlich, dass Cerebras übernommen wird
Mein Pelican-Benchmark zeigt den Qualitätsunterschied zwischen GPT-5.3-Codex-Spark und dem vollständigen GPT-5.3-Codex visuell
Details siehe im Blogpost
- Ich warte bei jedem neuen Modell auf genau solche Benchmarks. Sie sind nützlich, weil sie viele Faktoren gleichzeitig zeigen. Der Blog ist auch großartig
Die Idee von Priority Queue / Tiered-Workload-Offloading mit Coding Agents ist interessant.
Wenn 60 % der Arbeit aus einfachen Edits oder Refactorings bestehen, sind niedrige Latenz und hoher Token-Durchsatz wichtig.
Kürzlich erschien ein Batch-API-Plugin für Claude, und Nvidia sowie Google bereiten ebenfalls Custom Silicon für Inferenz vor (Artikel)
- Allerdings hat die Batch API eine deutlich höhere Latenz. Für Massenjobs ist sie gut, aber ein einzelner Roundtrip kann bis zu 24 Stunden dauern. Außerdem werden Codex- oder Pro-Modelle von der Batch API nicht unterstützt
- Ich habe ein MCP gebaut, mit dem Claude Entwicklung quasi an GLM 4.7 auf Cerebras auslagern kann. Claude kann dabei System-Prompt, Ausgabedateien und Kontextdateien festlegen, und die Entwicklungsgeschwindigkeit ist stark gestiegen
Es sind erst 20 Minuten vergangen, seit es zum Branchenstandard geworden ist, und trotzdem gibt es immer noch Leute, die GPT-5.3-Codex verwenden — erstaunlich
- Ich habe beim Lesen des Titels auch gedacht: „Wenn GPT etwas angekündigt hat, dann haben Google oder Anthropic sicher auch etwas veröffentlicht“, und natürlich gab es Gemini
OpenAI testet das möglicherweise auf Openrouter unter dem Namen Aurora Alpha.
Ich habe mit Aider ein kleines Projekt laufen lassen und dabei 10.000 Input-Token und 1.000 Output-Token mit 500 Token pro Sekunde verarbeitet
Ich habe die Formulierung gesehen: „Die neuesten Modelle können mehrere Stunden bis Tage lang autonom arbeiten“, aber bisher habe ich noch keine tatsächlich nützlichen Ergebnisse gesehen
- Ich würde gern fragen, wie intensiv du das ausprobiert hast. Opus 4.6 oder GPT-5.3 sind bei Langzeitaufgaben definitiv besser geworden. Zum Beispiel wurden dieses Projekt und diese Demo-Seite mit nur einem einzigen Prompt fertiggestellt (Prompt-Link)
- Ich lasse Codex oft über Nacht laufen, damit es Bugs findet. Für automatisiertes Debugging ist es wirklich ideal
- Beeindruckend ist die Fähigkeit des Modells, immer weiter Tokens zu verbrennen, ohne anzuhalten
- Die Formulierung „Unser Modell ist so langsam, dass Aufgaben mehrere Stunden dauern“ ist lustig. Das klingt nicht gerade nach etwas, womit man prahlen sollte
- Vor ein paar Tagen hat Codex das Vite-8-Upgrade meiner Firmenwebsite mehr als drei Stunden lang allein bearbeitet. Inzwischen ist es tatsächlich in Produktion übernommen worden
Endlich sieht man, dass einer der drei großen Anbieter Cerebras nutzt. Auf diesen Tag habe ich lange gewartet
- Anfangs war ich wegen der unbewiesenen Technologie zurückhaltend, aber jetzt scheint es beim Tempo einen großen Sprung gemacht zu haben

Einführung von GPT‑5.3‑Codex‑Spark

Überblick über GPT‑5.3‑Codex‑Spark

Zentrale Funktionen und Leistung

Latenz- und Infrastruktur-Optimierung

Integration der Cerebras-Hardware

Bereitstellung und Zugang

Sicherheit und weiterer Ausblick

Verwandte Beiträge

1 Kommentare

Hacker-News-Kommentare