- Eine kleinere Version von GPT‑5.3‑Codex, die für Coding in Echtzeit entwickelt wurde und eine Geschwindigkeit von über 1000 Token/Sekunde bietet
- Ein reines Textmodell auf Basis eines 128k-Kontextfensters, spezialisiert auf sofortige Code-Änderungen und iterative Arbeit
- Durch die Einführung eines WebSocket-basierten Antwortpfads wurden die Antwortlatenzen um 80 % reduziert, der Overhead pro Token um 30 % gesenkt und die Zeit bis zum ersten Token um 50 % verkürzt
- In Zusammenarbeit mit Cerebras entwickelt und ausgeführt in einer Hochgeschwindigkeits-Inferenzumgebung mit der Wafer Scale Engine 3
- Das erste Modell der dualen Codex-Strategie, die langfristige autonome Arbeit mit Echtzeit-Zusammenarbeit kombiniert
Überblick über GPT‑5.3‑Codex‑Spark
- GPT‑5.3‑Codex‑Spark ist eine kleinere Version von GPT‑5.3‑Codex und das erste Modell, das für Coding-Aufgaben in Echtzeit entwickelt wurde
- Erreicht auf Hardware mit extrem niedriger Latenz eine Generierungsgeschwindigkeit von über 1000 Token/Sekunde
- Bietet bei realen Coding-Aufgaben unmittelbare Reaktionsfähigkeit
- Das erste Modell, das in Zusammenarbeit mit Cerebras entwickelt wurde, und der erste Meilenstein der Partnerschaft zwischen OpenAI und Cerebras
- Wird ChatGPT-Pro-Nutzern als Research Preview bereitgestellt, mit dem Ziel früher Experimente und der Sammlung von Feedback
Zentrale Funktionen und Leistung
- Unterstützt ein 128k-Kontextfenster und ist derzeit als reines Textmodell verfügbar
- Zeigt in den Benchmarks SWE‑Bench Pro und Terminal‑Bench 2.0 im Vergleich zu GPT‑5.3‑Codex höhere Leistung in kürzerer Zeit
- Durch geschwindigkeitsorientierte Optimierung ist die Standard-Arbeitsweise leichtgewichtig und zielorientiert; automatische Tests werden nicht ausgeführt, sofern sie nicht angefordert werden
- Ermöglicht Zusammenarbeit in Echtzeit, sodass Nutzer den Fortschritt des Modells unterbrechen und neu anweisen und dabei sofort Ergebnisse sehen können
Latenz- und Infrastruktur-Optimierung
- Neben der Modellgeschwindigkeit wurden auch Verbesserungen vorgenommen, um die Latenz der gesamten Request-Response-Pipeline zu verringern
- 80 % weniger Roundtrip-Overhead zwischen Client und Server
- 30 % weniger Overhead pro Token, 50 % kürzere Zeit bis zum ersten Token
- Dafür wurden dauerhafte Verbindungen auf WebSocket-Basis und interne Optimierungen der Responses API eingesetzt
- Diese Verbesserungen sollen nicht nur für Codex‑Spark, sondern für alle Modelle angewendet werden
Integration der Cerebras-Hardware
- Codex‑Spark läuft auf der Cerebras Wafer Scale Engine 3 und bietet eine latenzorientierte Inferenzschicht
- OpenAI hat diesen Pfad gemeinsam mit Cerebras in den bestehenden Production-Serving-Stack integriert und damit eine konsistente Laufzeitumgebung für Codex insgesamt geschaffen
- Die GPU-Infrastruktur bleibt weiterhin die Grundlage für Training und Inferenz; Cerebras ist auf Workloads mit extrem niedriger Latenz spezialisiert und übernimmt damit eine komplementäre Rolle
- Durch die Kombination von GPU und Cerebras in einem einzelnen Workload kann optimale Leistung erreicht werden
Bereitstellung und Zugang
- Codex‑Spark wird als Research Preview für ChatGPT-Pro-Nutzer in der Codex-App, CLI und VS-Code-Erweiterung bereitgestellt
- Es gilt ein dediziertes Nutzungslimit (Rate Limit), das je nach Nachfrage angepasst werden kann
- Ausgewählte Design-Partner erhalten API-Zugang, um Feedback zur Art der Produktintegration zu sammeln
- In den kommenden Wochen soll der Zugang schrittweise erweitert und die Integration auf Basis realer Workloads angepasst werden
Sicherheit und weiterer Ausblick
- Codex‑Spark umfasst dieselben Sicherheitstrainings wie die bestehenden Mainline-Modelle und hat cyberbezogene Evaluierungen bestanden
- Die Ergebnisse bestätigen, dass es nicht die Schwelle für Hochrisiko-Fähigkeiten in den Bereichen Cybersicherheit und Biologie erreicht
- Codex entwickelt sich in Richtung einer Kombination aus zwei Modi: lang laufendes Reasoning und iterative Arbeit in kollaborativer Echtzeit
- Künftig sind Funktionserweiterungen wie multimodale Eingaben, größere Modelle und längere Kontexte geplant
- Ultraschnelle Inferenz beschleunigt den Prozess, Ideen sofort in ausführbare Software umzusetzen, und schafft eine natürliche Interaktionserfahrung
1 Kommentare
Hacker-News-Kommentare
Es wäre schön, wenn man auf HN Bilder hochladen könnte. Der WSE-3-Chip ist wirklich riesig
Dieser Chip ist 46.255 mm² groß, enthält 4 Billionen Transistoren und liefert mit 900.000 AI-optimierten Kernen 125 Petaflops Rechenleistung. Das sind 19-mal mehr Transistoren und 28-mal mehr Rechenleistung als beim NVIDIA B200
Details siehe auf der offiziellen Cerebras-Seite sowie Bild 1 und Bild 2
Ich nutze Coding Agents, um automatisch webbasierte Slide-Decks zu erzeugen. Ich definiere „Master Slides“ als Komponenten und wende Corporate-Branding-Regeln und Assets an. Wenn man dort nur Inhalte und Prompts einfügt, entsteht eine saubere Präsentation
Was ich wirklich will, ist ein Improv-Modus. Während des Vortrags sollen je nach Fragen aus dem Publikum oder spontanen Ideen drei mögliche nächste Slides vorgeschlagen werden, aus denen ich auswähle und dann wieder in den eigentlichen Ablauf zurückkehre.
Wenn ich zum Beispiel einen Nachrichtenartikel oder ein Paper erwähne, sollte automatisch eine Slide mit Screenshot und QR-Code erzeugt werden und danach wieder zum Präsentationsfluss zurückgesprungen werden. Wenn Echtzeit-Audio und Codegenerierung zusammenkommen, dürften Präsentationstools viel nützlicher werden
Ich habe gpt-5.3-codex-spark in Codex CLI ausprobiert, und es ist extrem schnell, fühlt sich aber wie ein kleineres Modell an.
Ich habe die Leistung mit meinem selbstgebauten „bluey bench“-Test (ein Dateisystem-Benchmark) gemessen, und bei kleineren Modellen ist die Kontexteffizienz schlechter und es kommt häufiger zu Komprimierung (compaction).
In Sachen Geschwindigkeit ist es trotzdem viel schneller als die vorherige Generation
Ich finde, Cerebras ist immer noch ein unterschätztes Unternehmen. Ein Chip in Tellergröße funktioniert tatsächlich und ist in realen Anwendungen schneller als alles andere. Erstaunliche Technik
Die Strominfrastruktur ist der Engpass, und in den USA kann man große Kraftwerke nicht kurzfristig bauen. Am Ende dürfte Google nach TPUv8 den Markt anführen
Mein Pelican-Benchmark zeigt den Qualitätsunterschied zwischen GPT-5.3-Codex-Spark und dem vollständigen GPT-5.3-Codex visuell
Details siehe im Blogpost
Die Idee von Priority Queue / Tiered-Workload-Offloading mit Coding Agents ist interessant.
Wenn 60 % der Arbeit aus einfachen Edits oder Refactorings bestehen, sind niedrige Latenz und hoher Token-Durchsatz wichtig.
Kürzlich erschien ein Batch-API-Plugin für Claude, und Nvidia sowie Google bereiten ebenfalls Custom Silicon für Inferenz vor (Artikel)
Es sind erst 20 Minuten vergangen, seit es zum Branchenstandard geworden ist, und trotzdem gibt es immer noch Leute, die GPT-5.3-Codex verwenden — erstaunlich
OpenAI testet das möglicherweise auf Openrouter unter dem Namen Aurora Alpha.
Ich habe mit Aider ein kleines Projekt laufen lassen und dabei 10.000 Input-Token und 1.000 Output-Token mit 500 Token pro Sekunde verarbeitet
Ich habe die Formulierung gesehen: „Die neuesten Modelle können mehrere Stunden bis Tage lang autonom arbeiten“, aber bisher habe ich noch keine tatsächlich nützlichen Ergebnisse gesehen
Endlich sieht man, dass einer der drei großen Anbieter Cerebras nutzt. Auf diesen Tag habe ich lange gewartet