OpenAI stellt Codex-App für macOS vor
(openai.com)- Verwaltet mehrere KI-Agenten gleichzeitig und unterstützt parallele Arbeit sowie langfristige Zusammenarbeit in einer integrierten Entwicklungsumgebung für KI-Entwicklung
- Jeder Agent läuft in einem eigenen Thread, wodurch projektbezogenes Multitasking, Code-Reviews, Diff-Kommentare und manuelle Korrekturen möglich sind
- Mit der Funktion Skills lässt sich der Einsatz über das Schreiben von Code hinaus auf Informationsbeschaffung, Problemlösung, Bilderzeugung, Dokumentenerstellung, Cloud-Deployment und weitere Aufgaben ausweiten
- Mit der Funktion Automations können wiederkehrende Aufgaben automatisch im Hintergrund nach einem festgelegten Zeitplan ausgeführt werden
- Standardmäßig ist Sandbox-Sicherheit aktiviert; Befehle mit höheren Rechten wie Netzwerkzugriff erfordern die Zustimmung des Nutzers
- Codex ist vorübergehend auch für ChatGPT-Free- und Go-Nutzer verfügbar; bei kostenpflichtigen Plänen wird das Nutzungslimit verdoppelt
Überblick über die Codex-App: Kommandozentrale für Agenten
- Seit der Einführung von Codex im April 2025 hat sich die Art und Weise, wie Entwickler Agenten einsetzen, grundlegend verändert
- Modelle können nun komplexe, langfristige Aufgaben von Anfang bis Ende bearbeiten
- Entwickler koordinieren jetzt mehrere Agenten über das gesamte Projekt hinweg, delegieren Aufgaben und führen sie parallel aus
- Die zentrale Frage hat sich von „Was können Agenten tun?“ hin zu „Wie können Menschen Agenten im großen Maßstab steuern, überwachen und gemeinsam mit ihnen arbeiten?“ verlagert
- Bestehende IDEs und terminalbasierte Tools wurden nicht für diese Arbeitsweise entwickelt, daher wird ein neues Werkzeug benötigt
- Die Codex-App für macOS kann mehrere KI-Agenten gleichzeitig verwalten und Aufgaben parallel ausführen
- Sie unterstützt lang laufende Aufgaben und verwaltet durch die Zusammenarbeit mehrerer Agenten den gesamten Software-Lebenszyklus von Design, Entwicklung und Deployment bis zur Wartung
Paralleles Arbeiten mit mehreren Agenten
- Die Codex-App bietet einen fokussierten Arbeitsraum für Multitasking mit Agenten
- Agenten laufen in separaten, projektbezogenen Threads, sodass sich ohne Kontextverlust zwischen Aufgaben wechseln lässt
- Innerhalb eines Threads lassen sich Änderungen des Agenten prüfen, Diff-Kommentare hinzufügen oder direkt im Editor anpassen
- Dank integrierter Worktree-Unterstützung können mehrere Agenten im selben Repository ohne Konflikte arbeiten
- Jeder Agent arbeitet auf einer isolierten Kopie des Codes und kann so verschiedene Wege erkunden, ohne den lokalen Git-Status zu beeinflussen
- Änderungen aus der Agentenarbeit können lokal ausgecheckt werden, oder die Arbeit läuft weiter, ohne den lokalen Git-Status zu verändern
- Sitzungsverlauf und Einstellungen aus Codex CLI und der IDE-Erweiterung werden automatisch übernommen, sodass bestehende Projekte sofort weiterverwendet werden können
Skills: Erweiterung über die Code-Generierung hinaus
- Codex entwickelt sich von einem Agenten, der Code schreibt, zu einem Agenten, der mithilfe von Code Aufgaben auf dem Computer ausführt
- Mit Skills lässt sich der Einsatz über die Code-Generierung hinaus auf Aufgaben wie Informationsbeschaffung und -synthese, Problemlösung und Schreiben erweitern
- Anweisungen, Ressourcen und Skripte werden gebündelt, damit Codex sich mit Tools verbinden und Workflows ausführen kann
- Aufgaben lassen sich entsprechend den Präferenzen des Teams zuverlässig abschließen
- Die Codex-App enthält eine eigene Oberfläche zum Erstellen und Verwalten von Skills
- Bestimmte Skills können ausdrücklich angefordert oder je nach Aufgabe automatisch verwendet werden
-
Beispiel für den Einsatz von Skills: Erstellung eines Rennspiels
- Codex wurde beauftragt, ein Rennspiel mit verschiedenen Fahrern, 8 Karten und per Leertaste einsetzbaren Items zu erstellen
- Dafür wurden ein Bildgenerierungs-Skill (auf Basis von GPT Image) und ein Skill für die Entwicklung von Webspielen genutzt
- Mit einem einzigen anfänglichen Prompt arbeitete Codex über 7 Millionen Token hinweg selbstständig und stellte das Spiel fertig
- Es übernahm die Rollen von Designer, Spieleentwickler und QA-Tester und verifizierte das Spiel durch tatsächliches Spielen
- Spielname: Voxel Velocity, ein 3D-Voxel-Kartracer mit Three.js
- Einzelrennen-Modus (immer 3 Runden, 1 Mensch gegen 7 CPU-Gegner, 8 Strecken sofort verfügbar)
- Arcade-Fahrmodell, Drift-Ladesystem, Boost-Stufen (Tier 1 0,7 Sekunden, Tier 2 1,1 Sekunden, Tier 3 1,5 Sekunden)
- 8 Charaktere, 8 Items, CPU-Schwierigkeits-Presets, AI-Spline-Implementierung
- Codex wurde beauftragt, ein Rennspiel mit verschiedenen Fahrern, 8 Karten und per Leertaste einsetzbaren Items zu erstellen
-
Wichtige verfügbare Skills
- Implement designs: Holt Design-Kontext, Assets und Screenshots aus Figma und wandelt sie in produktionsreifen UI-Code mit 1:1 visueller Übereinstimmung um
- Manage projects: Klassifiziert Bugs in Linear, verfolgt Releases und verwaltet die Team-Auslastung
- Deploy to the cloud: Stellt Web-Apps bei gängigen Cloud-Hosts wie Cloudflare, Netlify, Render und Vercel bereit
- Generate images: Erzeugt und bearbeitet Bilder für Websites, UI-Mockups, Produktvisualisierungen und Game-Assets mit einem Bildgenerierungs-Skill auf Basis von GPT Image
- Build with OpenAI APIs: Nutzt beim Entwickeln mit der OpenAI API die neueste Dokumentation
- Create documents: Liest, erstellt und bearbeitet PDF-, Tabellen- und docx-Dateien (mit Unterstützung für professionelle Formatierung und Layouts)
- Neu erstellte Skills in der App können in App, CLI und IDE-Erweiterung überall verwendet werden
- Skills können ins Repository eingecheckt und so mit dem gesamten Team geteilt werden
Automations: Wiederkehrende Aufgaben automatisieren
- Mit der Funktion Automations führt Codex Aufgaben im Hintergrund automatisch nach einem definierten Zeitplan aus
- Die Einrichtung kombiniert Anweisungen mit optionalen Skills
- Nach Abschluss werden die Ergebnisse in einer Review-Warteschlange gespeichert, sodass bei Bedarf weitergearbeitet werden kann
- Beispiele aus dem internen Einsatz bei OpenAI
- Tägliche Issue-Klassifizierung
- Finden und Zusammenfassen von CI-Fehlern
- Erstellung täglicher Release-Briefings
- Verifikation von Bugs
Personality: Arbeitsstil anpassen
- Entwickler haben unterschiedliche Vorlieben bei der Zusammenarbeit mit Agenten
- Manche wünschen sich einen knappen, umsetzungsorientierten Partner
- Andere bevorzugen eine dialogorientiertere und empathischere Interaktion
- In Codex stehen zwei Persönlichkeiten zur Auswahl: ein knapper, pragmatischer Stil oder ein dialogorientierter, empathischer Stil
- Die Funktionalität ändert sich nicht, nur die Art der Interaktion wird an die Vorlieben angepasst
- Einstellbar in App, CLI und IDE-Erweiterung mit dem Befehl /personality
Sicherheit: standardmäßig aktiv und konfigurierbar
- Sicherheit ist im gesamten Codex-Agenten-Stack von Anfang an ins Design integriert
- Wie bei Codex CLI wird natives, Open-Source- und konfigurierbares Sandboxing auf Systemebene verwendet
- Standardeinstellungen
- Agenten dürfen nur Dateien im aktuell bearbeiteten Ordner oder Branch bearbeiten sowie zwischengespeicherte Websuchen nutzen
- Für Befehle mit höheren Rechten wie Netzwerkzugriff wird die Zustimmung des Nutzers angefordert
- Es lassen sich projekt- oder teambezogene Regeln festlegen, damit bestimmte Befehle automatisch mit erhöhten Rechten ausgeführt werden
Verfügbarkeit und Preise
- Die Codex-App ist ab heute für macOS verfügbar
- Abonnenten von ChatGPT Plus, Pro, Business, Enterprise und Edu können Codex nach dem ChatGPT-Login in CLI, Web, IDE-Erweiterung und App verwenden
- Die Nutzung ist im ChatGPT-Abonnement enthalten; bei Bedarf können zusätzliche Credits gekauft werden
- Vorübergehend ist Codex auch für ChatGPT-Free- und Go-Nutzer verfügbar
- Während dieses Zeitraums wird für bestehende Codex-Nutzer aller kostenpflichtigen Pläne das Nutzungslimit verdoppelt
Ausblick
- Seit der Veröffentlichung von GPT-5.2-Codex Mitte Dezember 2024 hat sich die gesamte Codex-Nutzung verdoppelt
- Im vergangenen Monat haben mehr als 1 Million Entwickler Codex genutzt
- Geplante nächste Schritte
- Eine Windows-App ist geplant
- Die Grenzen der Modellfähigkeiten sollen weiter ausgebaut werden
- Schnellere Inferenz soll bereitgestellt werden
- Verbesserungen in der App
- MultiaAgenten-Workflows werden auf Basis realer Rückmeldungen kontinuierlich verbessert
- Die Verwaltung paralleler Arbeit und das Beibehalten von Kontext beim Wechsel zwischen Agenten sollen erleichtert werden
- Ausbau von Automations
- Unterstützung für Cloud-basierte Trigger befindet sich im Aufbau
- Dadurch kann Codex im Hintergrund weiterlaufen, auch wenn der Computer nicht geöffnet ist
Die Kernannahme von Codex
- Sie basiert auf der einfachen Annahme, dass sich alles per Code steuern lässt
- Je besser ein Agent über Code nachdenken und ihn erzeugen kann, desto kompetenter wird er bei allen Formen technischer und wissensbasierter Arbeit
- Die aktuelle Kernherausforderung ist die Lücke zwischen den Fähigkeiten von Frontier-Modellen und dem Maß, in dem Menschen sie tatsächlich einfach nutzen können
- Codex wurde entwickelt, um diese Lücke zu schließen, indem sich die gesamte Intelligenz des Modells leicht auf reale Aufgaben ausrichten, überwachen und anwenden lässt
- Der Fokus lag auf dem Aufbau des besten Coding-Agenten; dies soll die Grundlage für leistungsfähige Agenten für weitreichende Wissensarbeit über das reine Schreiben von Code hinaus bilden
9 Kommentare
Ich habe es heute ausprobiert, und es ist wirklich großartig.
VSCode-Forks sollten sich wohl auf ihren Untergang gefasst machen.
Natürlich könnte sich dadurch auch die Zahl der Arbeitsplätze für Entwickler verringern.
Windows scheint keine Sandbox-Technologie zu haben, daher wirkt es schwierig, dort viel zu machen.
Gib mir WSL oder Windows ...
Bei mir ist Codex inzwischen auch das Haupttool, echt gut. Hoffentlich kommt die Windows-Version auch bald.
Beim ersten Start werden alle Projekte, an denen man zuvor mit Codex gearbeitet hat, komplett übernommen, und links werden sie übersichtlich nach Projekten/Threads aufgelistet – perfekt, um mehrere Dinge gleichzeitig daran arbeiten zu lassen.
Gibt es einen bestimmten Grund, warum nicht Claude Code, sondern Codex im Mittelpunkt steht?
Ich arbeite eher so, dass ich ein langes Planungsdokument erstelle und es dann damit arbeiten lasse, und dafür passt Codex meiner Meinung nach besser.
Außerdem stößt man da wirklich kaum an Rate Limits. Ich lasse sogar auf einem günstigen Account mehrere Projekte gleichzeitig laufen.
Oh, danke für den Kommentar.
Auch dass der Entwickler von OpenClaw Codex nutzt, ist so eine Sache
Codex scheint ebenfalls keinen schlechten Ruf zu haben, aber wenn man sich die Kommentare auf Hacker News ansieht, wirkt es dann doch wieder nicht so...
Bitte, bitte auch für Windows/Linux :'(
Ich wollte auch Atlas ausprobieren, diesen ChatGPT-Browser, aber bei Windows steht seit Ewigkeiten nur „coming soon“ und es gibt keinerlei Neuigkeiten.
Hacker-News-Meinungen
Meistens ist das nur eine einfache Chat-UI, aber mit Electron ist es schwierig, OS-APIs (z. B. Win32) direkt aufzurufen, sodass tiefe Integration unmöglich ist
Selbst komplexe Software wie Blender, Godot, Unity oder UE5 läuft nativ, deshalb ist es frustrierend, dass solche Unternehmen nur Ausreden liefern
Unter Windows ist Electron de facto der Standard, und sogar Microsoft selbst nutzt es oft
macOS ist deutlich besser, aber Teams landen am Ende entweder bei einer reinen Mac-Lösung oder wählen mit Electron plattformübergreifend
Selbst die UI von UE5 fühlt sich kaum nativ an, und man kann schwer sagen, dass sie besser als Electron ist
Auch in Electron lassen sich native APIs aufrufen
Den meisten Nutzern ist egal, ob eine App nativ ist oder nicht, und dass man Webentwickler für die Desktop-App-Entwicklung wiederverwenden kann, ist für Unternehmen ein großer Vorteil
TUI oder GUI sind unnötige Abstraktionsschichten und erschweren die Automatisierung
Entscheidend sind einfache Befehlsaufrufe und Protokollierung. [Headless-Modus oder Sitzungslogs] gehen eher in diese Richtung
Den meisten Menschen ist egal, ob eine App mit Webtechnologien gebaut wurde
Dank Electron wird auch das Linux-Porting einfacher. Wenn man nur auf nativ bestanden hätte, wäre so etwas nicht möglich gewesen
Es ist nicht perfekt, liefert aber konstant Ergebnisse auf dem Niveau eines Engineers mit mittlerer Erfahrung
Allerdings bleibt die App bei „Loading projects…“ hängen
Auch der Dokumentationslink war kaputt, aber dieser Link funktioniert jetzt
Da ich mehrere VM-Umgebungen mit VS Code Remote nutze, muss ich wohl einige Port-Offset-Einstellungen anpassen
Codex gerät beim Lösen von Problemen oft in Schleifen, und Claude bringt solche Dinge gut zu Ende
Die beiden Modelle abwechselnd zu nutzen, ist ziemlich effizient
Trotzdem wird es kontinuierlich besser, daher bin ich gespannt
Cowork ruft Claude Code in einer VM auf, Codex führt die CLI in einer OS-Sandbox aus
Der Tech-Stack besteht aus Electron 40, React 19, TypeScript, Node.js, SQLite, Vite usw.
Für macOS werden Sparkle, Squirrel, Sentry usw. verwendet
Es befolgt Anweisungen nicht, bleibt mitten drin stehen oder wirft völlig falschen Code aus
Es fehlen aktuelle Daten zu Nuxt 4+, deshalb produziert es ständig Fehler
Auch die Undo-Funktion arbeitet nicht richtig, und es gibt kein Feedback
Claude Code hat dieselbe Aufgabe auf einmal erledigt, während Codex lange brauchte und dabei chaotisch war
Das erinnert mich an die Zeit mit dem Nokia N800: Es gibt Potenzial, aber der Reifegrad ist so niedrig, dass ich mir Sorgen um die Ausrichtung von OpenAI mache
Ich frage mich, ob Anthropic ebenfalls eine ähnliche Claude-Code-Multi-Agent-App veröffentlichen wird
Wenn es klare Verträge gibt (z. B. API-Definitionen), ist parallele Arbeit in unabhängigen Sessions effizienter
Ich hätte fast selbst etwas Ähnliches gebaut
Der Kern des Papers zu Recursive Language Models ist, Anforderungen, Design, Planung usw. nicht als Kontext, sondern als unveränderliche Objekte zu verwalten
Ich verwalte jede Phase (spec, analysis, plan usw.) in .md-Dateien und betreibe das mit einem Kanban-Prozess samt Freigabeschritten
So funktioniert es auch ohne UI gut, die Codequalität bleibt erhalten und langfristig wird die Entwicklung 10-mal schneller
Mit
.claude/commandsund.claude/agentskann man mehrere Aufgaben gleichzeitig laufen lassenCodex erkennt Dinge gut, die Claude übersieht, und wenn man beide Modelle komplementär einsetzt, steigt die Effizienz
Codex punktet mit günstigem Preis und nahezu unbegrenzter Nutzung, Claude mit höherer Qualität
Der Prozess wird auf Basis von plan.md aufgebaut, und man kann dynamisch Schritte oder Hooks hinzufügen
Es ist praktisch, weil sich Workflow-Automatisierung dokumentenbasiert steuern lässt
Ich zahle bereits für die drei wichtigsten Modelle, deshalb glaube ich nicht, dass solche Dienste lange überleben
Es heißt, dafür seien 7 Millionen Tokens verwendet worden, und ich bin überrascht, dass so ein QA-Fehler nicht aufgefallen ist
Solche subtilen Probleme sind mit Test-Harnesses oder QA-Agenten schwer zu finden
Mit mehr Tokens wurde nur der Feinschliff besser, aber das Gameplay ist identisch. Ich frage mich, was diese zusätzlichen Tokens eigentlich bewirkt haben
Ich frage mich, ob die CLI-Version künftig dieselben Funktionen unterstützen wird
Es wäre gut, wenn es eine verwaltete Cluster-Funktion gäbe, die nur im internen Netz arbeitet
Ideal wäre es auch, wenn Teammitglieder den Fortschritt laufender Arbeit teilen könnten
Wenn solche Funktionen direkt vom Tool unterstützt würden, wäre das viel praktischer
Auch die Qualität von GPT-5.x ist zuletzt gesunken, und es ist enttäuschend, dass diese Ankündigung wieder nur ein Mac-Release war
Der Artikel enthält viele Tippfehler, und mich stört auch, dass die tatsächlich verwendeten Prompts nicht offengelegt wurden
Wenn es sich verbessert, würde ich es aber noch einmal ausprobieren
Wahrscheinlich liegt das daran, dass man sich an die Geschwindigkeit von Sonnet oder Gemini 3.0 Flash gewöhnt hat
ChatGPT für 20 $ ist effizienter als Claude für 200 $