OpenAI stellt Codex-App für macOS vor

(openai.com)

12 Punkte von GN⁺ 2026-02-03 | 9 Kommentare | Auf WhatsApp teilen

Verwaltet mehrere KI-Agenten gleichzeitig und unterstützt parallele Arbeit sowie langfristige Zusammenarbeit in einer integrierten Entwicklungsumgebung für KI-Entwicklung
Jeder Agent läuft in einem eigenen Thread, wodurch projektbezogenes Multitasking, Code-Reviews, Diff-Kommentare und manuelle Korrekturen möglich sind
Mit der Funktion Skills lässt sich der Einsatz über das Schreiben von Code hinaus auf Informationsbeschaffung, Problemlösung, Bilderzeugung, Dokumentenerstellung, Cloud-Deployment und weitere Aufgaben ausweiten
Mit der Funktion Automations können wiederkehrende Aufgaben automatisch im Hintergrund nach einem festgelegten Zeitplan ausgeführt werden
Standardmäßig ist Sandbox-Sicherheit aktiviert; Befehle mit höheren Rechten wie Netzwerkzugriff erfordern die Zustimmung des Nutzers
Codex ist vorübergehend auch für ChatGPT-Free- und Go-Nutzer verfügbar; bei kostenpflichtigen Plänen wird das Nutzungslimit verdoppelt

Überblick über die Codex-App: Kommandozentrale für Agenten

Seit der Einführung von Codex im April 2025 hat sich die Art und Weise, wie Entwickler Agenten einsetzen, grundlegend verändert
- Modelle können nun komplexe, langfristige Aufgaben von Anfang bis Ende bearbeiten
- Entwickler koordinieren jetzt mehrere Agenten über das gesamte Projekt hinweg, delegieren Aufgaben und führen sie parallel aus
Die zentrale Frage hat sich von „Was können Agenten tun?“ hin zu „Wie können Menschen Agenten im großen Maßstab steuern, überwachen und gemeinsam mit ihnen arbeiten?“ verlagert
Bestehende IDEs und terminalbasierte Tools wurden nicht für diese Arbeitsweise entwickelt, daher wird ein neues Werkzeug benötigt
Die Codex-App für macOS kann mehrere KI-Agenten gleichzeitig verwalten und Aufgaben parallel ausführen
Sie unterstützt lang laufende Aufgaben und verwaltet durch die Zusammenarbeit mehrerer Agenten den gesamten Software-Lebenszyklus von Design, Entwicklung und Deployment bis zur Wartung

Paralleles Arbeiten mit mehreren Agenten

Die Codex-App bietet einen fokussierten Arbeitsraum für Multitasking mit Agenten
- Agenten laufen in separaten, projektbezogenen Threads, sodass sich ohne Kontextverlust zwischen Aufgaben wechseln lässt
- Innerhalb eines Threads lassen sich Änderungen des Agenten prüfen, Diff-Kommentare hinzufügen oder direkt im Editor anpassen
Dank integrierter Worktree-Unterstützung können mehrere Agenten im selben Repository ohne Konflikte arbeiten
- Jeder Agent arbeitet auf einer isolierten Kopie des Codes und kann so verschiedene Wege erkunden, ohne den lokalen Git-Status zu beeinflussen
- Änderungen aus der Agentenarbeit können lokal ausgecheckt werden, oder die Arbeit läuft weiter, ohne den lokalen Git-Status zu verändern
Sitzungsverlauf und Einstellungen aus Codex CLI und der IDE-Erweiterung werden automatisch übernommen, sodass bestehende Projekte sofort weiterverwendet werden können

Skills: Erweiterung über die Code-Generierung hinaus

Codex entwickelt sich von einem Agenten, der Code schreibt, zu einem Agenten, der mithilfe von Code Aufgaben auf dem Computer ausführt
Mit Skills lässt sich der Einsatz über die Code-Generierung hinaus auf Aufgaben wie Informationsbeschaffung und -synthese, Problemlösung und Schreiben erweitern
- Anweisungen, Ressourcen und Skripte werden gebündelt, damit Codex sich mit Tools verbinden und Workflows ausführen kann
- Aufgaben lassen sich entsprechend den Präferenzen des Teams zuverlässig abschließen
Die Codex-App enthält eine eigene Oberfläche zum Erstellen und Verwalten von Skills
- Bestimmte Skills können ausdrücklich angefordert oder je nach Aufgabe automatisch verwendet werden
Beispiel für den Einsatz von Skills: Erstellung eines Rennspiels
- Codex wurde beauftragt, ein Rennspiel mit verschiedenen Fahrern, 8 Karten und per Leertaste einsetzbaren Items zu erstellen
  - Dafür wurden ein Bildgenerierungs-Skill (auf Basis von GPT Image) und ein Skill für die Entwicklung von Webspielen genutzt
  - Mit einem einzigen anfänglichen Prompt arbeitete Codex über 7 Millionen Token hinweg selbstständig und stellte das Spiel fertig
  - Es übernahm die Rollen von Designer, Spieleentwickler und QA-Tester und verifizierte das Spiel durch tatsächliches Spielen
- Spielname: Voxel Velocity, ein 3D-Voxel-Kartracer mit Three.js
  - Einzelrennen-Modus (immer 3 Runden, 1 Mensch gegen 7 CPU-Gegner, 8 Strecken sofort verfügbar)
  - Arcade-Fahrmodell, Drift-Ladesystem, Boost-Stufen (Tier 1 0,7 Sekunden, Tier 2 1,1 Sekunden, Tier 3 1,5 Sekunden)
  - 8 Charaktere, 8 Items, CPU-Schwierigkeits-Presets, AI-Spline-Implementierung
Wichtige verfügbare Skills
- Implement designs: Holt Design-Kontext, Assets und Screenshots aus Figma und wandelt sie in produktionsreifen UI-Code mit 1:1 visueller Übereinstimmung um
- Manage projects: Klassifiziert Bugs in Linear, verfolgt Releases und verwaltet die Team-Auslastung
- Deploy to the cloud: Stellt Web-Apps bei gängigen Cloud-Hosts wie Cloudflare, Netlify, Render und Vercel bereit
- Generate images: Erzeugt und bearbeitet Bilder für Websites, UI-Mockups, Produktvisualisierungen und Game-Assets mit einem Bildgenerierungs-Skill auf Basis von GPT Image
- Build with OpenAI APIs: Nutzt beim Entwickeln mit der OpenAI API die neueste Dokumentation
- Create documents: Liest, erstellt und bearbeitet PDF-, Tabellen- und docx-Dateien (mit Unterstützung für professionelle Formatierung und Layouts)
- Neu erstellte Skills in der App können in App, CLI und IDE-Erweiterung überall verwendet werden
- Skills können ins Repository eingecheckt und so mit dem gesamten Team geteilt werden

Automations: Wiederkehrende Aufgaben automatisieren

Mit der Funktion Automations führt Codex Aufgaben im Hintergrund automatisch nach einem definierten Zeitplan aus
- Die Einrichtung kombiniert Anweisungen mit optionalen Skills
- Nach Abschluss werden die Ergebnisse in einer Review-Warteschlange gespeichert, sodass bei Bedarf weitergearbeitet werden kann
Beispiele aus dem internen Einsatz bei OpenAI
- Tägliche Issue-Klassifizierung
- Finden und Zusammenfassen von CI-Fehlern
- Erstellung täglicher Release-Briefings
- Verifikation von Bugs

Personality: Arbeitsstil anpassen

Entwickler haben unterschiedliche Vorlieben bei der Zusammenarbeit mit Agenten
- Manche wünschen sich einen knappen, umsetzungsorientierten Partner
- Andere bevorzugen eine dialogorientiertere und empathischere Interaktion
In Codex stehen zwei Persönlichkeiten zur Auswahl: ein knapper, pragmatischer Stil oder ein dialogorientierter, empathischer Stil
- Die Funktionalität ändert sich nicht, nur die Art der Interaktion wird an die Vorlieben angepasst
- Einstellbar in App, CLI und IDE-Erweiterung mit dem Befehl /personality

Sicherheit: standardmäßig aktiv und konfigurierbar

Sicherheit ist im gesamten Codex-Agenten-Stack von Anfang an ins Design integriert
Wie bei Codex CLI wird natives, Open-Source- und konfigurierbares Sandboxing auf Systemebene verwendet
Standardeinstellungen
- Agenten dürfen nur Dateien im aktuell bearbeiteten Ordner oder Branch bearbeiten sowie zwischengespeicherte Websuchen nutzen
- Für Befehle mit höheren Rechten wie Netzwerkzugriff wird die Zustimmung des Nutzers angefordert
Es lassen sich projekt- oder teambezogene Regeln festlegen, damit bestimmte Befehle automatisch mit erhöhten Rechten ausgeführt werden

Verfügbarkeit und Preise

Die Codex-App ist ab heute für macOS verfügbar
Abonnenten von ChatGPT Plus, Pro, Business, Enterprise und Edu können Codex nach dem ChatGPT-Login in CLI, Web, IDE-Erweiterung und App verwenden
Die Nutzung ist im ChatGPT-Abonnement enthalten; bei Bedarf können zusätzliche Credits gekauft werden
Vorübergehend ist Codex auch für ChatGPT-Free- und Go-Nutzer verfügbar
Während dieses Zeitraums wird für bestehende Codex-Nutzer aller kostenpflichtigen Pläne das Nutzungslimit verdoppelt

Ausblick

Seit der Veröffentlichung von GPT-5.2-Codex Mitte Dezember 2024 hat sich die gesamte Codex-Nutzung verdoppelt
Im vergangenen Monat haben mehr als 1 Million Entwickler Codex genutzt
Geplante nächste Schritte
- Eine Windows-App ist geplant
- Die Grenzen der Modellfähigkeiten sollen weiter ausgebaut werden
- Schnellere Inferenz soll bereitgestellt werden
Verbesserungen in der App
- MultiaAgenten-Workflows werden auf Basis realer Rückmeldungen kontinuierlich verbessert
- Die Verwaltung paralleler Arbeit und das Beibehalten von Kontext beim Wechsel zwischen Agenten sollen erleichtert werden
Ausbau von Automations
- Unterstützung für Cloud-basierte Trigger befindet sich im Aufbau
- Dadurch kann Codex im Hintergrund weiterlaufen, auch wenn der Computer nicht geöffnet ist

Die Kernannahme von Codex

Sie basiert auf der einfachen Annahme, dass sich alles per Code steuern lässt
Je besser ein Agent über Code nachdenken und ihn erzeugen kann, desto kompetenter wird er bei allen Formen technischer und wissensbasierter Arbeit
Die aktuelle Kernherausforderung ist die Lücke zwischen den Fähigkeiten von Frontier-Modellen und dem Maß, in dem Menschen sie tatsächlich einfach nutzen können
Codex wurde entwickelt, um diese Lücke zu schließen, indem sich die gesamte Intelligenz des Modells leicht auf reale Aufgaben ausrichten, überwachen und anwenden lässt
Der Fokus lag auf dem Aufbau des besten Coding-Agenten; dies soll die Grundlage für leistungsfähige Agenten für weitreichende Wissensarbeit über das reine Schreiben von Code hinaus bilden

9 Kommentare

treestae 2026-02-03

Ich habe es heute ausprobiert, und es ist wirklich großartig.
VSCode-Forks sollten sich wohl auf ihren Untergang gefasst machen.
Natürlich könnte sich dadurch auch die Zahl der Arbeitsplätze für Entwickler verringern.

m00nlygreat 2026-02-03

Windows scheint keine Sandbox-Technologie zu haben, daher wirkt es schwierig, dort viel zu machen.

cshj55 2026-02-03

Gib mir WSL oder Windows ...

GN⁺ 2026-02-03

Hacker-News-Meinungen

Ich verstehe nicht, warum AI-Unternehmen mit zig Milliarden Dollar es immer noch nicht schaffen, native Apps zu bauen
Meistens ist das nur eine einfache Chat-UI, aber mit Electron ist es schwierig, OS-APIs (z. B. Win32) direkt aufzurufen, sodass tiefe Integration unmöglich ist
Selbst komplexe Software wie Blender, Godot, Unity oder UE5 läuft nativ, deshalb ist es frustrierend, dass solche Unternehmen nur Ausreden liefern
- Die Desktop-Entwicklungsumgebung ist ein Chaos. Microsoft hat zu viele halbfertige Frameworks herausgebracht, sodass man nicht weiß, was man verwenden soll
  Unter Windows ist Electron de facto der Standard, und sogar Microsoft selbst nutzt es oft
  macOS ist deutlich besser, aber Teams landen am Ende entweder bei einer reinen Mac-Lösung oder wählen mit Electron plattformübergreifend
- Heutzutage basieren auch viele Videospiel-UIs auf HTML/JS
  Selbst die UI von UE5 fühlt sich kaum nativ an, und man kann schwer sagen, dass sie besser als Electron ist
  Auch in Electron lassen sich native APIs aufrufen
  Den meisten Nutzern ist egal, ob eine App nativ ist oder nicht, und dass man Webentwickler für die Desktop-App-Entwicklung wiederverwenden kann, ist für Unternehmen ein großer Vorteil
- Ich sehe es eher umgekehrt. Wenn man alles als Textschnittstelle baut, kann das Modell Werkzeuge ganz natürlich lernen
  TUI oder GUI sind unnötige Abstraktionsschichten und erschweren die Automatisierung
  Entscheidend sind einfache Befehlsaufrufe und Protokollierung. [Headless-Modus oder Sitzungslogs] gehen eher in diese Richtung
- Die Realität bei AI-generierten Ergebnissen ist am Ende eine Electron-App mit einem einzigen Eingabefeld
- Ich verstehe nicht, welche Funktionen native Apps bieten sollen, die so wichtig sind
  Den meisten Menschen ist egal, ob eine App mit Webtechnologien gebaut wurde
  Dank Electron wird auch das Linux-Porting einfacher. Wenn man nur auf nativ bestanden hätte, wäre so etwas nicht möglich gewesen
Ich habe Codex in den letzten zwei Monaten viel benutzt und war ziemlich beeindruckt
Es ist nicht perfekt, liefert aber konstant Ergebnisse auf dem Niveau eines Engineers mit mittlerer Erfahrung
Allerdings bleibt die App bei „Loading projects…“ hängen
Auch der Dokumentationslink war kaputt, aber dieser Link funktioniert jetzt
Da ich mehrere VM-Umgebungen mit VS Code Remote nutze, muss ich wohl einige Port-Offset-Einstellungen anpassen
- Ich nutze ChatGPT (20 $/Monat) zusammen mit Claude (200 $/Jahr), und bei Codex bin ich noch nie an ein Nutzungslimit gestoßen
  Codex gerät beim Lösen von Problemen oft in Schleifen, und Claude bringt solche Dinge gut zu Ende
  Die beiden Modelle abwechselnd zu nutzen, ist ziemlich effizient
- Ich habe eine Antwort bekommen, in der man sich für den Hinweis auf das Link-Problem bedankt hat. Angeblich wird auch die Ladegeschwindigkeit verbessert
- Codex ist stark bei Backend- oder logischen Aufgaben, macht aber bei einfachen Frontend-UI-Aufgaben oft Fehler
  Trotzdem wird es kontinuierlich besser, daher bin ich gespannt
- Ich werde weiter Cursor nutzen. OpenAI sollte sich lieber auf Bugfixes in bestehenden Apps konzentrieren, statt neue Apps zu veröffentlichen
Codex wirkt wie ein Konkurrenzprodukt in der Art von Claude Cowork
Cowork ruft Claude Code in einer VM auf, Codex führt die CLI in einer OS-Sandbox aus
Der Tech-Stack besteht aus Electron 40, React 19, TypeScript, Node.js, SQLite, Vite usw.
Für macOS werden Sparkle, Squirrel, Sentry usw. verwendet
- Schon am Namen und am diff-/worktree-zentrierten Design sieht man, dass es stark auf Entwickler ausgerichtet ist
- Für einen Stack auf Bootcamp-Niveau ist das etwas enttäuschend
- Ich frage mich, ob die Sentry-Integration nativ ist oder über MCP läuft
- Mit Git- und Terminal-Ansicht ist das für CLI-Nutzer ein großer Vorteil. Ich bin auch gespannt auf die Skills-Funktion
Ich habe Codex ausprobiert, und es war so langsam und dumm, dass es mich regelrecht wütend gemacht hat
Es befolgt Anweisungen nicht, bleibt mitten drin stehen oder wirft völlig falschen Code aus
Es fehlen aktuelle Daten zu Nuxt 4+, deshalb produziert es ständig Fehler
Auch die Undo-Funktion arbeitet nicht richtig, und es gibt kein Feedback
Claude Code hat dieselbe Aufgabe auf einmal erledigt, während Codex lange brauchte und dabei chaotisch war
Das erinnert mich an die Zeit mit dem Nokia N800: Es gibt Potenzial, aber der Reifegrad ist so niedrig, dass ich mir Sorgen um die Ausrichtung von OpenAI mache
OpenAIs Codex ist im Grunde eine offizielle Version von Produkten wie Emdash und Conductor
Ich frage mich, ob Anthropic ebenfalls eine ähnliche Claude-Code-Multi-Agent-App veröffentlichen wird
- Es gibt bereits Claude Code Desktop
- Der Multi-Agent-Ansatz scheint überbewertet zu sein
  Wenn es klare Verträge gibt (z. B. API-Definitionen), ist parallele Arbeit in unabhängigen Sessions effizienter
- Wenn man Claude Code per GUI nutzt, frage ich mich, ob dabei der komplette Claude-Code-Harness verwendet wird oder nur das Modell selbst
- Von Emdash habe ich zum ersten Mal gehört, aber es gibt so viele solcher Tools, dass Marketing schwierig ist und der Markt laut wirkt
  Ich hätte fast selbst etwas Ähnliches gebaut
- Eine Webversion von Claude Code wurde als Research Preview veröffentlicht
Die Agent-Funktion interessiert mich nicht besonders
Der Kern des Papers zu Recursive Language Models ist, Anforderungen, Design, Planung usw. nicht als Kontext, sondern als unveränderliche Objekte zu verwalten
Ich verwalte jede Phase (spec, analysis, plan usw.) in .md-Dateien und betreibe das mit einem Kanban-Prozess samt Freigabeschritten
So funktioniert es auch ohne UI gut, die Codequalität bleibt erhalten und langfristig wird die Entwicklung 10-mal schneller
Die Kernfunktion von Codex scheint die parallele Ausführung von Agenten zu sein, aber ich nutze genau das in Claude Code schon seit 9 Monaten
Mit .claude/commands und .claude/agents kann man mehrere Aufgaben gleichzeitig laufen lassen
Codex erkennt Dinge gut, die Claude übersieht, und wenn man beide Modelle komplementär einsetzt, steigt die Effizienz
Codex punktet mit günstigem Preis und nahezu unbegrenzter Nutzung, Claude mit höherer Qualität
Ich nutze hauptsächlich Claude Code, aber der beste Orchestrator war für mich Zenflow von Zencoder.ai
Der Prozess wird auf Basis von plan.md aufgebaut, und man kann dynamisch Schritte oder Hooks hinzufügen
Es ist praktisch, weil sich Workflow-Automatisierung dokumentenbasiert steuern lässt
- Wenn man danach sucht, entpuppt es sich aber oft nur als eine weitere „App zum Verkauf von AI-Credit-Paketen“
  Ich zahle bereits für die drei wichtigsten Modelle, deshalb glaube ich nicht, dass solche Dienste lange überleben
- Es gibt bereits mehr als 500 AI-Integrationsdienste
Unten im Demo-Spiel „Voxel Velocity“ steht „Enter start“, aber tatsächlich ändert Enter nur die Auswahl
Es heißt, dafür seien 7 Millionen Tokens verwendet worden, und ich bin überrascht, dass so ein QA-Fehler nicht aufgefallen ist
- Das Spiel selbst ist beeindruckend, aber bei den Details fehlt es an Qualitätskontrolle
  Solche subtilen Probleme sind mit Test-Harnesses oder QA-Agenten schwer zu finden
- Zwischen den Versionen mit 60.000, 800.000 und 7 Millionen Tokens gibt es fast keinen Unterschied bei den Spielfunktionen
  Mit mehr Tokens wurde nur der Feinschliff besser, aber das Gameplay ist identisch. Ich frage mich, was diese zusätzlichen Tokens eigentlich bewirkt haben
Ich bin Linux-Nutzer und finde es schade, dass Codex nur für Mac verfügbar ist
Ich frage mich, ob die CLI-Version künftig dieselben Funktionen unterstützen wird
- OpenAIs Romain hat direkt geantwortet. Da es auf Electron basiert, soll Windows- und Linux-Support bald folgen
- Derzeit läuft es selbst auf dem Mac nicht auf Intel-Chips
- macOS eignet sich gut für Experimente. Die Hardwarekonfigurationen sind einheitlich, deshalb gibt es weniger Edge-Case-Bugs
Schade, dass alles nur lokal läuft
Es wäre gut, wenn es eine verwaltete Cluster-Funktion gäbe, die nur im internen Netz arbeitet
Ideal wäre es auch, wenn Teammitglieder den Fortschritt laufender Arbeit teilen könnten
- Ich nutze etwas Ähnliches mit ssh und tmux
  Wenn solche Funktionen direkt vom Tool unterstützt würden, wäre das viel praktischer
OpenAI und Codex haben die frühe Innovation angeführt, aber inzwischen sind Claude und Gemini weiter vorne
Auch die Qualität von GPT-5.x ist zuletzt gesunken, und es ist enttäuschend, dass diese Ankündigung wieder nur ein Mac-Release war
Der Artikel enthält viele Tippfehler, und mich stört auch, dass die tatsächlich verwendeten Prompts nicht offengelegt wurden
Wenn es sich verbessert, würde ich es aber noch einmal ausprobieren
- Im Video fiel auf, dass die Code-Erzeugungssequenz mit mehr als 5-facher Geschwindigkeit geschnitten wurde
  Wahrscheinlich liegt das daran, dass man sich an die Geschwindigkeit von Sonnet oder Gemini 3.0 Flash gewöhnt hat
- Ich habe eher den Eindruck, dass Codex bei der Bearbeitung komplexer Aufgaben stabiler ist als Claude Code oder Gemini
  ChatGPT für 20 $ ist effizienter als Claude für 200 $
- OpenAIs Politik, zuerst für macOS zu veröffentlichen, gab es schon früher

xguru 2026-02-03

Bei mir ist Codex inzwischen auch das Haupttool, echt gut. Hoffentlich kommt die Windows-Version auch bald.

Beim ersten Start werden alle Projekte, an denen man zuvor mit Codex gearbeitet hat, komplett übernommen, und links werden sie übersichtlich nach Projekten/Threads aufgelistet – perfekt, um mehrere Dinge gleichzeitig daran arbeiten zu lassen.

tested 2026-02-03

Gibt es einen bestimmten Grund, warum nicht Claude Code, sondern Codex im Mittelpunkt steht?

xguru 2026-02-03

Ich arbeite eher so, dass ich ein langes Planungsdokument erstelle und es dann damit arbeiten lasse, und dafür passt Codex meiner Meinung nach besser.
Außerdem stößt man da wirklich kaum an Rate Limits. Ich lasse sogar auf einem günstigen Account mehrere Projekte gleichzeitig laufen.

tested 2026-02-03

Oh, danke für den Kommentar.

Auch dass der Entwickler von OpenClaw Codex nutzt, ist so eine Sache

https://de.news.hada.io/topic?id=26222

Codex scheint ebenfalls keinen schlechten Ruf zu haben, aber wenn man sich die Kommentare auf Hacker News ansieht, wirkt es dann doch wieder nicht so...

unknowncyder 2026-02-03

Bitte, bitte auch für Windows/Linux :'(
Ich wollte auch Atlas ausprobieren, diesen ChatGPT-Browser, aber bei Windows steht seit Ewigkeiten nur „coming soon“ und es gibt keinerlei Neuigkeiten.