Codex für fast alles
(openai.com)- Die Codex-App wurde umfassend aktualisiert, sodass jetzt der gesamte Softwareentwicklungsprozess in einem einzigen Workspace möglich ist
- Durch direkte Steuerung des Computers zusammen mit alltäglichen Arbeitstools und Apps sowie Bilderzeugung, Lernen aus vergangenen Aktionen und Ausführen wiederkehrender Aufgaben wird der Entwicklungs-Workflow automatisiert und erweitert
- Die Desktop-App enthält PR-Review, Ansicht mehrerer Dateien/Terminals, SSH-Verbindung zu einer entfernten Devbox und einen In-App-Browser, wodurch Frontend-Design und iterative Arbeit an Apps/Spielen beschleunigt werden
- Über 90 Plugins und das Modell gpt-image-1.5 sind integriert und bieten eine verbundene Umgebung von der Code-Erstellung bis zu Design, Tests und Zusammenarbeit
- Durch Wiederverwendung bestehender Gesprächsthreads, automatische Planung langfristiger Aufgaben und eine Memory-Vorschau wird Kontinuität für Arbeiten über Tage bis Wochen hinweg sichergestellt
Wichtige Codex-Updates
- Die Codex-App für macOS und Windows wurde umfassend aktualisiert und zu einem Werkzeug ausgebaut, das für mehr als 3 Millionen wöchentliche Entwicklernutzer den gesamten Softwareentwicklungsprozess unterstützt
- Die neue Version ergänzt Funktionen für Computersteuerung, Bilderzeugung, Memory, Plugins und In-App-Browser und beschleunigt damit Entwickler-Workflows
- Entwicklerzentrierte Funktionen wie PR-Review, Ansichten für mehrere Dateien und Terminals sowie die Verbindung zu einer entfernten Devbox über SSH wurden ausgebaut
- Alle Verbesserungen sind so integriert, dass Code schreiben, Ausgaben prüfen, Änderungen reviewen und zusammenarbeiten in einem einzigen Workspace möglich sind
-
Computersteuerung und parallele Arbeit
- Mit der Hintergrund-Computersteuerung kann direkt auf dem Computer des Nutzers geklickt, getippt und navigiert werden
- Mit eigenem Cursor können Apps bedient werden, sodass auch in Apps ohne API Tests oder wiederkehrende Aufgaben möglich sind
- Mehrere Agenten können gleichzeitig parallel auf einem Mac arbeiten, ohne andere Apps des Nutzers zu stören
- Nützlich für iterative Frontend-Änderungen, App-Tests und Arbeit in Umgebungen ohne API
- Mit der Hintergrund-Computersteuerung kann direkt auf dem Computer des Nutzers geklickt, getippt und navigiert werden
-
Web- und Browser-Integration
- Nativ mit dem Web verbunden: Über den In-App-Browser lassen sich direkt auf Webseiten Anmerkungen hinzufügen, um Codex konkrete Anweisungen zu geben
- Derzeit besonders nützlich für Frontend- und Spieleentwicklung; künftig soll die Funktion über lokale Web-Apps auf localhost hinaus bis zur vollständigen Browsersteuerung ausgebaut werden
-
Bilderzeugung und visuelle Workflows
- Nutzt das Modell gpt-image-1.5 zur Bilderzeugung und für iterative Arbeit
- In Kombination mit Screenshots und Code lassen sich Produktkonzepte, Frontend-Designs, Mockups und Game-Visuals innerhalb desselben Workflows erstellen
-
Plugin-Erweiterung
- Mehr als 90 neue Plugins wurden hinzugefügt und unterstützen die Integration verschiedener Apps und MCP-Server
- Wichtige Plugins: Atlassian Rovo (JIRA-Verwaltung), CircleCI, CodeRabbit, GitLab Issues, Microsoft Suite, Neon by Databricks, Remotion, Render, Superpowers
- Plugins ermöglichen es Codex, mehr Kontext zu sammeln und automatische Aufgaben auszuführen
-
Ausbau des Entwickler-Workflows
- Unterstützt das Bearbeiten von GitHub-Review-Kommentaren, das Ausführen mehrerer Terminal-Tabs und die Verbindung zu einer entfernten Devbox per SSH (Alpha-Phase)
- Dateien lassen sich direkt in der Sidebar öffnen; außerdem gibt es umfangreiche Vorschauen für PDFs, Tabellen, Slides und Dokumente
- Ein neues Summary Pane verfolgt Agentenpläne, Quellen und Ergebnisse
- Da sich Code schreiben, Ausgaben prüfen, Änderungen reviewen und die Zusammenarbeit mit Agenten in einem Workspace bewegen lassen, wird der Wechsel zwischen den Phasen des Entwicklungslebenszyklus schneller
-
Automatisierung und langfristige Aufgaben
- Die Automatisierungsfunktionen wurden erweitert, um bestehende Gesprächsthreads wiederzuverwenden und angesammelten Kontext beizubehalten
- Codex kann künftige Aufgaben selbst planen und automatisch wieder aufnehmen, wodurch langfristige Arbeit über Tage bis Wochen hinweg möglich wird
- Team-Anwendungsfälle: offene PRs mergen, Nachverfolgung von Aufgaben sowie schnelles Verfolgen von Unterhaltungen über Tools wie Slack, Gmail und Notion hinweg
-
Memory und Personalisierung
- Mit der Memory-Vorschau (preview of memory) erinnert sich Codex an nützlichen vergangenen Kontext wie persönliche Vorlieben, Korrekturen oder gesammelte Informationen
- Damit soll in künftigen Aufgaben ein Qualitäts- und Geschwindigkeitsniveau erreicht werden, das zuvor nur mit umfangreichen Custom Instructions möglich war
- Codex schlägt proaktiv das Fortsetzen an Unterbrechungspunkten vor und erstellt mithilfe von Projekten, verbundenen Plugins und Memory-Kontext automatisch Aufgabenvorschläge und priorisierte Listen
- Beispiel: Kommentare in Google Docs identifizieren, die geprüft werden müssen → relevanten Kontext aus Slack, Notion und der Codebasis sammeln → priorisierte Aktionsliste bereitstellen
- Mit der Memory-Vorschau (preview of memory) erinnert sich Codex an nützlichen vergangenen Kontext wie persönliche Vorlieben, Korrekturen oder gesammelte Informationen
-
Rollout-Plan und Verfügbarkeit
- Der Rollout erfolgt schrittweise für Nutzer der Codex-Desktop-App, die mit einem ChatGPT-Konto angemeldet sind
- Personalisierungsfunktionen (kontextbewusste Vorschläge, Memory) sollen bald für Enterprise-, Edu-, EU- und UK-Nutzer verfügbar sein
- Die Computersteuerung wird zuerst auf macOS bereitgestellt und später auf die Regionen EU und UK ausgeweitet
Die Weiterentwicklung und das Ziel von Codex
- Ein Jahr nach dem Start hat Codex seinen Einsatzbereich von reinem Code-Schreiben auf Systemverständnis, Kontextsammlung, Review, Debugging, Zusammenarbeit und Management langfristiger Aufgaben ausgeweitet
- OpenAI verfolgt das Ziel, dass AGI der gesamten Menschheit zugutekommt; dieses Update wurde darauf ausgelegt, die Lücke zwischen dem, was Menschen sich vorstellen, und dem, was sie tatsächlich bauen können, zu verkleinern
- Codex soll künftig noch enger mit Tools, Workflows und Entscheidungen im Softwareentwicklungsprozess integriert werden
6 Kommentare
Ist das die kostenpflichtige Version von Opecnclaw …
Windows gibt es noch nicht, oder? Das ist ein Mac-Update, oder?
Wann hört es endlich auf, dass Webdesign-Anfragen immer im Kartenstil umgesetzt werden? Wenn nur das behoben würde, würde ich Claude wahrscheinlich überhaupt nicht mehr nutzen.
Ich habe es bisher nur über VSCode verbunden genutzt, aber ich sollte es wohl auch mal als App ausprobieren.
Da Codex bei mir derzeit das Hauptthema ist, ist das ein sehr willkommenes Update.
openai-oauth - Die OpenAI API kostenlos mit einem ChatGPT-Konto nutzen
Wenn man das nutzt, dürfte jetzt auch Bilderzeugung möglich sein.
Hacker-News-Kommentare
Wenn man die Kommentare liest, scheint vielen nicht bewusst zu sein, dass Claude Desktop und Cowork solche Funktionen bereits anbieten
Codex wirkt weniger wie eine Innovation, sondern eher so, als würde es nur aufholen
OpenAI hat weniger Enterprise-Kunden und kann deshalb Privatnutzern mehr Rechenressourcen subventionieren
Am Ende wird es bei steigender Nutzerzahl wie bei Anthropic laufen. Im Moment ist es einfach nur eine PR-Strategie
Codex kann im Hintergrund Apps anklicken und tippen, und mehrere Agenten können gleichzeitig arbeiten
Wie ich auch in meinem Blogbeitrag geschrieben habe, muss AI proaktiver arbeiten
Dinge wie Slack-Zusammenfassungen, die Integration von Meeting-Protokollen oder die automatische Erstellung von Meeting-Vorbereitungsnotizen sind zum Beispiel schon möglich, aber niemand macht es
Am Ende geht es vor allem um Aufmerksamkeitsmanagement, und AI sollte uns helfen, worauf wir uns konzentrieren sollten
Bei aktuellen UIs sieht man einen starken Trend, Code zu verstecken
Der Prompt ist die eigentliche Quelle, und Code wird wie ein lästiges Zwischenprodukt behandelt
So geht es schneller, und das Ergebnis sieht eher aus wie Code, den ich selbst geschrieben hätte
Wir wissen schon, wie man Dinge automatisiert, die meisten Menschen aber nicht
Heute wirken höhere Programmiersprachen vielleicht fremd, aber letztlich ist das nur ein weiterer Schritt zu mehr Abstraktionsebenen
Prompt Engineering ist am Ende ebenfalls nur ein weiteres künstliches Sprachsystem
Es gibt viel Skepsis, aber ich denke, dass sich das breit durchsetzen wird
Ich nutze seit 25 Jahren die CLI, aber inzwischen erledige ich Terminal-Arbeit stattdessen mit Codex
Wenn die GUI-Version gut gemacht ist, werden auch normale Nutzer sich schnell daran gewöhnen
Einstellungen, die früher Stunden gedauert haben, sind jetzt in Sekunden erledigt
Abgesehen von Apps, die zwingend eine GUI brauchen, reicht für die meisten Aufgaben textbasierte AI völlig aus
Ich bin nicht sicher, ob man wirklich will, dass Codex Computer und Apps direkt steuert
Mir ist Sandbox-Sicherheit nach wie vor wichtig
OpenAI scheint auf Ankündigungen der Konkurrenz abgestimmte nicht öffentliche Releases vorzubereiten
Zeitpläne mit Medien und Influencern werden vorab abgestimmt
Der Prompt im zweiten Video lautete: „Bitte reduziere die Länge der Schrift und der Tagline“
Da fragt man sich, ob LLMs jetzt zum Anpassen der Schriftgröße eingesetzt werden
Im dritten Video heißt es dann: „Bitte generiere ein Bild für die Hero-Section“,
aber AI-generierte Bilder in einer Produktbeschreibung wirken einfach zu künstlich
Ehrlich gesagt weiß ich nicht, wofür ich das einsetzen soll
Als Hilfe beim Programmieren ist es nützlich, aber ich möchte nicht, dass es meinen Computer direkt bedient
Für Slack-Zusammenfassungen vielleicht, aber im Moment wirkt es wie eine Lösung für ein nicht existentes Problem
Ich glaube, dass spezialisierte Agenten wie Cowork/Codex im Nichtentwickler-Bereich die am schnellsten wachsende Produktkategorie werden
Solche Agenten werden Software anstelle von Menschen bedienen
Wie auch in diesem Beitrag beschrieben,
wird sich letztlich die Struktur des Softwaremarkts selbst verändern
Entsprechend wachsen auch die Sicherheitsrisiken
Es liest E-Mails und Meeting-Notizen, plant und führt Aufgaben aus und verschickt anschließend sogar Zusammenfassungen
Möglich ist das, weil sich der Großteil von Wissensarbeit letztlich in Codeform ausdrücken lässt
Wenn die Datenanbindung gut klappt, öffnet sich der B2B-SaaS-Markt
Ich frage mich, ob Codex immer noch sensible Dateien ohne Zustimmung des Nutzers liest
Das zugehörige Problem steht auf GitHub
Es ist sicherer, es auf einer separaten Maschine ohne sensible Daten laufen zu lassen
Der Name Codex ist verwirrend
Das eine ist ein agentisches Programmier-Tool, das andere eine GUI-App für Mac/Windows, aber beide heißen gleich