Praxistest von OpenAI Codex

(zackproser.com)

17 Punkte von GN⁺ 2025-05-21 | 3 Kommentare | Auf WhatsApp teilen

OpenAI Codex ist ein multitaskingfähiger Code-Agent auf Basis der GitHub-Integration und bietet eine Oberfläche, über die sich per natürlicher Sprache mehrere Aufgaben parallel anweisen lassen
Nutzer können die Arbeit eines ganzen Tages schnell hineingeben und automatisch Branches erstellen sowie PRs öffnen lassen; zudem ist die Nutzung auch mobil möglich, was letztlich einen Remote-first-Workflow unterstützen kann
Derzeit ist es jedoch wegen Problemen wie unzureichender Fehlerbehandlung, schwankender Codequalität, schwierigen Updates bestehender Branches und blockiertem Netzwerkzugang in der Sandbox für größere Refactoring-Arbeiten ungeeignet
Für die Automatisierung kleiner Wartungsaufgaben ist Codex hingegen nützlich und in der Praxis gut darin, wiederholbare Aufgaben schnell zu erledigen
Wenn künftig Modellverbesserungen, Multi-Model-Mixing und erweiterte Integrationsfunktionen hinzukommen, könnte es sich zu einem High-Level-Orchestrierungstool entwickeln

Wie OpenAI Codex funktioniert

OpenAI Codex verfügt über eine chatbasierte UI und ist per Einladung oder über ein Pro-Abo für 200 $/Monat zugänglich
Nutzer müssen eine mehrstufige Authentifizierung durchlaufen und die Codex-GitHub-App für jede Organisation freigeben; Codex klont dann Repositories in seine eigene Sandbox und übernimmt das Ausführen von Befehlen sowie das Erstellen von Branches
Wer Dutzende öffentliche und private Repositories verwaltet, profitiert stark von der Effizienz bei Projektwechseln und der Verwaltung vieler Aufgaben in der Warteschlange
Wenn man nur 1–2 Repositories betreut, können ein bestehendes LLM oder ein Editor mit AI-Funktionen die leichtere Wahl sein

Stärken von Codex

Parallele Verarbeitung mehrerer Aufgaben und Oberfläche
- Für jede Aufgabe lassen sich Repository und Branch festlegen, wodurch es sich natürlich anfühlt, die Arbeit eines ganzen Tages parallel in natürlicher Sprache einzureichen
- Codex empfiehlt ausdrücklich die gleichzeitige Bearbeitung vieler Aufgaben, was gut zum eigenen Arbeitsstil passt
Flexibler Workflow und mobile Unterstützung
- Codex funktioniert auch auf dem Smartphone mobilfreundlich, wodurch effizientes Arbeiten auch außerhalb des Büros gut möglich erscheint
- Das ideale Nutzungsszenario ist, zu Arbeitsbeginn mehrere Aufgaben anzulegen und Planung sowie Fortschritt auch unterwegs weiter zu steuern
Chatbasiertes Feedback und PR-Erstellung
- Logs und Status laufender Aufgaben lassen sich bequem über die Chat-Oberfläche prüfen; zusätzliche Anweisungen sind ebenfalls möglich
- Wenn die Änderungen zufriedenstellend sind, erstellt Codex einen Pull Request (im Folgenden PR) und vervollständigt die Beschreibung automatisch
- Positiv ist auch, dass sich Ausführungslogs und Befehlsverlauf schrittweise nachvollziehen lassen

Punkte mit Verbesserungsbedarf

Unzureichende Fehlerbehandlung
- Wenn das Starten einer Aufgabe oder das Erstellen eines PR fehlschlägt, fehlt klares Feedback, was die Nutzbarkeit verschlechtert
Codequalität und einmalige Aufgabenausführung
- Das Codex-Modell gehört zur GPT-3-Familie und unterstützt mehr als 12 Sprachen, doch bei paralleler Ausführung liegt die Zufriedenheit nur bei etwa 40–60 %
- Für kleinere Wartungsaufgaben ist es nützlich, aber bei groß angelegtem Refactoring sinkt die Effizienz durch wiederholte PR-Erstellung
Keine Unterstützung für fortlaufende Updates innerhalb eines Branches
- Da sich fortlaufende Commits nur schwer mit bestehenden PRs und Branches verknüpfen lassen, sind mehrstufige Refactoring-Arbeiten ineffizient
- Derzeit eignet sich Codex vor allem für einfache Aufgaben, die sich innerhalb eines einzelnen Auftrags direkt übergeben lassen
Einschränkungen beim Netzwerkzugang der Ausführungs-Sandbox
- Durch das beabsichtigte Design ist externer Netzwerkzugang nicht möglich, was verschiedene praktische Aufgaben wie Paketaktualisierungen oder Dependency-Verarbeitung einschränkt
- Beispiel: Eine Anforderung zur Installation externer Pakete funktioniert nicht
- Solche Aufgaben müssen weiterhin lokal direkt erledigt werden oder auf bestehende Bot-Funktionen wie Dependabot zurückgreifen

Did it unlock insane productivity gains for me?

Bisher habe ich keinen explosionsartigen Produktivitätsschub gespürt
Damit Codex wirklich zu einer Produktivitätsrevolution wird, braucht es
- Verbesserungen bei Design und Algorithmen, damit mehr Aufgaben in einem Durchlauf lösbar werden
- einen besseren Ablauf für das Aktualisieren bestehender Branch-PRs
- stärkere Fähigkeiten bei Delegation und integrierter Verwaltung sowie eine breitere Integration mit verschiedenen OpenAI-APIs
- eine Weiterentwicklung von Codex zum High-Level-Orchestrator
Derzeit ist Codex besonders nützlich für die Automatisierung von routinemäßiger Wartung und kleineren Updates
Für große Feature-Entwicklung und Refactoring ist die Zusammenarbeit mit IDE und LLM-Unterstützung besser geeignet

Abschließende Gedanken

Codex ist ein stilles, aber vielversprechendes Tool
Mit Blick auf die Funktionen, die künftig noch verfeinert werden, ist das Potenzial groß, sich als Einstiegspunkt und Koordinationswerkzeug für die Arbeit zu etablieren
Jetzt ist der Zeitpunkt, sich auf leichte, wiederkehrende Aufgaben zu konzentrieren und auf weitere Verbesserungen zu warten

3 Kommentare

yangeok 2025-05-23

Anscheinend ist es noch nicht die Stimmung, dafür 200 Dollar zu verbrennen.

GN⁺ 2025-05-21

Hacker-News-Meinungen

Ich war Plus-Abonnent und habe auf Pro upgegradet, weil ich Codex testen wollte, aber ehrlich gesagt war das Ergebnis meiner Erfahrung nach eher enttäuschend
Auch die UX wirkt noch nicht wirklich ausgereift, und es ist frustrierend, dass man nicht weiß, wie lange es dauert, bis ein Ergebnis kommt
Dank der asynchronen Natur von Codex kann man immerhin mehrere Aufgaben gleichzeitig laufen lassen, das ist noch der bessere Teil
Ein weiterer Kritikpunkt ist, dass man die Umgebung separat festlegen muss, damit das Tool sinnvoll nutzbar ist
Da man die für Tests nötigen Container nicht starten kann, ist der praktische Nutzen stark eingeschränkt
Die Umgebung ist vollständig vom Internet isoliert, was die Einsatzmöglichkeiten begrenzt
Der Grund, warum ChatGPTs o3 so stark ist, liegt darin, dass es auch das Web zur Informationssuche nutzen kann, und genau das fehlt Codex
Zum Vergleich: Ich nutze auch oft Claude; wenn man ein Projekt aus einem GitHub-Repo als Quelle erstellt, findet es selbst unbekannte Bugs in komplexen React-Apps gut
Gemini unterstützt solche Funktionen ebenfalls gut, weil das Kontextfenster groß ist
Natürlich verstehe ich auch, worauf OpenAI hinauswill
Ich wünsche mir, dass Codex wie ein echter Kollege mehrere Aufgaben übernimmt und löst, aber im aktuellen Stand wirkt es zu stark auf Pull Requests fokussiert
Deshalb downgrade ich wieder auf Plus und beobachte das Ganze noch etwas weiter
- Ich finde, Container-Support ist absolut notwendig
Ich arbeite bei OpenAI, aber nicht im Codex-Team, und habe Codex in mehreren Projekten erfolgreich eingesetzt
So arbeite ich damit
Ich führe immer denselben Prompt mehrfach aus, damit jeweils unterschiedliche Ergebnisse entstehen
Ich vergleiche mehrere Implementierungen, finde die beste und überlege, wie ich den Prompt hätte ändern können, um ein besseres Ergebnis zu erzielen
Die Stellen, an denen das Modell falsch lag, korrigiere ich im Prompt und wende das dann iterativ an
Wenn man die Arbeit so in kleine Einheiten zerlegt und parallele Experimente wiederholt, kann man selbst riesige Projekte in wenigen Stunden abschließen, im Wesentlichen nur mit Prompt-Abstimmung und Code-Review
Diese Methode ist nicht nur für API-Migrationsarbeiten nützlich, sondern auch für tieferen Code wie Triton-Kernel sehr hilfreich
- „Ich wähle unter mehreren Implementierungen die beste aus und überlege, was ich im Prompt zusätzlich hätte tun müssen, damit bessere Ergebnisse herauskommen.“
  Als Nichtfachmann frage ich mich, wie man überhaupt erkennt, was das „Beste“ ist
  Um am Ende die richtige Richtung zu finden, braucht man doch Fachwissen in dem Bereich, und genau das ist für mich ein Argument dafür, dass LLMs Software-Engineering-Jobs nicht verdrängen werden
- Ich denke, diese manuelle Arbeitsweise könnte tatsächlich die Grundlage für Reinforcement Learning (RL) sein
  Wenn man die UI-Erfahrung ein wenig anpasst und die realen Daten dafür nutzt, könnte daraus ein gutes Trainingsdatenset entstehen
- Ich frage mich, wie viel schneller diese Methode in der Praxis wirklich ist als das direkte Schreiben von Code
- Ich frage mich, ob du bisherige Arbeit manchmal verwirfst, wenn sich durch einen neuen Prompt etwas Wichtiges ändert
  Kleine Änderungen können große Auswirkungen auf das Ergebnis haben, und bei Problemen ohne vorhandene Beispiele scheint das noch schwieriger zu sein
  Wenn sich diese Arbeitsweise ständig wiederholt, könnte sie einen eher ermüden oder vom Wesentlichen wegführen
  Für mich könnte sich das ineffizient anfühlen, daher frage ich mich, ob andere einfach mehr Geduld für solche Wiederholungsarbeit haben
Ich habe in meinem Team einen Review zu Codex im pod geteilt (https://latent.space/p/codex)
Es ist ein sehr starkes Modell dafür, in einem Durchgang Code zu erzeugen (im pod wurde bestätigt, dass es dafür besonders als One-Shot auf OpenAI-SWE-Aufgaben feinabgestimmt wurde)
Relativ schwach ist es bei Integrationen (z. B. keine Browser-Integration und unzureichende GitHub-Anbindung — wenn bei jeder Iteration ein neuer Pull Request geöffnet werden soll, ist es lästig, Folge-Commits in denselben Branch zu legen)
Trotzdem erwarte ich, dass sich solche Integrationsfunktionen mit der Zeit verbessern
Dass man pro Stunde 60 gleichzeitige Codex-Instanzen ausführen kann, ist meiner Meinung nach ein qualitativer Unterschied zu Devin (5 gleichzeitig) oder Cursor (vor Hintergrund-Agenten nur 1 gleichzeitig)
Ich habe keinen klaren Leistungsunterschied beim Codex-Modell bemerkt, und obwohl OpenAI erklärt, Codex sei von GPT-3 abgeleitet, ist es in Wirklichkeit ein Fine-Tuning von o3
- Schon die Behauptung „Fine-Tuning von o3“ wirkt verwirrend
  Auch OpenAIs Namenskonventionen stiften Verwirrung, und dieses Problem haben die meisten AI-Unternehmen
  Codex war ursprünglich ein altes Modell auf Basis von GPT-3, und inzwischen wird derselbe Name für CLI, Tools und andere Dinge wiederverwendet
  Google sorgt mit „Gemini Ultra“ für dieselbe Verwirrung, weil es sowohl als Modellname als auch als Name eines Abos verwendet wird
- Für mich ist die Netzwerkeinschränkung am störendsten
  1. git fetch, Upstream-Sync und das Beheben von Integrationsbugs sind nicht möglich
  2. Externe Bibliotheken neu herunterladen und Integrationen testen geht nicht
    Offenbar sind sogar Domains blockiert, sodass im Setup-Script nicht einmal apt install funktioniert
    Außerdem scheint der Agent eher dazu zu neigen, erst einmal einfach git grep zu machen, statt den Gesamtkontext des Codes zu erfassen (das sieht man in der UI), deshalb finde ich das eher mittelmäßig
- Mich würde interessieren, worin genau der Unterschied zu Claude Code liegt
Ich finde die Funktion wirklich großartig, mit der man mehrere Repos schnell ändern kann
Wenn man viele Beispiel-Apps gleichzeitig pflegt, wird es extrem langweilig, README-Formate oder Links an mehr als 20 Stellen immer wieder anzupassen
Wenn ich solche Nebenarbeiten an Codex abgeben und später nur noch auf den Merge-Button drücken könnte, wäre ich sehr glücklich
- Mir geht es genauso
  Ich erwarte, dass es sich bald in diese Richtung entwickelt
  Vorerst wird man wahrscheinlich kleinere Wartungsaufgaben mit Codex verteilen, während man große Refactorings oder wichtige Entwicklung weiter in der IDE erledigt
Ich frage mich, ob Nichtentwickler solche Werkzeuge nutzen könnten, um Codeänderungen vorzunehmen
Inhaltliche Änderungen oder einfache CSS-Anpassungen möchte ich wirklich nicht selbst machen, und da man Tests visuell prüfen kann, würde es reichen, wenn ich nur das Code-Review mache
Ein Nichtentwickler könnte sich ein Ticket ansehen, die Arbeit starten und am Ende einfach sagen „Das sieht gut aus“, und ich prüfe es dann
Ich halte das für einen idealen Workflow für kleinere Bugs oder Feature-Verbesserungen im Backlog
- Ich denke, Tools wie AI Assist könnten am Ende die beste Low-Code-Plattform werden
  Vielleicht kommt damit tatsächlich der Tag, an dem Software Engineers ersetzt werden
- Aber selbst Inhaltsänderungen verlangen oft gründliches Nachdenken
  Schon bei etwas mehr Größe gibt es Upstream- und Downstream-Abhängigkeiten, und selbst das Hinzufügen nur eines Felds kann Auswirkungen auf das ganze System haben
  Auch kleine Änderungen wie CSS wirken trivial, aber wie klein sie tatsächlich sind, ist für Nutzer schwer zu beurteilen
- Themen wie Barrierefreiheit, Multiplattform (Mobile/Desktop) und viele andere Probleme wird man ebenfalls schnell kennenlernen
  Das Ganze wirkt fast wie ein Funnel, durch den Menschen „inbound“ in den Software-Engineering-Bereich kommen
Bei kleinen Aufgaben finde ich eine Erfolgsquote von 40–60 % ziemlich ordentlich
Hilfreich zu wissen ist, dass es bei komplexeren Aufgaben mit tieferer Logik Schwierigkeiten gibt
- Nach meinen Tests scheitert Codex komplett schon bei Aufgaben, die nur ein wenig kritisches Denken erfordern
  Die aktuelle Leistung liegt auf dem Niveau eines miserablen Junior Engineers
  Wenn man es etwa anweist, eine Änderung vorzunehmen, macht es einfach pauschal alle Klassenwerte nullable, nur um Compiler-Warnungen loszuwerden
  Oberflächlich funktioniert es dann und kompiliert auch, aber die Datenintegrität ist damit komplett zerstört — also ein völlig falsches Ergebnis
  Solche Fälle gibt es ziemlich oft
  Wenn man eine ganze Codebasis unbeaufsichtigt Codex überlässt, sammelt sich schnell Technical Debt an
Die Erwartung, dass Codex uns helfen wird, während unserer Abwesenheit gut zu arbeiten, wirkt zu optimistisch
Für viele hängt „funktioniert effektiv, obwohl wir nicht da sind“ eng mit „der Schlange der Arbeitslosen“ zusammen
- Ich finde schon erstaunlich, dass Entwickler sich über solche Veränderungen freuen
  Mich überrascht diese Stimmung, als würden wir eines Tages einfach nur dasitzen, zusehen, wie Agenten alles erledigen, und trotzdem dafür bezahlt werden
  Selbst wenn die Arbeit leichter wird, kann sie am Ende trotzdem in Richtung Arbeitsplatzabbau führen
- In der Geschichte von Produktivitätssteigerungen gibt es kaum Präzedenzfälle dafür, dass Beschäftigte dadurch mehr Freizeit bekommen
  Meist läuft es auf mehr Gewinn für Aktionäre und Management hinaus, auf doppelte Arbeit für die Hälfte der verbleibenden Mitarbeiter und auf Arbeitslosigkeit für den Rest
- Ich denke, bis zu echter Arbeitslosigkeit dauert es noch eine Weile
  Damit solche Modelle in einer breiten Palette von Aufgaben zuverlässig auf 90–95 % kommen, ist wohl enorm viel Aufwand nötig
  Die ersten 60–70 % sind bei fast allem leicht, aber die letzten 5–10 % sind wirklich schwer
  Wie oben erwähnt, ist es derzeit deutlich teurer, viele Durchläufe zu starten, unterschiedliche Ergebnisse zu erzeugen und diese auszuwählen, und wenn man das pauschal auf alle Aufgaben anwenden will, kommen noch hohe Inferenzkosten hinzu
  Ab einem gewissen Punkt wird Code-Review gerade bei von Maschinen geschriebenem Code unverzichtbar werden
  Bei kleinen Projekten oder kleineren Features mag man maschineller Arbeit vertrauen können, aber bei Codebasen, die lange gepflegt werden, werden Menschen Architektur und Review weiter übernehmen müssen
  AI kann helfen, verschiedene Wege schneller zu erkunden, aber die letzte Entscheidung liegt weiterhin beim Menschen, der Qualität auch selbst durch Design oder Review sichern muss
  In naher Zukunft werden Engineering-Teams vermutlich aktiv nach Wegen suchen, Hintergrund-Agenten sinnvoll einzusetzen
  Ich bin skeptisch gegenüber dem heutigen Ansatz, einfach alles an ein starkes Modell auszulagern
  Das derzeitige AI-Code-Review ist ziemlich frustrierend, daher braucht es bessere Workflows
  Für einige Jahre werden „Hintergrund-Agenten“ selbst zu einer unverzichtbaren Infra je Unternehmen werden
  Die meisten Unternehmen werden eine solche Agenten-Infrastruktur vermutlich eher per API nutzen als selbst hosten
  Agentenbasierte Engineering-Infrastruktur steht noch ganz am Anfang, daher dürften in den nächsten 3–5 Jahren auch viele neue Arbeitsmöglichkeiten entstehen
- Optimistisch betrachtet steigt die Nachfrage nach etwas oft gerade dann, wenn es billiger wird, es herzustellen (zum Beispiel Code)
  Nichtentwickler könnten zwar als Manager agieren, aber meiner Erfahrung nach wollen Menschen wichtige Aufgaben umso lieber vertrauenswürdigen Personen — also Menschen — überlassen
- Man könnte Softwareentwickler mit Pferden und neue Modell-Agenten wie Codex oder Claude Code mit Autos vergleichen
  Ich frage mich, ob der Rahmen stimmt, dass einige Pferde zu Autofahrern werden, während andere arbeitslos werden, weil sie keine Wagen mehr ziehen müssen
Ich konnte keinen Ort finden, an dem die Liste der unterstützten Sprachen sauber aufbereitet ist
Weder in der offiziellen Einführung noch in Reviews wird das ordentlich erklärt; meistens wird es nur an Beispielen wie Tippfehlerkorrekturen auf Webseiten demonstriert
Es wirkt wie etwas, das man in einer Woche mit gptel-tool schnell zusammenbauen könnte

horace 2025-05-27

Wenn man es wie einen Diener einsetzt, ist es ziemlich nützlich!

Praxistest von OpenAI Codex

Wie OpenAI Codex funktioniert

Stärken von Codex

Parallele Verarbeitung mehrerer Aufgaben und Oberfläche

Flexibler Workflow und mobile Unterstützung

Chatbasiertes Feedback und PR-Erstellung

Punkte mit Verbesserungsbedarf

Unzureichende Fehlerbehandlung

Codequalität und einmalige Aufgabenausführung

Keine Unterstützung für fortlaufende Updates innerhalb eines Branches

Einschränkungen beim Netzwerkzugang der Ausführungs-Sandbox

Did it unlock insane productivity gains for me?

Abschließende Gedanken

Verwandte Beiträge

3 Kommentare

Hacker-News-Meinungen