- Als GPT-5.5 Codex mit den Einstellungen low, medium, high, xhigh auf 26 reale Aufgaben in
GraphQL-go-toolsangesetzt wurde, zeigte sich der Unterschied beim Reasoning-Aufwand deutlicher bei der semantischen Gleichwertigkeit mit menschlichen Patches und der Bestehensquote im Code-Review als beim Bestehen von Tests - Beim Bestehen von Tests lagen die Werte bei low 21/26, medium 21/26, high 25/26, xhigh 24/26, doch die semantische Gleichwertigkeit stieg von 4/26 → 11/26 → 18/26 → 23/26 und das Bestehen im Code-Review von 3/26 → 5/26 → 10/26 → 18/26
- high verbesserte gegenüber medium Test-Bestehen, Gleichwertigkeit und Review-Bestehen gleichermaßen, während die durchschnittlichen Kosten von $3.13 auf $4.49 und damit um das 1,43-Fache stiegen; in diesem Datensatz wirkt es daher wie die praktischste Standardeinstellung
- xhigh steigerte Gleichwertigkeit und Review-Qualität gegenüber high deutlich, ließ aber die durchschnittlichen Kosten auf $9.77 und die mittlere Laufzeit auf 753,3 Sekunden ansteigen und erhöhte außerdem durch zusätzliche Änderungen an Tests, Fixtures und Expected Outputs das Footprint-Risiko
- Die Wirkung des Reasoning-Aufwands war je nach Aufgabe nicht monoton: Mitunter schlug high xhigh oder höhere Einstellungen erzeugten zwar plausibel wirkende, aber falsche Implementierungen; Teams sollten daher nicht an globalen Benchmarks messen, sondern mit dem eigenen Harness und den eigenen Aufgaben
Ziel des Experiments und Bewertungsmethode
- GPT-5.5 Codex wurde für dieselben 26 Aufgaben in einem Open-Source-Repository jeweils mit den Reasoning-Aufwandseinstellungen low, medium, high, xhigh ausgeführt, um nicht nur das Bestehen von Tests, sondern auch die semantische Gleichwertigkeit mit menschlich gemergten PRs und die Review-Tauglichkeit zu vergleichen
- Das untersuchte Repository ist das Go-basierte
GraphQL-go-tools; jede Aufgabe wurde aus einem tatsächlich gemergten PR oder Commit abgeleitet - Jede Aufgabe bestand aus einem festen Snapshot des Repositorys, einem Änderungswunsch als Prompt und einem einzigen Versuch, in einem Docker-Container einen Patch zu erzeugen
- Stet wendete den erzeugten Patch an und führte in einem isolierten Container aufgabenspezifische Tests aus, um zu prüfen, ob sie bestanden wurden
- Nach den Tests erfolgte eine zusätzliche Bewertung nach folgenden Kriterien
- Gleichwertigkeit: ob der Kandidaten-Patch dieselbe Verhaltensänderung erreicht wie der ursprüngliche, von Menschen erstellte Patch
- Bestehen im Code-Review: ob ein Reviewer den Patch unter Berücksichtigung von Korrektheit, Risiko für neue Bugs, Wartbarkeit und Edge Cases akzeptieren würde
- Footprint-Risiko: wie viel zusätzlichen Code der Agent im Vergleich zum menschlich erstellten Patch angefasst hat
- Handwerk-/Disziplin-Rubrik: bewertet werden Klarheit, Einfachheit, Konsistenz, Zielgerichtetheit, Robustheit, Befolgung von Anweisungen, Disziplin beim Umfang und minimale Diffs
- Alle Modelle wurden pro Aufgabe einmal mit einem einzelnen Seed ausgeführt
- Das LLM für die Bewertung war GPT-5.4; der Bewerter sah nur Patch und Aufgabe, nicht aber, welches Modell oder welche Reasoning-Einstellung den Patch erzeugt hatte
- Repräsentative Beispiele wurden zusätzlich manuell geprüft, aber es gab keine separate menschliche Kalibrierung für dieses Aufgabenset; deshalb sollte man eher der Richtung der Veränderungen vertrauen als einzelnen absoluten Punktwerten
- Ausführungsdetails
- Modell: GPT-5.5
- Harness: Codex 0.128.0
- Datensatz: 26 reale Aufgaben aus
GraphQL-go-tools - Zentrale Metriken: Test-Bestehen, semantische Gleichwertigkeit, Bestehen im Code-Review, Footprint-Risiko, benutzerdefinierte Bewertung für Handwerk/Disziplin, Kosten und Laufzeit
- Interaktive Charts und detaillierte Analysen pro Aufgabe gibt es unter https://stet.sh/blog/gpt-55-codex-graphql-reasoning-curve
- Dieselbe Bewertung wird auch in einer automatisierten Forschungsschleife zur Verbesserung von
AGENTS.mdverwendet- Der Agent erstellt einen Verbesserungsvorschlag für
AGENTS.mddes Repositorys, führt dann mit Stet frühere Aufgaben aus und iteriert darauf, wo sich Ergebnisse verbessert oder verschlechtert haben
- Der Agent erstellt einen Verbesserungsvorschlag für
Gesamtmetriken und Einordnung
- Die Gesamtmetriken zeigen: Mit höherem Reasoning-Aufwand werden die Unterschiede bei semantischer Gleichwertigkeit und Review-Bestehensquote deutlicher als beim Bestehen von Tests
- Kernergebnisse
- Test-Bestehen: low 21/26, medium 21/26, high 25/26, xhigh 24/26
- Gleichwertig mit menschlichem Patch: low 4/26, medium 11/26, high 18/26, xhigh 23/26
- Bestehen im Code-Review: low 3/26, medium 5/26, high 10/26, xhigh 18/26
- Durchschnitt Handwerk/Disziplin: low 2.311, medium 2.604, high 2.736, xhigh 3.071
- Durchschnittliche Kosten pro Aufgabe: low $2.65, medium $3.13, high $4.49, xhigh $9.77
- Durchschnittliche Laufzeit des Agenten: low 286,9 Sekunden, medium 411,0 Sekunden, high 579,0 Sekunden, xhigh 753,3 Sekunden
- low und medium lagen beim Test-Bestehen beide bei 21/26, doch die Gleichwertigkeit stieg von 4/26 auf 11/26 und das Review-Bestehen von 3/26 auf 5/26
- Gegenüber medium erhöhte high das Test-Bestehen um +15,4 Prozentpunkte, die Gleichwertigkeit um +26,9 Prozentpunkte und das Review-Bestehen um +19,2 Prozentpunkte und liefert damit die deutlichste praktische Verbesserung
- Gegenüber high lag xhigh beim Test-Bestehen um -3,8 Prozentpunkte niedriger, steigerte aber die Gleichwertigkeit um +19,2 Prozentpunkte und das Review-Bestehen um +30,8 Prozentpunkte
- Der Reasoning-Aufwand verändert also nicht nur die Test-Bestehensquote, sondern auch die Art der Patches, die Codex erzeugt
- Öffentliche Benchmarks beantworten oft nur die binäre Frage, ob eine Aufgabe gelöst wurde; in echter Softwareentwicklung ist aber auch wichtig, ob ein Patch gemergt und anschließend gewartet werden kann
- Terminal-Bench fokussiert sich vor allem auf schwierige Coding-Probleme, bei SWE-bench verified könnten Modelle die Antwort bereits gesehen haben, und SWE-bench Pro ist zwar nützlich, aber eher allgemein gehalten
- Im Zentrum dieses Experiments steht die Frage: „Hat der Agent in meiner Codebasis dieselbe Art von Änderung vorgenommen wie ein von Menschen gemergter Patch?“ und „Würde ich diesen Patch später selbst besitzen wollen?“
Von low zu medium: von Heuristiken zu Domain-Modellierung
- low und medium liegen beim Test-Bestehen beide bei 21/26 und wirken nur anhand der Tests wie ein Gleichstand
- medium erhöht jedoch die semantische Gleichwertigkeit von 4/26 auf 11/26, und auch der Durchschnitt für Handwerk/Disziplin steigt von 2.311 auf 2.604
- In diesem Bereich verpasst man bei Messung nur über Tests den Großteil des Unterschieds im Reasoning-Aufwand
- low blieb selbst bei erfolgreichen Patches teils bei Heuristiken oder Teilimplementierungen stehen, während medium stärker in Richtung einer besseren Modellierung von Repository und Domain-Semantik ging
- Beispiel PR #1297
- Es geht um die Validierung nullable externer
@requires-Abhängigkeiten in GraphQL Federation - Wenn ein nullable required field mit einem Fehler zusammen
nullzurückliefert, darf diese kontaminierte Entität nicht an nachgelagerte abhängige Fetches weitergegeben werden - Der Kern der Aufgabe war nicht das einfache Hinzufügen eines Validierungszweigs, sondern die Modellierung subtiler Regeln für Datenabhängigkeiten in Federation
- low bestand zwar die Tests, behandelte das Matching von required field und Fehlern jedoch heuristisch und übersah strukturierte nullable-
@requires-Metadaten, war daher nicht gleichwertig und bestand auch das Review nicht - medium verfolgte kontaminierte Objekte und filterte Eingaben für nachgelagerte Fetches, bestand damit Gleichwertigkeit und Review, und die Qualität bei Handwerk/Disziplin stieg von
1.350auf3.225 - high und xhigh blieben in derselben Qualitätsklasse, daher zeigt diese Aufgabe vor allem die Verbesserung beim Übergang von low zu medium
- Es geht um die Validierung nullable externer
high: Der Punkt nahe an einem praktischen Standardwert
- high verbessert gegenüber medium sowohl bestandene Tests als auch semantische Gleichwertigkeit und bestandene Reviews, während der Kostenanstieg groß, aber nicht überzogen bleibt
- Vergleich von high und medium
- Bestandene Tests: Anstieg von 21/26 auf 25/26
- Gleichwertigkeit: Anstieg von 11/26 auf 18/26
- Bestandene Code-Reviews: Anstieg von 5/26 auf 10/26
- Durchschnittliches Footprint-Risiko: Anstieg von 0.268 auf 0.314
- Durchschnitt für Umsetzung/Disziplin: Anstieg von 2.604 auf 2.736
- Durchschnittliche Aufgabenkosten: Anstieg von $3.13 auf $4.49, also um das 1.43-Fache
- Durchschnittliche Laufzeit: Anstieg von 411.0 Sekunden auf 579.0 Sekunden
- high wirkt wie der Punkt, an dem zusätzliche Token in realen Nutzen umgewandelt werden und die Trefferquote bei Integrationsdetails steigt
- Beispiel PR #1209
- Es geht um die Aufgabe, dass die gRPC datasource GraphQL-Aliase im Antwort-JSON beachten, referenzierte protobuf-Nachrichtentypen vorab validieren und die Mapping-Abdeckung für union/interface-Mutationspfade aktualisieren muss
- low und medium bestanden beide die Tests, waren aber nicht gleichwertig und fielen auch im Review durch
- medium behandelte Alias-Serialisierung und die Validierung fehlender Nachrichten weitgehend korrekt, übersah aber das Update des
createUser-Mutations-Mappings und ludJSONPathzu stark mit der Semantik von Response-Keys auf - high führte eine explizite Behandlung von Response-Key/Alias ein und reichte Aliase durch Planning und JSON-Marshaling durch, wodurch erstmals ein strenger Durchlauf gelang
- Die benutzerdefinierte Qualität von high stieg auf
3.625; es wurde also nicht einfach nur mehr Code hinzugefügt, sondern die Integrationsanforderungen wurden präzise getroffen - xhigh bestand ebenfalls, verbesserte aber die Interpretation auf Aufgabenebene nicht, und die Laufzeit des Agenten nach dem Maßstab der neu generierten Zusammenfassung lag mit
790.7süber high mit314.0s
- Beispiel PR #1155
- Es handelt sich um eine Hardening-Aufgabe für die gRPC datasource, einschließlich Support für repeated scalar fields, Vermeidung von Panics bei null/ungültigen Nachrichten, Weitergabe von gRPC-Statuscodes, Deaktivierung der datasource und Support für dynamic clients
- low und medium bestanden die Tests, waren aber nicht gleichwertig
- medium verbesserte die Robustheit, serialisierte aber ungültige repeated fields als leeres Array, übersah das Planning-Verhalten für aliased roots und ließ Risiken im Lebenszyklus des dynamic clients bestehen
- high bestand Gleichwertigkeits- und Review-Prüfung dank sichererer Behandlung von nil/ungültigen Werten, Weitergabe von Statuscodes, Verhalten bei deaktivierter datasource und Abdeckung für dynamic client-provider
- Bei dieser Aufgabe trat bei xhigh eine Umkehr ein: Die Tests wurden zwar bestanden, aber die Semantik deaktivierter datasources und das Verhalten ungültiger Listen wurden falsch behandelt, sodass weder Gleichwertigkeit noch Review bestanden wurden
xhigh: Eher ein Qualitätsmodus als ein Standardwert
- xhigh erhöhte gegenüber high die semantische und Review-Qualität, ist aber kein Fall, in dem durch bloßes Hochdrehen der Einstellung automatisch alles besser wird
- Vergleich von xhigh und high
- Bestandene Tests: Rückgang von 25/26 auf 24/26
- Gleichwertigkeit: Anstieg von 18/26 auf 23/26
- Bestandene Code-Reviews: Anstieg von 10/26 auf 18/26
- Durchschnittliches Footprint-Risiko: Anstieg von 0.314 auf 0.365
- Durchschnitt für Umsetzung/Disziplin: Anstieg von 2.736 auf 3.071
- Durchschnittliche Aufgabenkosten: Anstieg von $4.49 auf $9.77, also um das 2.18-Fache
- Durchschnittliche Laufzeit: Anstieg von 579.0 Sekunden auf 753.3 Sekunden
- xhigh deckt tendenziell mehr Grundlagen ab, trifft die menschliche Intention besser und erzeugt vollständigere Änderungen, verbraucht dafür aber deutlich mehr Token
- Nach der Review-Rubrik liegt xhigh mit einem Durchschnitt von
3.365und einem Median von3.500über high mit einem Durchschnitt von2.817und einem Median von2.750 - Auch der Median liegt über dem Durchschnitt, was darauf hindeutet, dass die Verbesserung bei xhigh nicht nur durch ein oder zwei herausragende Patches den Durchschnitt nach oben gezogen hat
- xhigh ist semantisch vollständiger, greift im Vergleich zu von Menschen erstellten Patches aber auch mehr Code an, wodurch das Footprint-Risiko steigt
- xhigh fügte über 26 Aufgaben insgesamt
13,144Zeilen hinzu, aufgeteilt in5,918Zeilen Implementierungscode und7,226Zeilen für Tests, Fixtures und erwartete Ausgaben - Verglichen mit high fügte xhigh
2,631zusätzliche Zeilen hinzu, davon2,436in Dateien für Tests, Fixtures und erwartete Ausgaben - Der Anstieg des Footprints liegt also nicht nur daran, dass riesiger Production-Code geschrieben wurde; ein großer Teil kommt auch daher, dass xhigh mehr Validierung und Fixture-Abdeckung erzeugte
- Änderungen an Tests, Fixtures und erwarteten Ausgaben sind jedoch ebenfalls reale Oberfläche, die reviewt und gewartet werden muss
- Beispiel PR #1076
- Es geht um die Umstrukturierung der subscription-Verarbeitung, um eine Race Condition bei einem gemeinsam genutzten Mutex zu vermeiden
- Zu den Anforderungen gehörten serialisierte Writes pro subscription, Heartbeat-Steuerung pro subscription, Abdeckung durch den Race Detector und die Korrektur der WebSocket-Close-Semantik
- medium bestand die Tests, war aber nicht gleichwertig und fiel auch im Review durch
- high erreichte Gleichwertigkeit und Befolgung der Anweisungen, scheiterte im Review jedoch, weil die neue Worker-Queue die globale subscription-Event-Loop blockieren konnte, das Shutdown hinter einem hängenden Worker stoppen konnte, hängende Updates unbegrenzt blieben und ein Unsubscribe auf Client-Ebene weiterhin die interne subscription übersprang
- xhigh war der erste strenge Durchlauf und hob die benutzerdefinierte Qualität auf
3.475 - Diese Aufgabe ist das beste Beispiel dafür, dass xhigh bei stark nebenläufigen Aufgaben als Qualitätsmodus funktioniert, der für das Bereinigen von Review-Risiken bezahlt wird
- Beispiel PR #1308
- Es geht um die Implementierung von GraphQL-
@oneOf-Input-Objects - Erforderlich sind das Hinzufügen einer built-in directive, die Sichtbarkeit in der Introspection, Validierung von Operation-Literalen und Runtime-Variablen sowie eine verbesserte Source-Location für undefinierte Variablen
- medium und high bestanden die Tests, verfehlten aber wichtige
@oneOf-Semantik bei Runtime-Variablen, Nullable-Variablen, Payloads mit übergebenem null und der Introspection-Form; daher waren sie weder gleichwertig noch review-tauglich - xhigh war der erste strenge Durchlauf und erzielte Robustheit
3.7, Befolgung der Anweisungen4.0und benutzerdefinierte Qualität3.525 - Der Unterschied liegt nicht in oberflächlichem Feinschliff, sondern in der Abdeckung von Edge Cases über mehrere Systemteile hinweg
- Es geht um die Implementierung von GraphQL-
- Beispiel PR #1240
- Es geht darum, das Merging von GraphQL-AST-Field-Selections und das Merging von Inline-Fragment-Selections in einem einzigen Normalisierungsdurchlauf zusammenzuführen
- low und high bestanden den strengen Durchlauf
- xhigh war nach dem semantischen Bewertungsmaßstab gleichwertig, fiel aber im Review durch, weil es einen priorisierten Subpass beibehielt, die Reihenfolge von
AbstractFieldNormalizeränderte und eine veraltete Field-Merge-Registrierung stehen ließ - Auch eine höhere Reasoning-Einstellung kann raffiniertere und plausiblere Refactorings erzeugen und dabei dennoch das exakte Laufzeitverhalten verfehlen, auf das Tests und Reviewer Wert legen
Umsetzung·Disziplin, Kosten, Grenzen und Fazit
- Auch die benutzerdefinierte Bewertung für Umsetzung·Disziplin steigt insgesamt ähnlich wie die Review-Rubrik mit zunehmendem Reasoning-Aufwand
- Der all-custom-Score liegt bei xhigh mit einem Durchschnitt von
3.071und einem Median von3.087höher als bei high mit einem Durchschnitt von2.736und einem Median von2.688 - Da bei sowohl Umsetzung als auch Disziplin auch die Medianwerte höher sind, lässt sich das so deuten, dass xhigh nicht nur einige herausragende Beispiele erzeugt hat, sondern die Patch-Qualität insgesamt verbessert hat
- Durchschnitts-/Median-Metriken
- Craft aggregate: low
2.327 / 2.338, medium2.618 / 2.525, high2.781 / 2.787, xhigh3.126 / 3.100 - Discipline aggregate: low
2.295 / 2.325, medium2.590 / 2.588, high2.691 / 2.688, xhigh3.015 / 3.013 - All custom graders: low
2.311 / 2.338, medium2.604 / 2.550, high2.736 / 2.688, xhigh3.071 / 3.087
- Craft aggregate: low
- Detaillierte Einordnung
- low ist schwach bei Robustheit und Einhaltung von Anweisungen
- medium verbessert diesen Bereich deutlich, ohne die Gesamtzahl bestandener Tests zu erhöhen
- high verbessert die tatsächliche Korrektheit und Robustheit
- xhigh verbessert nahezu alle Dimensionen, einschließlich Scope und diff-Disziplin
- Kosten und Zeit
- low: durchschnittliche Kosten
$2.65, Median$1.91, durchschnittliche Laufzeit286.9s, Median294.6s - medium: durchschnittliche Kosten
$3.13, Median$2.87, durchschnittliche Laufzeit411.0s, Median371.8s - high: durchschnittliche Kosten
$4.49, Median$3.99, durchschnittliche Laufzeit579.0s, Median572.9s - xhigh: durchschnittliche Kosten
$9.77, Median$6.39, durchschnittliche Laufzeit753.3s, Median732.7s
- low: durchschnittliche Kosten
- Die Kosten sind bei low und besonders bei xhigh verzerrt verteilt; die durchschnittlichen Kosten von xhigh werden von einigen teuren Aufgaben beeinflusst
- Auch nach Median ist xhigh teurer und langsamer als high
- high kostet gegenüber medium pro Aufgabe etwa das 1,43-Fache, xhigh gegenüber high etwa das 2,18-Fache
- Grenzen
- Pro Aufgabe wurde nur ein einzelner Seed verwendet
- Es wurden nur 26 reale
GraphQL-go-tools-Aufgaben einbezogen - Der LLM-Judge war GPT-5.4 und sah die Patches und Aufgaben, aber nicht die Labels
- Es gab keine Grader-Kalibrierung für dieses Aufgabenset
- Die Ergebnisse sollten nicht als statistisch signifikante allgemeingültige Resultate oder als direkt auf andere Repositories übertragbar betrachtet werden
- Verwandte Vergleiche
- Auch das Real-Task-Leaderboard von Voratiq zeigt trotz anderer Methodik eine ähnliche Richtung
- Bei Voratiq liegt GPT-5.5 xhigh bei
1994, GPT-5.5 high bei1807, also bei+187Punkten bzw.+10.3% - Die Kosten liegen bei
$4.23gegenüber$2.52, also+67.9%, die Zeit bei11.9mgegenüber7.8m, also+52.6% - Im Stet-Experiment fiel high → xhigh stärker aus: Äquivalenz
+19.2%p, relativ+27.8%, Code-Review-Bestehen+30.8%p, relativ+80.0%; das Umsetzung-/Disziplin-Aggregat liegt mit+12.2%ähnlich - Voratiq ist ein Preference-/Selection-Stil-Leaderboard für ongoing work, während dieses Experiment nur ein Ausschnitt eines Repositorys mit 26 Aufgaben ist; ein direkter Vergleich ist daher nicht möglich
- Praktisches Fazit
- xhigh eignet sich für mehrdeutige Aufgaben, Aufgaben über mehrere Bereiche hinweg, nebenläufigkeitslastige Aufgaben oder Aufgaben mit hohem Review-Risiko
- high wirkt in diesem Datensatz als praktischste Standardeinstellung für den täglichen Einsatz
- Einstellungen auf medium oder darunter eignen sich, wenn Kosten wichtiger sind und die Aufgaben alltäglich oder gut definiert sind
- Der Effekt des Reasoning-Aufwands ist je nach Aufgabe weder glatt noch monoton; es gibt auch Umkehrungen, bei denen high xhigh schlägt oder eine höhere Einstellung eine plausibel wirkende, aber falsche Implementierung erzeugt
- Teams sollten nicht einfach globale Benchmark-Defaults kopieren, sondern mit dem eigenen Harness und den eigenen Aufgaben messen
- Offenlegung
- Es wird Stet.sh entwickelt, und mit diesem lokalen Evaluierungstool wurde das Experiment durchgeführt
- In der Produktversion erstellt der Coding-Agent Kandidatenänderungen wie Verbesserungen an
AGENTS.mdund bewertet sie mit Stet anhand historischer Repository-Aufgaben - Es werden Teams gesucht, die gemeinsam repository-spezifische Tests durchführen wollen, wenn sie vor konkreten Entscheidungen stehen wie high vs xhigh, Codex vs Claude Code, Updates an
AGENTS.mdoder der Einschätzung, welche Aufgaben sich sicher delegieren lassen - Stet läuft vollständig lokal unter Nutzung eines LLM-Abonnements; die Warteliste ist unter https://www.stet.sh/private verfügbar
1 Kommentare
Reddit-Meinungen
Nach meinem bisherigen Eindruck ist 5.5 den Aufpreis nicht wert. 5.4-high liefert in den meisten Inferenzstufen von 5.5 bessere Ergebnisse, kostet nur die Hälfte und braucht in der Praxis deutlich weniger Zeit. 5.5-medium konnte die Aufgaben nicht zu Ende bringen, und 5.5-high hat durch Overengineering Bugs und Regressionen erzeugt
Kurz gesagt: 5.5 ist gegenüber 5.4 leicht verbessert und etwas teurer geworden. Die Token-Effizienz scheint etwas besser zu sein, sodass die zusätzlichen Input-Kosten teilweise ausgeglichen werden
Darüber hinausgehende Verbesserungen wirken im Verhältnis zu den Kosten wie abnehmende Erträge
Beide bekommen vollen, riskanten Zugriff und arbeiten am selben Projekt. An jedem hängen im Schnitt sechs 5.5-Sub-Agenten, und CLI oder App entscheiden, welche Stufe der Sub-Agenten sie verwenden. Es ist gemischt, aber die CLI hängt meist 5.5 Medium an
Die CLI hat Admin-Rechte und übernimmt Dinge wie GitHub, Supabase, Vercel, Clerk, Linear und Symphony; außerdem erledigt nur die CLI Push, Merge, PR und Deploy. Ich mache selbst nichts, und es gibt auch keine P0/P1/P2-Issues. Bei GitHub, Vercel und Supabase ist alles grün, es gibt keine Issues, der Code und das Produkt sind sauber, und allein mit einem Referenzbild kommt erstaunlich gutes Frontend heraus
Der Nachteil ist, dass man an einem Tag 30 % des Wochenlimits verbrennen kann
Inzwischen bin ich wieder zu high zurückgekehrt
Dadurch habe ich gefühlt ein paar Lebensjahre und eine Menge Token gespart
Ich suche immer noch nach einer Formulierung für
agents.md, damit es nicht eigenmächtig Annahmen trifft. Wenn ich vor einer Coding-Anweisung zu etwas erst mehr wissen muss und deshalb eine Frage stelle, fängt es manchmal einfach mit dem Coden an statt zu antworten. Hinterher packt es die Antwort auf die Frage zwar in die Antwort mit hinein, aber es scheint zwar auf meine Worte zu achten, versteht aber nicht, dass eine Frage bedeutet, noch nicht mit dem Coden anzufangenIch würde gern wissen, wie stark die Schwankung zwischen einzelnen Läufen des Modells ist. Selbst wenn high im obigen Fall besser codiert hat, könnte xhigh dennoch die bessere Wahl sein, falls die Lauf-zu-Lauf-Varianz groß ist
Als weiteres Experiment wäre es interessant, nach einem Lauf Feedback zum Arbeitsergebnis zu geben, es mit den von Menschen vorgenommenen Änderungen zu vergleichen und dann AGENTS.md, Skills, Rules usw. aktualisieren zu lassen, bevor man es in einer frischen Session erneut mit high/xhigh laufen lässt. Wenn man das ein paar Mal wiederholt und verbessert und danach bei allen Effort-Stufen erneut testet, könnte man mit sauber abgestimmtem AGENTS.md und Skills/Rules die Gesamtqualität der Ausgaben anheben
Die Optimierung von AGENTS.md gefällt mir wirklich sehr, und ich habe Stet, das ich für die Durchführung von Experimenten gebaut habe, genau das machen lassen. Es lässt Codex auf einige Aufgaben laufen, schaut sich Scores und Fehlermuster an, passt dann AGENTS.md an und führt alles erneut aus — komplett autonom. Es funktioniert wie automatisierte Forschung für AGENTS.md, und es ist ziemlich spannend zu sehen, wie datenbasierte Verbesserungsvorschläge wieder in AGENTS.md einfließen