- Für jeden PR wird ein Multi-Agenten-Team eingesetzt, um mit der Code-Review-Funktion, die als Research Preview veröffentlicht wurde, schwer erkennbare Bugs tiefgehend aufzuspüren
- Da die Code-Produktivität der Anthropic-Ingenieure im vergangenen Jahr um 200 % gestiegen ist, wurde Code Review zum Engpass, und viele PRs wurden nur noch oberflächlich statt gründlich geprüft
- Vor der Einführung erhielten nur 16 % der PRs substanzielle Review-Kommentare, danach stieg der Anteil auf 54 %; die Freigabe von PRs bleibt jedoch weiterhin Menschen vorbehalten
- Bei großen PRs (mehr als 1.000 Zeilen) enthalten 84 % Hinweise, im Schnitt werden 7,5 Issues gemeldet, und die False-Positive-Rate liegt unter 1 %
- Die Review-Kosten liegen auf Basis des Token-Verbrauchs im Durchschnitt bei 15–25 US-Dollar pro PR; zudem gibt es Funktionen zur Kostenkontrolle wie monatliche Organisationslimits und repositoryspezifische Steuerung
Code-Review-Engpass
- Da die Code-Produktivität pro Anthropic-Ingenieur im vergangenen Jahr um 200 % gestiegen ist, hat sich Code Review als Engpass im Entwicklungsprozess herausgebildet
- Auch Kundenunternehmen beklagen jede Woche dasselbe Problem: Entwickler sind überlastet, und viele PRs werden nur überflogen statt gründlich geprüft
- Entwickelt wurde dies als gründlichere und kostspieligere Option gegenüber der bestehenden Open-Source-Claude Code GitHub Action, um jedem PR einen verlässlichen Reviewer zuzuweisen
- Vor der Einführung erhielten nur 16 % der PRs substanzielle Review-Kommentare, danach stieg der Anteil auf 54 %
- Die PR-Freigabe bleibt weiterhin Menschen überlassen; die Funktion soll die Lücke verkleinern, damit Reviewer den tatsächlich ausgelieferten Code ausreichend abdecken können
Funktionsweise
- Sobald ein PR geöffnet wird, wird ein Agenten-Team dispatcht, das parallel nach Bugs sucht
- Jeder Agent verifiziert Bugs, filtert False Positives heraus und priorisiert sie nach Schweregrad
- Die Ergebnisse werden im PR als einzelner, hochsignaliger Überblickskommentar sowie als Inline-Kommentare zu spezifischen Bugs übermittelt
- Der Umfang des Reviews wird automatisch an die Größe des PRs angepasst: große und komplexe Änderungen erhalten mehr Agenten und eine tiefere Analyse, kleine Änderungen einen leichten Durchlauf
- In Tests lag die durchschnittliche Review-Dauer bei etwa 20 Minuten
Praktische Einsatzbeispiele
- Nach mehreren Monaten internem Einsatz enthielten große PRs (mehr als 1.000 Zeilen) in 84 % der Fälle Findings, mit durchschnittlich 7,5 Issues pro PR
- Bei kleinen PRs (unter 50 Zeilen) enthielten 31 % Findings, im Schnitt wurden 0,5 Issues gemeldet
- Die Ingenieure stimmen den Findings überwiegend zu; der Anteil der als False Positive markierten Fälle liegt unter 1 %
- In einem Fall war eine einzeilige Änderung an einem Produktionsservice ein Diff, das normalerweise schnell freigegeben worden wäre, doch Code Review markierte es als kritisch
- Die Änderung hätte einen Fehlermodus auslösen können, der die Authentifizierung des Dienstes beschädigt, ein Problem, das im Diff leicht zu übersehen ist, aber offensichtlich wird, sobald man darauf hingewiesen wird
- Der Fehler wurde vor dem Merge behoben, und der betreffende Ingenieur sagte, er hätte ihn allein nicht gefunden
- Im Open-Source-Middleware-Projekt von TrueNAS fand Code Review bei einem PR zum ZFS-Verschlüsselungs-Refactoring einen bestehenden Bug im angrenzenden Code
- Ein Typinkonsistenzproblem, das bei jeder Synchronisierung still den Cache der Verschlüsselungsschlüssel leert
- Das war ein Issue, das bereits in dem vom PR berührten Code verborgen lag und das ein menschlicher Reviewer, der nur das Change Set scannt, nicht sofort finden würde
Kosten und Steuerung
- Auf Tiefenanalyse optimiert und daher teurer als leichte Lösungen wie die Claude Code GitHub Action
- Abgerechnet wird nach Token-Verbrauch; je nach Größe und Komplexität des PRs im Durchschnitt 15–25 US-Dollar
- Optionen für Administratoren zur Kosten- und Nutzungssteuerung:
- Monatliches Organisationslimit: Festlegen der gesamten monatlichen Ausgaben über alle Reviews hinweg
- Repository-spezifische Steuerung: Reviews nur in ausgewählten Repositories aktivieren
- Analyse-Dashboard: Anzahl reviewter PRs, Akzeptanzrate und gesamte Review-Kosten verfolgen
Erste Schritte
- Verfügbar als Research Preview (Beta) für Team- und Enterprise-Pläne
- Administratoren aktivieren Code Review in den Claude-Code-Einstellungen, installieren die GitHub App und wählen anschließend die Repositories aus, in denen Reviews ausgeführt werden sollen
- Nach der Aktivierung wird für neue PRs automatisch ein Review ausgeführt, ohne dass Entwickler zusätzliche Konfigurationen vornehmen müssen
8 Kommentare
In letzter Zeit ist das Release-Tempo von Anthropic wirklich verrückt.
Während sie ihre Entwickler-Tools verbessern, scheint der Flywheel-Effekt inzwischen komplett zu greifen, bei dem sie damit auch ihre eigene Entwicklung beschleunigen.
Man spürt richtig diese Startup-Atmosphäre, in der jeden Tag irgendetwas Neues herausgehauen wird.
Das dürfte OpenAI enorm unter Druck setzen.
Man sieht, dass hier mit enorm viel Freude gearbeitet wird.
Wäre gut, wenn nur die Kosten niedriger wären.
Code mit Claude generieren und Code mit Claude reviewen …
Der persönliche Tarif wird wohl nicht unterstützt. Ob das später auch nicht kommt?
Sieht so aus, als hätten die rekursiven Verbesserungen begonnen.
Die Leute bei Claude sind doch wirklich unmenschlich schnell ... seufz
Claude: weil er ... kein Mensch ist;;;;