Blog-Qualität mit einer parallelen Review-Pipeline aus Gemini + Claude automatisch verifizieren

Ich habe die Blog-Prüfung fünf AIs überlassen – und sie haben tatsächlich Fehler gefunden.

Nach dem Schreiben war das eigene Überarbeiten immer der schwierigste Teil. Es hat jedes Mal viel Zeit gekostet, den von der AI erzeugten Entwurf Zeile für Zeile zu lesen und zu korrigieren.
Also habe ich eine Pipeline gebaut, in der AI direkt andere AI überprüft.

** Die Struktur habe ich bewusst einfach gehalten **

2x Gemini, 2x Claude, 1x aktuelle Session — insgesamt 5 Critics, gleichzeitig mit Bash & ausgeführt
Jede Instanz liest mit einer anderen Persona: "Senior-Entwickler mit frischem Blick", "jemand, der diese Technik schon benutzt hat", "Redakteur", "Leser, der es nachbauen will", "SEO-Verantwortlicher"
Die Bewertungen kommen als JSON zurück; liegt der Durchschnitt über 8 Punkten, wird bestanden, andernfalls werden die Rückmeldungen eingearbeitet und erneut bewertet

** Was tatsächlich gefunden wurde **
In der ersten Runde lag der Durchschnitt bei 7,6. Der "Leser, der es nachbauen will"-Critic vergab 3 Punkte mit der Begründung, dass Codebeispiele fehlen – ein Punkt, den ich beim eigenen Lesen wohl übersehen hätte. Nachdem ich drei Codeblöcke ergänzt und die stichpunktartige Fehlersuche in eine erzählerische Form umgeschrieben hatte, wurde die zweite Runde mit 8,4 bestanden.

** Beim Betrieb wurden strukturelle Schwächen sichtbar **
Wenn sich das Feedback der Critics widersprach, entschied das System selbst und ging ohne klare Entscheidung weiter. Wenn der Durchschnitt hoch genug war, konnten auch durchgefallene Einzelbewertungen mit durchrutschen. Und bei einem Parsing-Fehler stoppte der gesamte Ablauf.
Deshalb habe ich einen Synthesis-Vermittler ergänzt, Veto-Einstellungen und Durchfallbedingungen eingeführt und mit einem Fallback-Parser gegengesteuert.

** Am Ende habe ich die Veröffentlichung von Push auf PR umgestellt **
Als Human-In-The-Loop sollte selbst bei Einigkeit der AI immer noch ein Mensch mit draufschauen. Im PR-Body steht die Bewertungstabelle der Critics, und wenn ich Zeilenkommentare hinterlasse, fügt die AI einen Korrektur-Commit hinzu. Dieser Loop wiederholt sich bis zum Merge.

Ja, letztlich wurde auch dieser Text mit genau derselben Pipeline veröffentlicht.

Blog-Qualität mit einer parallelen Review-Pipeline aus Gemini + Claude automatisch verifizieren

Verwandte Beiträge

3 Kommentare