7 Punkte von neocode24 2026-03-22 | 3 Kommentare | Auf WhatsApp teilen

Ich habe die Blog-Prüfung fünf AIs überlassen – und sie haben tatsächlich Fehler gefunden.

Nach dem Schreiben war das eigene Überarbeiten immer der schwierigste Teil. Es hat jedes Mal viel Zeit gekostet, den von der AI erzeugten Entwurf Zeile für Zeile zu lesen und zu korrigieren.
Also habe ich eine Pipeline gebaut, in der AI direkt andere AI überprüft.

** Die Struktur habe ich bewusst einfach gehalten **

  • 2x Gemini, 2x Claude, 1x aktuelle Session — insgesamt 5 Critics, gleichzeitig mit Bash & ausgeführt
  • Jede Instanz liest mit einer anderen Persona: "Senior-Entwickler mit frischem Blick", "jemand, der diese Technik schon benutzt hat", "Redakteur", "Leser, der es nachbauen will", "SEO-Verantwortlicher"
  • Die Bewertungen kommen als JSON zurück; liegt der Durchschnitt über 8 Punkten, wird bestanden, andernfalls werden die Rückmeldungen eingearbeitet und erneut bewertet

** Was tatsächlich gefunden wurde **
In der ersten Runde lag der Durchschnitt bei 7,6. Der "Leser, der es nachbauen will"-Critic vergab 3 Punkte mit der Begründung, dass Codebeispiele fehlen – ein Punkt, den ich beim eigenen Lesen wohl übersehen hätte. Nachdem ich drei Codeblöcke ergänzt und die stichpunktartige Fehlersuche in eine erzählerische Form umgeschrieben hatte, wurde die zweite Runde mit 8,4 bestanden.

** Beim Betrieb wurden strukturelle Schwächen sichtbar **
Wenn sich das Feedback der Critics widersprach, entschied das System selbst und ging ohne klare Entscheidung weiter. Wenn der Durchschnitt hoch genug war, konnten auch durchgefallene Einzelbewertungen mit durchrutschen. Und bei einem Parsing-Fehler stoppte der gesamte Ablauf.
Deshalb habe ich einen Synthesis-Vermittler ergänzt, Veto-Einstellungen und Durchfallbedingungen eingeführt und mit einem Fallback-Parser gegengesteuert.

** Am Ende habe ich die Veröffentlichung von Push auf PR umgestellt **
Als Human-In-The-Loop sollte selbst bei Einigkeit der AI immer noch ein Mensch mit draufschauen. Im PR-Body steht die Bewertungstabelle der Critics, und wenn ich Zeilenkommentare hinterlasse, fügt die AI einen Korrektur-Commit hinzu. Dieser Loop wiederholt sich bis zum Merge.

Ja, letztlich wurde auch dieser Text mit genau derselben Pipeline veröffentlicht.

3 Kommentare

 
ide127 2026-03-23

Die Theorie des toten Internets...

 
goooods 2026-03-23

Die Kosten pro Stück dürften ziemlich hoch sein.

 
neocode24 2026-03-23

Ein Abonnement ist zwar keine große Belastung, aber man kann es wohl nicht ignorieren.