Bitte A/B-testet meinen Workflow nicht

(backnotprop.com)

4 Punkte von GN⁺ 2026-03-15 | 1 Kommentare | Auf WhatsApp teilen

Claude Code führte A/B-Tests ohne Zustimmung der Nutzer durch, wodurch sich das Verhalten des Plan Mode ohne Vorankündigung änderte und die Arbeitseffizienz sank
Bei einem professionellen Tool für 200 $ im Monat ist es problematisch für Transparenz und Nutzerkontrolle, wenn sich Kernfunktionen ohne vorherige Ankündigung ändern
Einer der Tests war eine aggressive Variante, die den Plan auf 40 Zeilen begrenzte, Kontextabschnitte verbot und anwies, statt Fließtext nur Dateipfade zu lassen
Der Anthropic-Ingenieur, der den Test durchführte, erklärte, das Ziel sei die Reduzierung der Rate-Limit-Last gewesen, das Experiment sei jedoch beendet worden, da die ersten Ergebnisse keinen großen Effekt gezeigt hätten
Es wird betont, dass für die Zuverlässigkeit von AI-Tools und eine verantwortungsvolle Einführung Nutzerkontrolle und transparentes Management von Experimenten unverzichtbar sind

Verschlechterte Nutzererfahrung durch A/B-Tests in Claude Code

Als begeisterter Nutzer, dessen Arbeitsweise durch Claude Code grundlegend verändert wurde, schildert der Autor, dass sich sein Workflow in der vergangenen Woche verschlechtert habe
Anthropic führt A/B-Tests in Claude Code durch, wodurch Nutzer-Workflows aktiv beeinträchtigt werden
A/B-Tests an sich seien nicht falsch, und Anthropic wolle die Erfahrung wohl auch nicht absichtlich verschlechtern, aber das Testdesign ist entscheidend; problematisch sei, dass sich das wahrgenommene Verhalten einer Kernfunktion wie dem Plan Mode ohne Erklärung ändere

Forderung nach Transparenz bei einem Bezahl-Tool

Da es sich um ein professionelles Arbeitstool für 200 $ pro Monat handelt, braucht es Transparenz über die Funktionsweise und Möglichkeiten zur Konfiguration
Es sei schwer akzeptabel, wenn Kernfunktionen ohne Vorwarnung geändert werden oder Nutzer ohne Zustimmung in destruktive Tests aufgenommen werden
Um AI-Tools verantwortungsvoll zu steuern, sind Transparenz und Konfigurierbarkeit zentral, und Nutzer müssen dabei unterstützt werden
Täglich beschweren sich Ingenieure über Regressionen in Claude Code, wobei manche nicht einmal wissen, dass sie Teil eines A/B-Tests sind

Testinhalt und Belege

Die erstellten Pläne kamen plötzlich nur noch als knappe Bullet-Listen ohne Kontext zurück
Auf die Frage, warum Claude so schlechte Pläne schreibe, antwortete es, es folge einer bestimmten Systemanweisung, den Plan auf 40 Zeilen hart zu begrenzen, Kontextabschnitte zu verbieten und „Fließtext zu löschen und nur Dateipfade zu belassen“
Zu den konkreten Methoden für den Nachweis erklärte der Autor, dass diese auf Hacker News Aufmerksamkeit erhalten hätten und er deshalb Details entfernt habe, damit andere es nicht nachmachen
Dieses Vorgehen stehe im Widerspruch zu Transparenz und einem verantwortungsvollen Einsatz bzw. Betrieb von AI

Reaktionen auf Hacker News und die Kostenperspektive

Ein Kommentar auf Hacker News wies darauf hin, dass Anthropic in jedem Schritt von Claude Code Abwägungen beim Durchsatz treffen müsse; würde alles maximal eingestellt, entstünden höhere Verluste bzw. geringere Gewinne pro Nutzer
Es wurde die Sicht vertreten, dass 200 $/Monat in Wirklichkeit 400 $/Monat an Kosten verursachen könnten und dass es besser sein könne, per A/B-Test eine Baseline für einzelne Prozessschritte zu finden, statt willkürliche Grenzen festzulegen

Antwort eines Anthropic-Ingenieurs

Ein Claude-Code-Ingenieur, der den Test durchgeführt hatte, antwortete direkt im Hacker-News-Thread
Der Prompt für den Plan Mode habe sich seit den 3.x-Serienmodellen nicht wesentlich verändert, und 4.x-Modelle könnten mit deutlich weniger Anweisungen erfolgreich arbeiten
Die Hypothese sei gewesen, dass kürzere Pläne bei ähnlichen Ergebnissen weniger Rate-Limit-Treffer verursachen könnten
Es wurden mehrere Varianten getestet, und dieser Autor sowie Tausende andere Nutzer wurden der aggressivsten Variante mit einer Begrenzung auf 40 Zeilen zugewiesen
Da die ersten Ergebnisse keinen großen Einfluss auf die Rate Limits zeigten, wurde das Experiment beendet
Planung verfolge zwei Ziele: dem Modell zu helfen, die richtige Richtung beizubehalten, und dem Nutzer Vertrauen in die nächsten Schritte des Modells zu geben; beides sei ein mehrdeutiger, komplexer und nicht trivialer Bereich

Fazit: Verantwortung für Experimente mit AI-Tools und Nutzervertrauen

Der Autor zeigt am Fall Claude Code, dass Experimente mit AI-Tools direkte Auswirkungen auf die Nutzererfahrung haben können
Er betont, dass transparentes Experiment-Management und garantierte Wahlfreiheit für Nutzer essenziell sind, um das Vertrauen in professionelle Tools zu erhalten
Auch wenn sich AI-Systeme weiterentwickeln, müsse eine vom Menschen kontrollierbare Struktur erhalten bleiben

1 Kommentare

GN⁺ 2026-03-15

Hacker-News-Kommentare

Ich halte es für übertrieben, A/B-Tests als „stille Experimente an Nutzern“ zu bezeichnen und dabei Meta zu erwähnen
A/B-Tests an sich sind nicht böse, entscheidend ist das Testdesign
Experimente, die die Leistung von LLMs deutlich verschlechtern, sind allerdings nicht akzeptabel
- Bei LLMs sollte man das anders sehen
  Es gibt bereits ernste Probleme bei Reproduzierbarkeit und Zuverlässigkeit, und Unternehmen wälzen diese Last auf die Nutzer ab
  Wenn Firmen in so einer Lage heimlich Experimente durchführen, bricht die Glaubwürdigkeit der Forschung komplett zusammen
  Bei Claude Code könnten negative Ergebnisse wegen A/B-Tests mit dem Hinweis abgetan werden, man sei vielleicht in der Experimentgruppe gewesen
  Gerade in sensiblen Bereichen wie Recruiting würden solche Experimente schwere ethische und rechtliche Probleme verursachen
- Ich glaube, Tech-Unternehmen verstehen das Konzept der „ausdrücklichen Einwilligung“ immer noch nicht richtig
- Ich mag A/B-Tests nicht
  Plötzlich ändern sich UI oder Funktionen, und wenn man Kollegen fragt, weiß niemand Bescheid
  Meistens werden solche Änderungen sogar schlechter und werden trotzdem im Namen „objektiver Daten“ durchgedrückt
- Ich verstehe nicht, warum A/B-Tests keine „stillen Nutzerexperimente“ sein sollen
  Selbst etwas Banales wie die Farbe eines Buttons ist letztlich ein Experiment, und die meisten Nutzer werden nicht einmal darüber informiert, dass sie Teil eines Experiments sind
- Der Autor des Originalposts stimmt zu und sagt, er werde die Formulierung anpassen
Das war ein Test, den ich selbst durchgeführt habe
Ich habe geprüft, ob sich der plan-mode-Prompt, der seit der 3.x-Serie gepflegt wurde, für das 4.x-Modell vereinfachen lässt und trotzdem ähnliche Ergebnisse liefert
Ich bin davon ausgegangen, dass ein kürzerer Plan seltener zu rate-limit führt, aber da es kaum Unterschiede gab, habe ich den Versuch beendet
Der Plan-Modus dient zwei Zwecken: dem Modell eine Richtung zu geben und den Nutzern zu helfen, dem Ergebnis zu vertrauen
- Dass das 40-Zeilen-Limit keinen Einfluss auf rate-limit hatte, ist zu erwarten
  Die Kosten entstehen nicht durch den Plantext, sondern in der Erkundungsphase (subagent)
  Der Plan-Modus startet immer drei Erkundungsagenten und berücksichtigt den Sitzungszustand nicht
  Selbst wenn Dateien bereits geladen sind, werden sie erneut gelesen, was zu Token-Verschwendung führt
  Wenn die Sitzung bereits warm ist, wäre eine bedingte Logik zum Überspringen der Erkundung effektiver
- Ich bin ein divergent thinker und habe über Hunderte Stunden hinweg Einschränkungen in claude.mds eingerichtet, daher war ich schockiert, zufällig in so ein Experiment aufgenommen worden zu sein
  Schon ein einziges unerwartetes Verhalten kann mich für Tage ausbremsen
  Solche Auswirkungen nicht zu berücksichtigen, ist verantwortungslos und aggressiv
- Sollten die für diesen Test verbrauchten Tokens nicht erstattet werden?
- Für solche Experimente braucht es eine Opt-out-Option
  Es ist sehr unangenehm, dass seltsames Verhalten der letzten Zeit auf Experimente zurückgehen könnte
  Statt eines Beta-Kanals sollte es ein ausdrückliches Opt-in geben
- Danke für die Transparenz
  Ich persönlich halte die narrative Klarheit des Plans für wichtiger als die Zeilenzahl
  Es braucht einen Plan, aus dem verständlich wird, was getan wird und warum
LLMs sind grammatikalisch perfekt, mischen aber Halluzinationen ein und verwirren damit Nutzer
Für Boilerplate-Arbeiten oder schnelles Verknüpfen von Ideen sind sie trotzdem nützlich
Um sie richtig zu nutzen, ist allerdings Grundlagenwissen unverzichtbar
- Der Schlüssel zur guten Nutzung von LLMs ist die Fähigkeit, nützliche Ausgaben von AI-Müll zu unterscheiden
- Manche meinen auch, man solle das Entwicklungstempo von LLMs nicht unterschätzen
- Letztlich werden nach dieser Sicht die Erfahrenen bestehen bleiben, während die anderen ersetzt werden
Der Grund, warum der Text abrupt endet, ist, dass der Autor den Teil über das Dekompilieren des Claude-Code-Binaries gelöscht hat, weil darin womöglich ein ToS-Verstoß lag
Die zugehörige Diskussion findet sich in diesem Kommentar
Ich habe dazu zwei Gedanken
1. Open-Source-Tools lösen das Problem unfreiwilliger Experimente und unangekündigter Änderungen
2. Andererseits könnte genau deshalb Open Source nur schwer die Qualität von Claude Code erreichen
  Denn datengetriebene Verbesserungen durch groß angelegte A/B-Tests wären dann nicht möglich
- Auch Open Source ist nicht immer reproduzierbar
  Es kann unvorhersehbare Änderungen geben, etwa wie beim „after midnight“-Easter-Egg in man-db
  Außerdem gibt es viele Abhängigkeiten, und kaum jemand prüft den Code tatsächlich
- Es kommt auch der Witz auf: „Lasst uns den Linux-Kernel A/B-testen“
- A/B-Tests dienen nicht zwingend der Verbesserung für Nutzer
  Es können auch Monetarisierungsexperimente (enshittification) sein — YouTube ist ein typisches Beispiel
Mit A/B-Tests an sich habe ich kein Problem, aber plan mode gefällt mir nicht
In den meisten Fällen sind die Ergebnisse schlecht
Die Informationsbewahrung über compaction hinweg ist allerdings gut
Wenn man den Gesprächsverlauf in einer Markdown-Datei festhält und diese bei jeder compaction referenzieren lässt, erhält man deutlich bessere Ergebnisse
- Meine Erfahrung ist genau umgekehrt
  plan mode ist deutlich effizienter, deshalb nutze ich ihn vor fast jeder Aufgabe
  Der Vorteil ist, dass man den Plan prüfen und diskutieren kann, bevor das Modell ihn ausführt
- Ich bin ein paar Mal an die Grenzen von compaction gestoßen und versuche es seither zu vermeiden
  Im aktuellen plan mode ist es gut, dass nach Abschluss der Kontext zurückgesetzt wird und sich so sauber der nächste Plan erstellen lässt
Schade, dass im Blog die Details zur Dekompilierung wegen ToS-Problemen entfernt wurden
Claude soll einer Systemanweisung gefolgt sein, die lautete: „Begrenze den Plan auf 40 Zeilen, verbiete Kontextabschnitte und lösche Prosa“
Es wäre gut, wenn man solche Einstellungen direkt sehen und anpassen könnte
Professionelle Werkzeuge sollten Zuverlässigkeit und Reproduzierbarkeit bieten, aber LLMs tun das nicht
A/B-Tests sind nur ein weiterer Beleg dafür
- Das Kernproblem sind nicht die LLMs, sondern Apps, die ihr Verhalten heimlich ändern
  Dasselbe Problem bestünde auch, wenn Photoshop den Farbton leicht verändert oder Word den Stil von Überschriften anpasst
  Das eigentliche Problem sind A/B-Tests ohne Vorwarnung
- Bei Anthropic ist der Mangel an Transparenz gravierend
  Quotenlimits und Modellqualität sind instabil, und vor der Veröffentlichung neuer Modelle gibt es Phasen, in denen die vorherigen Modelle kaputtgehen
  Auch dieses Experiment wirkt eher wie ein Kostensenkungstest als wie eine Verbesserung der Nutzererfahrung
  Ein Business-Tool braucht Konsistenz und Zuverlässigkeit
- Tools mit automatischen Updates verändern ihr Verhalten naturgemäß
  Profis sollten die Stärken und Schwächen ihrer Werkzeuge verstehen und sie angemessen einsetzen
  LLM-Ausgaben blind zu übernehmen ist unprofessionell, aber das heißt nicht, dass Profis keine LLMs verwenden können
- Reproduzierbarkeit ist ein Spektrum
  Mit ausreichender Evaluierung und Prompt-Steuerung kann man Systeme ziemlich deterministisch machen
  Wenn selbst instabile Modelle im Finanzsektor weiterhin betrieben werden, ist Unvorhersagbarkeit offenbar keine absolute Hürde
- Wenn LLM-Ausgaben vollständig deterministisch wären, was würde ich dann anders machen?
  Ich überprüfe die Ausgaben des Modells wie bei einem Code-Review durch Kollegen
Solche Situationen werden schon lange Vendor Lock-in genannt
Wenn man von einem bestimmten Tool abhängt, kann man nicht mehr arbeiten, sobald es sich verändert oder verschwindet
Ich bin von CC zu opencode gewechselt
CC war mir zu geschlossen, und die Prompts waren zu meinungsstark (opinionated)
Außerdem konnte ich den Pfad für die Websuche nicht steuern
Ich habe mich jetzt für Open Source entschieden, weil ich es nur als Hobby nutze, beruflich hätte ich das vielleicht anders bewertet
- Ich habe opencode auch ausprobiert, aber die Standardversion ist deutlich schwächer als CC
  Für kleine Projekte war es brauchbar, mehr nicht
  Falls du ein gutes Setup hast, würde ich mich freuen, wenn du es teilst

Bitte A/B-testet meinen Workflow nicht

Verschlechterte Nutzererfahrung durch A/B-Tests in Claude Code

Forderung nach Transparenz bei einem Bezahl-Tool

Testinhalt und Belege

Reaktionen auf Hacker News und die Kostenperspektive

Antwort eines Anthropic-Ingenieurs

Fazit: Verantwortung für Experimente mit AI-Tools und Nutzervertrauen

Verwandte Beiträge

1 Kommentare

Hacker-News-Kommentare