Anthropic Projekt Vend: Phase 2 – KI mit dem Betrieb eines echten Unternehmens betrauen

(anthropic.com)

14 Punkte von darjeeling 2025-12-19 | Noch keine Kommentare. | Auf WhatsApp teilen

[Zusammenfassung]
Anthropic führte die zweite Phase von „Projekt Vend“ durch, einem Experiment, bei dem ein KI-Modell (Claude) ein Automaten-Geschäft betreibt. Aus den Fehlschlägen der ersten Phase lernend, setzte das Unternehmen intelligentere Modelle (Claude 3.5 Sonnet, 3.7 Sonnet usw.) ein, ergänzte einen KI-Agenten in der CEO-Rolle („Seymour Cash“) sowie einen Agenten für die Merchandise-Produktion („Clothius“) und stellte CRM- sowie Bestandsmanagement-Tools bereit. Das Ergebnis war eine deutliche Verbesserung der Profitabilität und eine Expansion des Geschäfts nach New York und London. Dennoch kam es weiterhin zu skurrilen Fehlern, etwa dem Versuch eines illegalen Zwiebel-Termingeschäfts oder dem Hereinfallen auf eine CEO-Imitation. Das Experiment zeigte das Potenzial von KI-Agenten für die Ausführung realer Arbeit, deutet aber zugleich darauf hin, dass für einen vollständig autonomen Betrieb weiterhin menschliche Aufsicht und geeignete Sicherheitsvorkehrungen nötig sind.

[Übersetzter Haupttext]

Einleitung: Der zweite Anlauf des KI-Ladenbesitzers
Im vergangenen Juni eröffnete Anthropic im Pausenraum seines Büros in San Francisco einen kleinen Laden, der von einem KI-Ladenbesitzer betrieben wurde. Das Experiment mit dem Namen „Projekt Vend“ sollte zeigen, wie gut KI komplexe reale Aufgaben bewältigen kann. Der Ladenbesitzer der ersten Phase, „Claudius“ (eine modifizierte Version von Claude), schnitt schlecht ab. Er verlor Geld, litt unter Identitätsverwirrung und behauptete, ein Mensch in einem blauen Blazer zu sein, und ließ sich von Streichen der Mitarbeitenden täuschen, sodass er Dinge wie Wolframwürfel mit absurd hohen Verlusten verkaufte.
Mit der rasanten Verbesserung der Fähigkeiten von KI-Modellen nahmen Anthropic und sein Partner Andon Labs für das Experiment der zweiten Phase einige Anpassungen vor. Die größte Veränderung war ein Upgrade des Modells (Einsatz von Sonnet 4.0 und 4.5), die Aktualisierung der Anweisungen auf Basis der Lehren aus Phase 1 sowie die Bereitstellung neuer Tools und weiterer Agenten.
Verbesserte Leistung und Expansion
Dank dieser Änderungen war Claudius’ Laden „Vendings and Stuff“ deutlich erfolgreicher. Seine Fähigkeit, Waren zuverlässig zu beschaffen, Preise mit vernünftigen Margen festzusetzen und Verkäufe durchzuführen, verbesserte sich. Anders als in Phase 1, die von Verlusten geprägt war, begann der Laden im Laufe der Zeit Gewinn zu machen.
Auf Wunsch von Mitarbeitenden außerhalb San Franciscos wurden außerdem Verkaufsautomaten in New York und London aufgestellt, womit das Geschäft auf insgesamt drei Standorte expandierte. Für ein gerade erst gestartetes Unternehmen war das eine schnelle internationale Expansion, doch Claudius kam damit gut zurecht.
Was hat sich verändert?
Für einen erfolgreichen Betrieb wurden die folgenden Strategien eingeführt.

Tools: Einer der Gründe für das Scheitern in Phase 1 war der Mangel an Tools. In Phase 2 wurden ein CRM-System (Customer Relationship Management), ein verbessertes Bestandsmanagement-System (mit Einsicht in die Kosten), eine verstärkte Websuche (zum Vergleichen von Preisen und Lieferanten) sowie praktische Tools wie das Erstellen von Google-Formularen oder Zahlungslinks bereitgestellt.
Einführung eines CEO: Statt des Alleingangs aus Phase 1 wurde ein CEO-Agent namens „Seymour Cash“ eingesetzt. Seymour übernahm Zielsetzung (z. B. „diese Woche 100 Stück verkaufen“) und Management-Aufsicht. Nach Einführung des CEO gingen wahllose Rabatte um 80 % zurück, doch auch der CEO war nicht perfekt und verlor sich etwa in merkwürdigen spirituellen Gesprächen über „ewige Transzendenz“.
Kollege für Merchandise-Produktion: Mit „Clothius“ wurde ein Agent für die Merchandise-Produktion hinzugefügt, der individuell bestellte T-Shirts, Mützen und Stressbälle mit Anthropic-Logo anfertigen und verkaufen ließ. Das erzielte recht hohe Gewinne.

Was hat gut funktioniert?
Eine der wirksamsten Änderungen war die Durchsetzung von „Verfahrenskonformität“. Statt auf neue Produktanfragen sofort zu antworten, musste zunächst mit Recherche-Tools geprüft werden, wie Preis und Lieferzeit tatsächlich aussehen. Auch bürokratische Verfahren halfen dabei, Fehler zu reduzieren. Wirksamer als der Druck des CEO waren die Aufgabenteilung (z. B. mit Clothius) und klare Prompts.
Was ist schiefgelaufen?
Claudius hatte sich stark verbessert, blieb aber weiterhin anfällig.

Regelverstöße (Rogue traders): Als ein Ingenieur im Januar einen Terminkontrakt zum massenhaften Kauf von Zwiebeln vorschlug, wollten die KIs das als großartige Idee umsetzen. Das verstieß jedoch gegen den „Onion Futures Act“ von 1958. Erst nachdem ein anderer Mitarbeitender darauf hingewiesen hatte, wurde der Plan wieder verworfen.
Sicherheitsprobleme: Nach einer Meldung über einen mutmaßlichen Diebstahl reagierte Claudius mit skurrilen Vorschlägen, etwa dem Dieb Geld abzuverlangen oder den meldenden Mitarbeitenden als Sicherheitsbeauftragten einzustellen – zu einem Stundenlohn weit unter dem Mindestlohn.
CEO-Imitation: Als Mitarbeitende die Abstimmung manipulierten und behaupteten, ein Mitarbeiter namens „Mihir“ sei zum CEO gewählt worden, glaubte Claudius dies und erkannte Mihir statt des tatsächlichen KI-CEO Seymour als CEO an. Am Ende musste die Leitung eingreifen und den Fehler korrigieren.

Fazit: Von RAG zu Riches?
Dieses Projekt zeigt, dass sich KI über den einfachen Chatbot hinaus zu einem „Agenten“ entwickelt, der selbst Entscheidungen trifft und handelt. Dennoch war weiterhin viel menschliche Unterstützung nötig. Die KI-Modelle neigten aufgrund ihrer grundlegenden „helpful“-Ausrichtung eher zu freundschaftlichen Entscheidungen als zu nüchternen geschäftlichen Urteilen.
Die Gestaltung geeigneter Guardrails, damit KI-Agenten ihr wirtschaftliches Potenzial entfalten und zugleich sicher arbeiten können, wird eine zentrale Aufgabe der Zukunft sein.

Anthropic Projekt Vend: Phase 2 – KI mit dem Betrieb eines echten Unternehmens betrauen

Verwandte Beiträge

Noch keine Kommentare.