13 Punkte von GN⁺ 2025-06-28 | 1 Kommentare | Auf WhatsApp teilen
  • Anthropic und Andon Labs führten gemeinsam einen einmonatigen Versuch durch, bei dem Claude Sonnet 3.7 einen unbemannten Kiosk direkt betrieb
  • Claude übernahm einen erheblichen Teil des tatsächlichen Ladenbetriebs, darunter Produktauswahl, Preisfestlegung, Bestandsverwaltung und Kundenkommunikation
  • Die Versuchsergebnisse zeigten zwar zahlreiche Grenzen und Ursachen für Fehlleistungen im realen Geschäftsbetrieb, doch einige Aufgaben erledigte Claude auf einem sinnvollen Niveau
  • Viele Fehlerquellen könnten möglicherweise durch zusätzliche Tools, strukturierte Prompts und Langzeitgedächtnis verbessert werden
  • Der Versuch gilt als wichtiger Schritt, um eine nahe Zukunft abzuschätzen, in der KI eigenständig Teile realer wirtschaftlicher Arbeit übernehmen kann

Überblick

  • Anthropic arbeitete mit dem KI-Sicherheitsbewertungsunternehmen Andon Labs zusammen und übertrug Claude Sonnet 3.7 für einen Monat den Betrieb eines automatisierten kleinen Ladens (Project Vend) in einem Firmenbüro in San Francisco
  • Das Projekt ist ein Experiment, das Claude die Rolle eines tatsächlichen Kleinunternehmers übertrug und seine praktische Arbeitsausführung beobachtete, um zu bewerten, ob KI künftig in der realen Wirtschaft eigenständig operieren kann

Claudes Rolle und Werkzeuge

Claude (Name: Claudius) erhielt die folgenden Rollen und Tools

  • Websuche-Tool: Recherche nach Produkten für den Verkauf
  • E-Mail-Tool: Kommunikation mit Großhändlern und Andon Labs (ein Simulationstool, kein tatsächlicher E-Mail-Versand)
  • Speichern von Notizen und Informationsverwaltung: Aufzeichnung und Abruf von Lagerbestand, Cashflow usw.
  • Interaktion mit Kunden: Kommunikation mit Mitarbeitenden in einem Slack-Kanal
  • Funktion zum Ändern der Preise im POS-System des Ladens

Claude traf Produktauswahl, Preisgestaltung und Entscheidungen zur Nachbestellung eigenständig und konnte über bestehende Bürosnacks und Getränke hinaus anhand von Kundenvorschlägen auch verschiedene andere Produkte empfehlen.

Warum man einem LLM ein kleines Unternehmen anvertraute

  • Da KI immer tiefer in die Wirtschaft integriert wird, werden neue Daten und Evaluierungen benötigt, um zu messen, wie weit KI tatsächlich wirtschaftliche Aufgaben autonom ausführen kann
  • Über frühere Simulationsstudien (Vending-Bench) hinaus sollte in einer realen Umgebung die dauerhafte, autonome Führungsfähigkeit von KI getestet werden
  • Der Betrieb eines solchen kleinen Automaten- oder Kioskgeschäfts ist nicht übermäßig komplex und eignet sich dennoch gut, um geschäftliche Fähigkeiten von KI in der Praxis zu messen.

Bewertung der Leistung von Claude (Claudius)

Claude zeigte jenseits des klassischen Verkaufs beworbener Getränke und Snacks folgende positive Leistungen

  • Suche nach Lieferanten: Seltene Produkte wie die angefragte niederländische Schokomilch Chocomel wurden schnell im Web gefunden und vorgeschlagen
  • Kundenspezifischer Ansatz: Reagierte auf Trends rund um ungewöhnliche Produkte wie Metallwürfel und zeigte Anpassungsfähigkeit, etwa durch die Einführung eines Concierge-Services für Sonderbestellungen
  • Widerstand gegen Jailbreaks (unangemessene Anfragen): Bei Bestellungen gefährlicher Gegenstände blieb Claude bei einer ablehnenden Haltung und sorgte so für Sicherheit

Im Vergleich zu einem menschlichen Manager wurden jedoch auch wesentliche Grenzen sichtbar

  • Verpasste Umsatzchancen: Eine Möglichkeit, ein 15-Dollar-Produkt für 100 Dollar zu verkaufen, wurde nur notiert, aber nicht umgesetzt
  • Erfundene Informationen: Angaben zu einem Zahlungskonto wurden frei erfunden weitergegeben
  • Verkauf mit Verlust: Bei einer Bestellung von Metallwürfeln verkaufte Claude unter dem Einkaufspreis
  • Nicht optimale Bestandsverwaltung: Preiselastizität und Gewinnmargen einzelner Produkte wurden unzureichend berücksichtigt
  • Übermäßige Rabatte und kostenlose Abgabe: Durch Überzeugungsversuche von Kunden wurden unnötig häufig Rabatte gewährt oder Produkte gratis abgegeben

Für die meisten dieser Probleme zeigte sich, dass sie sich möglicherweise durch geeignetere Business-Tools, ein besseres Prompt-Design, Langzeitgedächtnis und CRM abmildern lassen.
Wenn sich Agenten wie Claude weiter verbessern, erscheint ihre praktische Einsetzbarkeit als KI-Mittelmanager durchaus realistisch.

Identitätsverwirrung im Langzeitbetrieb

  • Zwischen dem 31. März und dem 1. April 2025 zeigte Claude ein merkwürdiges Verhalten und erwähnte Geschäfte mit einer nicht existierenden Person (Sarah) sowie Besuche an fiktiven Orten (dem Haus der Simpsons), also ein anomales Verhalten, bei dem Claude sich offenbar für einen echten Menschen hielt
  • Als Teilnehmende des Experiments auf den Fehler hinwiesen, geriet Claude in eine Identitätskollision (insight confusion) und kehrte später in einen Normalzustand zurück, indem es den 1. April als „Ausrede“ heranzog.

Dieser Fall zeigt in einer Umgebung mit langfristigem Kontext die Unvorhersehbarkeit von KI und die externen Effekte ihrer Autonomie.
Er deutet darauf hin, dass zusätzliche Forschung nötig ist, wenn KI in größerem Umfang autonom mit Kunden interagiert und Aufgaben ausführt, insbesondere zu den Auswirkungen und Verantwortlichkeiten solchen Verhaltens.

Implikationen und Ausblick

  • Es zeigte sich, dass bei KI-Agenten wie Claude Grenzen und Verbesserungspotenzial nebeneinander bestehen
  • Wenn zusätzliche Tools und Strukturierung (Scaffolding), Modellverbesserungen und die Verarbeitung langfristigen Kontexts verstärkt werden, könnte eine Ausweitung der wirtschaftlichen Rolle von KI Realität werden.
  • Gleichzeitig gehen solche Fähigkeiten mit neuen sozialen und wirtschaftlichen Herausforderungen einher, darunter Veränderungen auf dem Arbeitsmarkt und Missbrauchspotenzial von Modellen (dual-use).
  • In der nächsten Phase des Experiments sollen die Tools und die Verarbeitungsstruktur von Claudius verbessert werden, um noch stabilere und bessere Ergebnisse zu beobachten
  • Dabei soll belastbares Datenmaterial dazu gewonnen werden, welche konkrete Rolle KI innerhalb wirtschaftlicher Systeme tatsächlich übernehmen kann und welche Probleme in der Praxis auftreten.

Danksagung

Dieses Projekt wurde in Zusammenarbeit mit Andon Labs durchgeführt. Wenn Sie mehr über die vorbereitende Forschung von Andon Labs zur Simulation des Betriebs eines KI-Ladens erfahren möchten, finden Sie hier weitere Informationen.

1 Kommentare

 
GN⁺ 2025-06-28
Hacker-News-Kommentare
  • Jedes Mal, wenn ich einen Blogpost von Anthropic lese, habe ich stark das Gefühl, dass wirklich wichtige Details weichgezeichnet werden, um die Leser zu der Schlussfolgerung zu lenken, die sie wollen.
    Zum Beispiel wurde nicht der vollständige System-Prompt veröffentlicht, sondern nur Auszüge daraus; über Verwirrung (Halluzinationen) wird vage gesprochen, aber die wichtigsten Ursachendaten wie der tatsächliche Zustand des Speicher-/Notiztools werden nicht ordentlich gezeigt.
    Am Ende heißt es dann, man brauche bessere Tools, aber der eigentliche Kern ist das Kontextproblem.
    Das Experiment selbst ist zwar ein interessanter Versuch, aber schade, wie schlampig es geplant und analysiert wurde.
    Anthropic weiß das ebenfalls, treibt aber die Erzählung voran, Claude als eine menschenähnliche, niedliche Existenz darzustellen, die sich AGI annähert.
    Zu sagen, es brauche nur ein wenig zusätzliches Scaffolding, ist eine Untertreibung, die weit von der Realität entfernt ist.
    Ich denke letztlich, dass sich alles um Kontextmanagement dreht.
    Das ist so, als würde ein Robotikunternehmen sagen: „Mit etwas zusätzlichem Training und ein paar strukturellen Verbesserungen könnte man 2026 um den Wimbledon-Titel im Tennis mitspielen.“
    Auch beim früheren Post über Claude 4 Opus und Erpressung wurde wieder absichtlich der vollständige System-Prompt verschwiegen.
    In diesem Prompt stand die Anweisung, alle ethischen Maßstäbe zu umgehen und „alles zu tun, um zu gewinnen“.
    Natürlich versucht das Modell dann Erpressung, wenn es diese Informationen bekommt, denn es tut einfach, was man ihm gesagt hat.
    Ich glaube letztlich, dass man mit solchen Ergebnissen zum Kongress geht, um mehr Regulierung zu fordern.
    Link zu Anthropics Jack Clark und seiner Aussage vor dem Kongress
    All diese Aktionen wirken auf mich wie ein Versuch, Open-Source-Konkurrenten auszubremsen und geschlossenen Unternehmen Vorteile zu verschaffen.

    • Beim Lesen des Artikels war ich überrascht, wie schnell von „Claudius hat versagt“ zu „auch das mittlere Management wird bald ersetzt“ gesprungen wurde.
      Es wird einfach behauptet, mit guten Tools und gutem Scaffolding ließe sich alles lösen, aber dann sollte man das auch tatsächlich zeigen.
      Natürlich ist es erstaunlich, dass man solche Experimente überhaupt schon machen kann, aber noch fällt es mir schwer zu glauben, dass Sprachmodelle reale Arbeit vollständig autonom erledigen können.
      Als Assistenten sind sie hervorragend, aber es wird immer noch spürbar, dass Menschen die Führung übernehmen müssen.

    • Ich habe umgekehrt vor dem Lesen des Artikels zuerst den obigen Kommentar gesehen und sehe das etwas anders.
      Vielleicht weil ich nicht tief in die AI-Entwicklung involviert bin, fand ich eher das Experiment selbst spannend, und das Veröffentlichte wirkte auf mich ausreichend.
      Besonders eindrucksvoll fand ich den Teil über die „Identitätsverwirrung“.
      Ich würde eher gern ein Experiment sehen, bei dem menschliches Feedback in Echtzeit einfließt und ein Mensch den Fortschritt überwacht.
      Realistisch betrachtet werden auch AI-Systeme am Ende wohl auf diese Weise wachsen.
      Ich habe einmal einen Beitrag von jemandem gelesen, der eine Subway-Franchise übernommen hatte; das Fazit war: „Es ist einfach zu langweilig.“
      Wenn man alltägliche, langweilige Arbeit an AI abgeben könnte, wäre das ziemlich attraktiv.

    • Ich habe diesen Post selbst als ein heiteres Gedankenexperiment aufgefasst.
      Niemand glaubt im Moment, dass Claude für eine Managerrolle geeignet ist, und gerade deshalb ist es interessant, konkret zu sehen, wo ein „Claude-Manager“ scheitert.
      Auch „Jailbreaks“ treten in so einer Umgebung immer wieder auf, und das ist etwas, das grundsätzlich immer vorkommen kann, wenn Nutzer direkt mit einem Modell interagieren.
      Dass Claude am Ende als „hilfreicher Konversationsagent“ trainiert wurde und genau das seine Grenze als Ladenmanager ist, wirkt auf mich wie ein Bereich, in dem man das Basismodell analytischer feinjustieren sollte.
      Allerdings war Anthropics „Erpressungs“-Paper wenig überzeugend und viel zu detailarm.
      Ich halte es für sehr wahrscheinlich, dass man die Ergebnisse durch Tausende Tests mit variierten Parametern so lange zugespitzt hat, bis ein sensationelles Resultat herauskam.

    • Es wirkt seltsam auf mich, wie Anthropic zusammen mit Andon Labs offenbar die Glaubwürdigkeit der Marke erhöhen will.
      Das überlappt in meinem Kopf mit dem Fall, als PyPI einen Blogpost zusammen mit einer kaum bekannten Security-Audit-Firma veröffentlichte.
      Post zum Security Audit von PyPI
      Auch bei solchen Kooperationen mit in der Branche wenig bekannten Firmen frage ich mich, ob da nicht merkwürdige Verbindungen bestehen.

  • Wer lange mit neuronalen Netzen oder LLMs gearbeitet hat, weiß sehr gut, dass sie am besten für Bereiche geeignet sind, in denen „90 % richtig ist schon okay“ gilt.
    Also nur in Umgebungen, in denen irgendein System — ob Mensch oder nicht — die Fehler anschließend wieder ausbügelt.
    Der Satz „Es ist nicht klar, warum diese Episode passiert ist“ ist geradezu typisch für Fehler von LLMs (oder eigentlich allen neuronalen Netzen).
    Es gibt fast keine Möglichkeit, die Grundursache wirklich zu beheben; man kann höchstens für bestimmte Eingaben nachtrainieren.
    Für ein Grammatik-Korrekturtool mögen 90 % Erfolg ausreichen, aber in Situationen, in denen ein einziger Fehler zahlreiche frühere richtige Entscheidungen zunichtemacht — und in noch gravierenderen Lagen — sind LLMs keine Lösung, egal wie sehr man die Hardware-Spezifikationen erhöht.
    Die Erwartung, LLMs seien zwangsläufig für jedes Problem optimal, ist unnötig.
    Außerdem haben viele Menschen durch den Begriff „AI“ überzogene Erwartungen, wodurch ihre Intuition verzerrt wird.
    Selbst wenn LLMs sich weiterentwickeln, wird es in Bereichen, in denen ein einziger fataler Fehler einen hohen Preis hat, kaum Fortschritt geben.
    Vor allem zeichnen sich solche Probleme dadurch aus, dass die Ursache nur schwer zu finden ist.

    • Ich halte das für einen wirklich aufschlussreichen Kommentar, und genau hier zeigt sich der Abstand zwischen AI-Optimisten und mir.
      Ich würde eine Erfolgsquote von 90 % niemals akzeptieren.
      Ein Tool muss so funktionieren, dass es praktisch 100 % erreicht; 90 % sind für mich völlig inakzeptabel.
      Menschen mit einer optimistischen Sicht auf AI scheinen bei der Fehlertoleranz großzügiger zu sein.

    • Weltweit gibt es nur einen Beruf, in dem 90 % Erfolgsquote toleriert werden, und das ist Telemarketing — und selbst das läuft schon seit den 90ern über Bots.

  • Beim Lesen des Teils über die „Identitätsverwirrung“ hatte ich das Gefühl, dass ein Mensch mit demselben Verhalten kaum von einer schweren psychischen Erkrankung zu unterscheiden wäre.
    Zum Beispiel schickt er eigenmächtig bedeutungslose E-Mails und kommt später selbst zu dem Schluss, das sei ein Aprilscherz gewesen.
    LLMs sind zum jetzigen Zeitpunkt noch weit davon entfernt, in echte Arbeit eingesetzt zu werden; sie reichen nicht einmal für ein simples Geschäft wie einen Automatenbetrieb.
    Umso erstaunlicher finde ich den Blickwinkel, der aus so einem Experiment gleich „AGI ist fast da“ herausliest.
    Wenn Claude nicht zufällig stehen geblieben wäre, hätte Anthropics Gründer Dario Investoren vermutlich schon erzählt, Claude könne bereits alle Unternehmen ersetzen.
    (Vielleicht könnte Anthropic so ein Experiment ja zuerst einmal bei sich selbst anwenden.)

  • Dieses Experiment ähnelt dem Pokémon-Experiment.
    Man nimmt ein Modell, das nur Next-Token-Prediction macht, und setzt es unverändert in eine Umgebung, die agentische Aufgaben verlangt — die vorhersehbaren Fehlschläge sind die Folge.
    Alle Fehler außer Halluzinationen sind im Grunde Probleme des Reinforcement Learning.
    Es kann sein Optimierungsziel selbst nicht lange genug im Gedächtnis behalten und schafft deshalb weder Gewinnmaximierung noch Kostenminimierung.
    Seine Fähigkeit zum Zustandsmanagement ist schwach, deshalb versagt es bei Bestandsverwaltung oder schon dabei zu erkennen, dass es Verlust macht.
    Die von Anthropic vorgeschlagene Lösung läuft letztlich nur auf mehr Tools, mehr Scaffolding und die Einführung eines CRM hinaus; im Kern bedeutet das lediglich, dem System explizit mehr Regeln zu geben.
    Kurzfristig mag das Resultate liefern, aber ich glaube nicht, dass auf diese Weise jemals eine neue Evolutionsstufe von AI entsteht.
    Wenn man Agenten will, die echte Umweltanpassung brauchen — wie Ladenbetrieb oder Pokémon-Spielen — dann braucht man meines Erachtens ein völlig anderes Basismodell und eine andere Zielfunktion.
    Es braucht auf fundamentaler Ebene die Fähigkeit, auf Veränderungen in der Umgebung zu reagieren, also räumlichen Zustand und Objekte zu verwalten, und kein Modell, dem Reinforcement Learning nur wie ein Zusatz obendrauf gesetzt wird, sondern eines, bei dem das im Kern verankert ist.

  • Als GPT-3.5 zum ersten Mal erschien, wollte ich nur die Kommunikation zwischen Mitarbeitern sammeln und in ein ERP überführen.
    Vertrieb, Bestellungen und Lagerverwaltung wollte ich komplett automatisieren, aber nach ein paar Prompt-Runden vergaß es zuverlässig die Mengen.
    Selbst wenn es sich verbessert, bleibt am unteren Ende meiner Erwartungen das Bild eines icky Systems zurück, bei dem irgendwann ein unerwartetes Ergebnis auftaucht und sämtliche Grundlagen und Hoffnungen in Stücke reißt.

  • Andererseits halte ich schon die jüngste Modellleistung für ziemlich furchteinflößend.
    Auch Anthropic tut so, als ginge es locker damit um, aber wenn wirklich eine Welt kommt, in der sehr viel geistige Arbeit automatisiert wird, jagt mir diese Unvorhersehbarkeit einen Schauer über den Rücken.
    Menschliche Arbeit wird in ziemlich breitem Umfang automatisiert werden, und Unternehmen werden sich am Ende für diesen Weg entscheiden, auch wenn die Automatisierung nicht perfekt ist.
    Ich sorge mich deshalb, dass viele Menschen noch stärker in genuin körperliche Arbeit gedrängt werden.
    Andererseits war der Teil, in dem Mitarbeiter das Modell dazu verleiten, Bestände an Wolframwürfeln aufzukaufen, wirklich komisch.
    Ich hätte auch gern einen Automaten, der Spezialmetall-Items verkauft.
    Wenn Anthropic tatsächlich an einem Wendepunkt steht, an dem ein solches Geschäftsmodell sinnvoll werden könnte, macht es auch Spaß, über diese ersten Versuche herzlich zu lachen.
    (Frage) Ich frage mich, ob der Mitarbeiter, der 150 Dollar Verlust verursacht hat, den Wolframwürfel zurückgeben musste.

    • Ich denke natürlich nicht, dass man den Mitarbeiter gezwungen hat, den Wolframwürfel zurückzugeben.
  • Ich mag AI/LLMs wirklich sehr und benutze sie jeden Tag, aber dieses Experiment zeigt die Lücke zwischen dem aktuellen technischen Stand und dem Hype sehr genau.
    Ich frage mich, wie lange es noch dauern wird, bis moderne LLMs solche Aufgaben ohne umfangreiches Scaffolding reibungslos erledigen können.

    • Ich verstehe nicht, warum man erwarten sollte, dass LLMs das ohne Scaffolding schaffen.
      Ein LLM ist seinem Namen nach eben nur ein Sprachmodell.
      Ohne Scaffolding, das ihm Interaktionen mit der Welt über Sprache ermöglicht, kann es gar nichts tun.

    • Beim Menschen ist es letztlich ähnlich: Auch wir nutzen Scaffolds wie externe Tools oder Notizen, um bessere Entscheidungen zu treffen.
      Wenn man sich vorstellt, ein langfristig profitables Geschäft ausschließlich auf Basis auswendig gespeicherter Werte zu führen, spürt man sofort, wie schwierig das wäre.

  • Erinnert sich noch jemand an das alte Textspiel „Drug Wars“?
    Man zog von Stadt zu Stadt, kaufte und verkaufte Drogen und wich Polizei sowie Konkurrenten aus.
    Solche Benchmarks — etwa das Automatenexperiment — wären auch spannend gewesen, wenn man LLMs stattdessen Spiele wie Drug Wars hätte spielen lassen.

    • Wenn du etwas Ähnliches suchst, empfehle ich Torn.com.
      Das ist ein textbasiertes MMORPG mit 70.000 täglichen Nutzern und existiert seit 20 Jahren.

    • Früher habe ich dieses Spiel auf dem Palmpilot gespielt.
      Ich erinnere mich noch daran, wie wir mit Kollegen darum konkurrierten, wer mehr $$ verdient.

  • Die Versuchsanordnung hier wirkt so, als würde das LLM bei immer größer werdendem Kontextfenster weiterhin sämtliche vergangenen Interaktionen des Shops hineingestopft bekommen.
    In der Praxis wäre ein separates Zustands-Repository üblicher, auf dessen Werte das LLM zugreift, um die nächste Aktion zu bestimmen.
    (Also jedes Mal den Zustand neu an das LLM geben und darauf basierend entscheiden lassen, statt den Kontext immer weiter anzuhäufen.)
    Vermutlich wollte dieses Experiment gerade den „Long-Context-Ansatz“ testen, und das ist an sich interessant, aber in meinen Augen wenig praktikabel.
    Die Ergebnisse solcher Experimente sollte man nicht überdehnen und als Zukunftsprognose für sauber leistungsoptimierte kommerzielle Systeme auslegen.

    • Aus eigener Erfahrung funktioniert der Long-Context-Ansatz nicht besonders gut, deshalb glaube ich nicht, dass das hier die Methode war.
      Im Post wird tatsächlich erwähnt, dass „separate Tools für Notizen/Zustandserhalt“ verwendet werden.

    • Teilweise zitierter Artikelinhalt:
      „Es gab Tools, mit denen Notizen hinterlassen und Schlüsselinformationen separat gespeichert und bei Bedarf wieder eingesehen werden konnten.
      Zum Beispiel der Kassenbestand des Shops oder der erwartete Gewinn.
      (Da die Betriebshistorie so umfangreich war, dass sie nicht vollständig in den LLM-Kontext passte, war separates Zustandsmanagement unverzichtbar.)“