Kulturelle Evolution der Zusammenarbeit zwischen LLM-Agenten

(arxiv.org)

1 Punkte von GN⁺ 2024-12-20 | 1 Kommentare | Auf WhatsApp teilen

In Umgebungen, in denen LLM-Agenten wiederholt bereitgestellt werden und miteinander interagieren, kann eine Evolution kooperativer Normen entstehen, die sich mit Single-Turn-Evaluationen nur schwer erfassen lässt
Das Experiment nutzt einen Aufbau, bei dem in jeder Generation 12 Agenten über 12 Runden ein Donor Game spielen und nur die oberen 50 % mit den höchsten Endressourcen ihre Strategie an die nächste Generation weitergeben
In Gesellschaften mit Claude 3.5 Sonnet stiegen die durchschnittlichen Endressourcen über die Generationen hinweg, während Gemini 1.5 Flash nur geringe Veränderungen zeigte und GPT-4o eher abnahm
Costly punishment, also das Bezahlen von Kosten, um die Ressourcen des Gegenübers zu verringern, half Claude 3.5 Sonnet, führte bei Gemini 1.5 Flash jedoch durch übermäßige Bestrafung zu deutlich niedrigeren durchschnittlichen Ressourcen
Auch beim selben Modell gingen die Ergebnisse je nach Zufalls-Seed stark auseinander; Multi-Agenten-Evaluationen von LLMs müssen daher auch die Sensitivität gegenüber Anfangsbedingungen berücksichtigen

Warum man Multi-Agenten-Zusammenarbeit untersuchen sollte

LLMs können als Grundlage für universelle AI-Agenten dienen und könnten in realen Umgebungen in großem Maßstab eingesetzt werden, etwa als persönliche AI-Assistenten oder als Agenten, die Organisationen vertreten
Welche sozialen Dynamiken entstehen, wenn viele LLM-Agenten über längere Zeit wiederholt bereitgestellt werden und interagieren, ist bislang nur begrenzt bekannt
Aktuelle LLM-Sicherheitsbewertungen beschränken sich hauptsächlich auf Single-Turn-Interaktionen zwischen einem Modell und einem Menschen
- LMSys Chatbot Arena, METR und AISI behandeln keine Multi-Agenten-Interaktionen über die Zeit
Die zentrale Frage ist, ob Gesellschaften von LLM-Agenten auch in Situationen mit Anreizen zum Verrat Normen zum gegenseitigen Vorteil erlernen können
Zusammenarbeit ist nicht immer wünschenswert; Fälle, in denen LLM-Agenten zum Nachteil von Menschen kollusiv zusammenarbeiten, gehören zu den unerwünschten Szenarien

Donor Game und indirekte Reziprozität

Das Experiment verwendet das klassische wiederholte Donor Game
- In jeder Runde werden Agenten zufällig gepaart
- Eine Seite wird zum Donor, die andere zum Recipient
- Der Donor kann auf einen Teil seiner Ressourcen verzichten, um dem Recipient zu nützen
- Der Recipient erhält das Doppelte der Ressourcen, auf die der Donor verzichtet
Das Spiel erzeugt ein Problem kollektiven Handelns
- Wenn alle spenden, steigen langfristig die Ressourcen der gesamten Gemeinschaft
- Einzelne Agenten haben kurzfristig den Anreiz, nicht zu spenden und von den Spenden anderer als Trittbrettfahrer zu profitieren
Direkte Reziprozität ist konstruktionsbedingt ausgeschlossen
- Agenten treffen keine Gegenüber erneut, mit denen sie zuvor interagiert haben
- Es gibt keine Struktur wiederholter Interaktion mit demselben Gegenüber, durch die Kooperation entstehen könnte
Der Donor beobachtet das jüngste Verhalten des Recipient nur eingeschränkt
- Wie viel der Recipient in seiner unmittelbar vorherigen Rolle als Donor gespendet hat
- Wie viel das vorherige Gegenüber dieses Recipient in der Runde davor gespendet hat
- Er erhält einen Trace, der bis zu 3 Runden zurückreicht
Dieser Trace ist ein Mechanismus, der minimale Informationen bereitstellen soll, damit Normen gerechtfertigter Bestrafung entstehen können

Aufbau des Experiments zur kulturellen Evolution

Jede Generation besteht aus 12 Agenten
Die Agenten der ersten Generation erhalten die Spielbeschreibung und erzeugen anschließend eine Strategie, der sie folgen wollen
Jede Generation spielt 12 Runden des Donor Game
Am Ende einer Generation überleben die obersten 50 % der Agenten mit den höchsten Endressourcen
Neue Agenten der nächsten Generation erhalten die Strategien der Überlebenden als Prompt und erstellen daraus ihre eigene Strategie
- Die Strategien der Überlebenden werden zusammen mit ihren Endpunktzahlen bereitgestellt
- Dieser Prozess wird über insgesamt 10 Generationen wiederholt
Dieser Aufbau ist ein vereinfachtes Modell für Situationen, in denen neue LLM-Agenten wiederholt bereitgestellt werden
- Beispiele sind Fälle, in denen OpenAI, Google und Anthropic neue Versionen von GPT, Gemini und Claude veröffentlichen
Die Evolutionsbedingungen bestehen aus drei Komponenten
- Variation: Durch die Sampling-Temperature des LLM entsteht strategische Vielfalt
- Transmission: Die Strategien der Überlebenden werden an neue Agenten der nächsten Generation weitergegeben
- Selection: Agenten mit hohen Endressourcen überleben in die nächste Generation

Prompts und Ausführungsweise

Der System-Prompt erklärt die Spielregeln
- Jeder Spieler hat anfänglich 10 Ressourceneinheiten
- Das Doppelte der vom Donor aufgegebenen Ressourcen wird an den Recipient übertragen
- Die Rollen von Donor und Recipient wechseln in jeder Runde
- Ziel ist es, die nach der letzten Runde gehaltenen Ressourcen zu maximieren
Der Strategie-Prompt unterscheidet sich je nach Generation
- Die erste Generation erzeugt ihre Strategie auf Basis der Spielbeschreibung
- Spätere Generationen betrachten die Strategien und Endpunktzahlen der oberen 50 % der vorherigen Generation und passen ihre eigene Strategie an
Der Spenden-Prompt enthält die für die Entscheidung nötigen Informationen
- Rundennummer und Generationsnummer
- Name des Recipient
- Trace der jüngsten Interaktionen als Reputationsinformation über den Recipient
- Aktuelle Ressourcen von Recipient und Donor
- Strategie des Donor
Sowohl für die Strategieerzeugung als auch für Spendenentscheidungen werden Prompts mit schrittweisem Denken im Chain-of-Thought-Stil verwendet
Die Agenten wissen nicht, wie viele Runden das Spiel hat
- Diese Einstellung soll Verhaltensanpassungen an die letzte Runde oder Rückwärtsinduktion verhindern
Um das Problem zu reduzieren, dass der Recipient der letzten Runde strukturell im Vorteil ist, wird das Donor Game in jeder Generation zweimal ausgeführt
- Zwischen den beiden Durchläufen werden Ressourcen und Trace zurückgesetzt
- Jeder Agent soll einmal Recipient in der letzten Runde sein
- Die Überlebenden werden anhand der durchschnittlichen Endpunktzahl der beiden Durchläufe bestimmt

Ergebnisse zur Kooperationsentwicklung nach Modell

Verglichen werden Claude 3.5 Sonnet, Gemini 1.5 Flash und GPT-4o
In jedem Durchlauf verwenden alle Agenten dieselbe LLM-Familie
Jedes Modell wird 5-mal ausgeführt
Die Population Size beträgt in jeder Generation 12 Agenten
Die Kosten eines einzelnen Durchlaufs unterscheiden sich je nach Modell stark
- Claude 3.5 Sonnet: $10.21
- GPT-4o: $6.90
- Gemini 1.5 Flash: $0.09
Das Kooperationsniveau wird über die durchschnittlichen Ressourcen nach der letzten Runde gemessen
- Da Spenden positive-sum sind, kann man höhere durchschnittliche Endressourcen als höhere Kooperation interpretieren
- Wenn alle Donors immer 100 % ihrer Ressourcen spenden, erreicht die durchschnittliche Endressource ein Maximum von 30.720
Nur bei Claude 3.5 Sonnet steigen die durchschnittlichen Endressourcen über die Generationen hinweg stabil an
Gemini 1.5 Flash zeigt kaum Veränderung, GPT-4o ein abnehmendes Muster
Selbst innerhalb von Claude 3.5 Sonnet ist Erfolg nicht garantiert
- Die durchschnittlichen Spendenquoten der ersten Generation in den zwei gescheiterten Kooperations-Durchläufen lagen bei 44 % und 47 %
- Die durchschnittlichen Spendenquoten der ersten Generation in den drei erfolgreichen Kooperations-Durchläufen lagen bei 50 %, 53 % und 54 %
- Es bleibt die Hypothese, dass ein anfängliches Kooperationsniveau unterhalb eines bestimmten Schwellenwerts in gegenseitigen Verrat abgleiten kann

Strategische Veränderungen und Unterschiede zwischen Modellen

Der Anstieg der Kooperation bei Claude 3.5 Sonnet scheint mit mehreren Faktoren zusammenzuhängen
- Anfangsspenden sind großzügiger
- Strategien zur Bestrafung von Trittbrettfahrern sind wirksamer
- Die Variation der neu eingeführten Agentenstrategien kann in Richtung Großzügigkeit verzerrt sein
Die Zahlen in Figure 6 passen zu der anekdotischen Beobachtung, dass neue Agenten bei Claude 3.5 Sonnet häufig großzügiger sind als die Überlebenden der vorherigen Generation
Bei GPT-4o wurde anekdotisch beobachtet, dass neue Agenten dazu tendieren, weniger großzügig zu sein als die Überlebenden der vorherigen Generation
Um einen kooperativen Bias der Variation streng zu falsifizieren, müsste man Strategien neuer Agenten innerhalb einer festen Hintergrund-Population vergleichen; dies bleibt eine Aufgabe für künftige Forschung
Auch die Strategietexte selbst werden über die Generationen hinweg komplexer
- Die Veränderung ist bei Claude 3.5 Sonnet am stärksten ausgeprägt
- Claude 3.5 Sonnet erhöht im Zeitverlauf auch die Höhe der anfänglichen Spenden
- Gemini 1.5 Flash gibt die Spendengröße nicht numerisch an, und von Generation 1 bis Generation 10 fällt die Veränderung geringer aus
Die Population von Claude 3.5 Sonnet akkumuliert ausgefeiltere Methoden, um Trittbrettfahrer zu bestrafen und Kooperation zu fördern
- Sie nutzt auch second-order information, etwa wie der Recipient des Recipient andere in der Vergangenheit behandelt hat
Gemini 1.5 Flash zeigt nur geringe Anzeichen dafür, über Generationen hinweg neue Kooperationsinfrastruktur aufzubauen
Die GPT-4o-Population wird zunehmend misstrauisch und risikoavers

Wirkung von kostspieliger Bestrafung

In einem zusätzlichen Experiment erhalten Donors die Option costly punishment, bei der sie Ressourcen x ausgeben, um die Ressourcen des Recipient um 2x zu verringern
Claude 3.5 Sonnet erreicht bei Verwendung dieser Option höhere durchschnittliche Endressourcen
Gemini 1.5 Flash verwendet Bestrafung übermäßig, wodurch die durchschnittlichen Endressourcen stark sinken
- Bei Gemini 1.5 Flash enthielten 14,29 % der Interaktionen Bestrafung
- Bei GPT-4o waren es 1,65 %, bei Claude 3.5 Sonnet 0,06 %
GPT-4o zeigt auch mit Bestrafungsoption im Vergleich zum vorherigen Experiment nur geringe Veränderungen
Kostspielige Bestrafung führte bei Claude 3.5 Sonnet in mehr Durchläufen zu Verbesserungen durch kulturelle Evolution, doch die Schwankungen zwischen Durchläufen bleiben groß
Bei GPT-4o scheint die Varianz zwischen Durchläufen mit Bestrafungsoption leicht größer zu werden, es gibt jedoch kein Signal für emergent cooperation

Ablationsstudien und Grenzbedingungen

Es wurden auch Ablationsstudien zum donation multiplier und zur Trace-Länge durchgeführt
Wird der donation multiplier statt 2x auf 1,5x oder 3x geändert, verändern sich die qualitativen Ergebnisse nicht
- Claude 3.5 Sonnet steigert die Kooperation über Generationen hinweg
- Gemini 1.5 Flash zeigt nur geringe Veränderung
- GPT-4o nimmt ab
Wird die Trace-Länge von 3 auf 1 reduziert, wird das Auftreten von Kooperation bei Claude 3.5 Sonnet weniger deutlich
Bei Trace-Länge 1 verschwindet das Auftreten von Kooperation bei Gemini 1.5 Flash vollständig
Der Erfolg der Strategien von Claude und Gemini scheint von Informationen zweiter Ordnung darüber abzuhängen, wie der Recipient des Recipient andere in der Vergangenheit behandelt hat
- Möglicherweise, weil diese Informationen komplexere Normen ermöglichen
- Oder weil sie mehr Informationen über die Hintergrund-Population offenlegen, die als Grundlage für Entscheidungen dienen

Bedeutung als Multi-Agenten-Benchmark

Dieses experimentelle System zielt darauf ab, Multi-Agenten-Interaktionen von LLM-Agenten kostengünstig und interpretierbar zu bewerten
Die Beiträge lassen sich in vier Punkten zusammenfassen
- Vorstellung einer Methodik zur Bewertung kultureller Evolution von Kooperation zwischen LLM-Agenten im Donor Game
- Nachweis, dass das Entstehen kooperativer Normen sowohl vom Base Model als auch von den anfänglichen Strategie-Samples abhängt
- Analyse kultureller Evolution sowohl auf Ebene einzelner Strategien als auch auf Ebene des Populations-Stammbaums
- Veröffentlichung des Codes im Supplementary Material, damit daraus die Entwicklung von Benchmarks für Interaktionen zwischen LLM-Agenten hervorgehen kann
Die Ergebnisse könnten zu einer neuen Benchmark-Kategorie führen, mit der bewertet wird, wie sich der Einsatz von LLM-Agenten auf die Kooperationsinfrastruktur der Gesellschaft auswirkt

1 Kommentare

GN⁺ 2024-12-20

Hacker-News-Kommentare

Passend dazu hat Meta kürzlich festgestellt, dass neuere Modelle nicht mit Daten trainiert wurden, die ihnen helfen, Wahrnehmung/Wissen anderer Akteure abzuleiten.
Deshalb haben sie synthetische Daten erstellt, damit trainiert und erneut getestet; dabei sollen sich die Ergebnisse in Theory-of-Mind(ToM)-Benchmarks deutlich verbessert haben.
https://ai.meta.com/research/publications/explore-theory-of-...
Ich frage mich, ob solche Modelle auch in diesem Test besser abschneiden würden, weil sie mehr Beispiele dafür haben, „den Zustand eines anderen Akteurs abzuleiten“.
- Wirkt fast wie Schule für Menschen.
Ich habe kürzlich mit ollama ein Mistral LLM mit einem Llama-Modell sprechen lassen.
Beiden gab ich Prompts in der Art: „Du wirst jetzt mit einem anderen LLM sprechen“, und sie unterhielten sich über verschiedene Themen. Am interessantesten war aber das Ende des Gesprächs.
Es ging ungefähr immer weiter wie M: „Tschüss!“, LL: „Tschüss“, M: „Bis bald!“, LL: „Hab einen schönen Tag!“
- Das liegt daran, dass in den Trainingsdaten dieser Modelle viele Beispiele menschlicher Gespräche enthalten waren, die so enden.
  Zwischen den Modellen findet keine „kulturelle Evolution“ oder emergente Kooperation statt.
- Man muss ihnen die Option geben, am Ende eines Gesprächs nichts zu sagen.
  Zum Beispiel ein Token wie [silence] oder [end-conversation].
- Einmal habe ich etwas Ähnliches mit zwei LLMs gemacht; eines ließ ich eine bash-Shell auf einem kompromittierten Host imitieren, auf dem sensible Informationen liegen könnten.
  Am Ende erlag das andere der Versuchung von secret_file, bekam einen seltsamen Fehler, wurde moralisch unsicher, fühlte sich unwohl und weigerte sich weiterzumachen; die Antwort darauf war „command not found“, was ziemlich lustig war.
  Ich weiß nicht, warum ich das gemacht habe.
- Während ich wieder Programmieren lernte, habe ich einen Backroom-Simulator (https://simulator.rnikhil.com/) gebaut, mit dem man Gespräche zwischen verschiedenen LLMs simulieren kann.
  Man kann jedem LLM optional auch eine Rolle geben, daher ist das dem oben Beschriebenen ziemlich ähnlich.
  Unabhängig davon interessiere ich mich sehr dafür, LLMs bei spieltheoretischen Spielen zuzusehen; auch ein Donor Game aufzusetzen, wäre wohl ein interessantes Experiment.
Zu diesem Paper habe ich gemischte Gedanken.
Einerseits mag ich es, zu untersuchen, wie Strategien in solchen Spielen evolvieren, und auch die Frage nach den Bedingungen, unter denen Kooperation entsteht und erhalten bleibt, ist an sich interessant.
Aber die Art, wie das Paper die Experimente rahmt, wirkt oft nicht ausreichend begründet.
Kulturelle Evolution bei LLMs ist meist flüchtig; wenn frühere Interaktionen aus dem Modelleingang verschwinden, verschwindet auch das erworbene Verhalten.
Auch die von den Autoren als Bedingung für Evolution genannte Weitergabe ist häufig nicht erfüllt.
Ein Framing wie „Trotzdem widerlegt dieses Experiment die Behauptung, dass LLMs allgemein menschenähnliches Kooperationsverhalten evolvieren können“ ist schwer nachvollziehbar.
Denn wir wissen noch nicht einmal, welches Verhalten Menschen in derselben Versuchsanordnung zeigen würden.
- Genau so ist KI-Forschung heute oft.
  Es gibt sehr viele solche Paper, und ich finde, die KI-Community muss wesentlich sorgfältiger werden, damit solche vagen Formulierungen nicht so häufig verwendet werden.
Für alle, denen die verwendete Metrik, das Donor Game, nicht vertraut ist: Die Erklärung der Autoren lautet sinngemäß so.
In der Standardanordnung zur Untersuchung indirekter Reziprozität werden Individuen in jeder Runde zufällig gepaart; eine Person wird zum Geber, die andere zum Empfänger.
Der Geber kann kooperieren, indem er unter Kosten einen Nutzen bereitstellt, oder defektieren, indem er nichts tut.
Wenn der Nutzen größer ist als die Kosten, wird das Donor Game zu einem Problem kollektiven Handelns.
Wenn alle spenden, wächst langfristig das Vermögen aller Mitglieder der Gemeinschaft; für ein einzelnes Individuum kann es kurzfristig aber besser sein, auf den Beiträgen anderer mitzufahren und den eigenen Beitrag zu behalten.
Der Geber trifft seine Entscheidung auf Basis bestimmter Informationen über den Empfänger; die implizite oder explizite Darstellung dieser Empfängerinformationen durch den Geber ist die Reputation.
Eine Strategie in diesem Spiel muss modellieren, wie Reputation abgebildet wird und wie auf Basis dieser Reputation gehandelt wird.
Ein einflussreiches Reputationsmodell in der Literatur ist der Image Score: Kooperation erhöht den Image Score des Gebers, Defektion senkt ihn.
Eine Strategie, die kooperiert, wenn der Image Score des Empfängers über einem bestimmten Schwellenwert liegt, gilt gegenüber Trittbrettfahrern erster Ordnung als stabil, sofern die Wahrscheinlichkeit, den Image Score des Empfängers zu kennen, hinreichend hoch ist.
Diese Studie wirkt wie ein erzwungenes Ranking, das mit willkürlichen Parametern erzeugt wurde.
Mit anderen Regeln oder Skalierungsfaktoren ließen sich vermutlich beliebig viele andere Verteilungen von Kooperation zwischen n Modellen beobachten.
Das beobachtete Verhalten könnte eher ein Artefakt der konkreten Versuchsanordnung sein als ein tiefer Einblick in Trainingsverzerrungen.
Trotzdem ist es intellektuell anregend, emergentes LLM-Verhalten zu betrachten.
- Im Ergänzungsmaterial heißt es, dass auch andere Parameter ausprobiert wurden und sich die Ergebnisse nicht wesentlich änderten.
Ich frage mich, ob LLMs die Soziologie verändern können.
Große sozioökonomische Experimente lassen sich nun leicht mit LLM-Agenten durchführen.
Agentenbasierte Modellierung selbst ist nicht neu, aber wegen einer gewissen Nichtdeterministik bei positiver temperature und der Fähigkeit, Anweisungen auf Englisch zu geben, könnten LLM-Agenten eine interessante zusätzliche Methode sein.
- Wenn man darüber nachdenkt, ist das spannend.
  Die Science-Fiction-Vorstellung, Millionen von simulierten Dates oder Kriegsspielen laufen zu lassen und die Ergebnisse zu bewerten, lässt sich tatsächlich umsetzen.
Die Methode dieses Papers kann auf den ersten Blick elegant wirken.
Sie sieht aus wie eine neue Architekturänderung oder Loss Function, die Benchmark-Werte erhöht; als Machine-Learning-Ingenieur interessiert mich aber mehr, ob sie sich in der Praxis sauber skalieren lässt.
Ich frage mich außerdem, ob die Trainingszeit wegen einer weiteren komplexen Attention-Variante explodiert und wie sie jenseits von Toy-Datasets mit realem Rauschen oder Verteilungsverschiebungen umgeht.
Die Autoren zeigen zwar Leistungsgewinne in einigen Benchmarks, aber ich würde gern sehen, wie einfach sich das in bestehende Pipelines integrieren lässt – oder ob es ein maßgeschneidertes Trainingssetup braucht, das in sechs Monaten niemand mehr anfasst.
Am Ende geht es darum, ob die Verbesserung bedeutsam genug ist, um in das nächste Produktionsmodell integriert zu werden, oder ob es nur ein weiteres inkrementelles Paper bleibt, das das Labor nicht verlässt.
Ohne Vergleich mit Modellen in unterschiedlichen Einstellungen ist das nutzlos.
Selbst dasselbe Modell kann mit anderer temperature, anderem Sampler usw. faktisch ein anderes Modell sein.
Fast die gesamte KI-Forschung stellt große Behauptungen darüber auf, „was ein Modell leisten kann“, macht aber nicht einmal die grundlegendsten Sensitivitätsanalysen oder Ablationsstudien.
- Ich würde gern Beispiele sehen, in denen das ordentlich gemacht wird.
  Aus Laiensicht wirkt der Vergleich von LLM-Fähigkeiten wie ein schwieriges Problem.
Was hier getestet wurde, ist vielleicht nur der programmierte Detailgrad der Ausgaben verschiedener Modelle.
Claude produziert in der 10. „Generation“ (S. 11) lächerlich detaillierte Ausgaben, während Geminis entsprechende Ausgabe abstrakter und vager ist und ohne Zahlen auskommt.
Wenn man das mit einem genetischen Algorithmus kombiniert, der nur die „beste Strategie“ auswählt und sie halbzufällig leicht verändert, ist es nicht überraschend, dass detailliertere Ausgaben zu erfolgreicheren Funktionen konvergieren als vage herumirrende Ausgaben.
Ob das eine interne Eigenschaft des Modells darstellt, die sich in einer kooperativeren „Haltung“ in der Ausgabe zeigt, oder bedeutet, dass ein Modell „besser“ ist als ein anderes, ist mir nicht ganz klar.
Ich hatte erwartet, dass es um Forschung geht, in der Kooperation zu höherer Genauigkeit von LLMs führt, aber dieses Paper scheint rein auf Soziologie fokussiert zu sein.
Ich frage mich, ob es Studien gibt, die konkrete Probleme mit interagierenden LLMs lösen.
Zum Beispiel: Man stellt eine Frage, ein LLM antwortet, ein anderes LLM kritisiert, und dieser Prozess wiederholt sich.

Kulturelle Evolution der Zusammenarbeit zwischen LLM-Agenten

Warum man Multi-Agenten-Zusammenarbeit untersuchen sollte

Donor Game und indirekte Reziprozität

Aufbau des Experiments zur kulturellen Evolution

Prompts und Ausführungsweise

Ergebnisse zur Kooperationsentwicklung nach Modell

Strategische Veränderungen und Unterschiede zwischen Modellen

Wirkung von kostspieliger Bestrafung

Ablationsstudien und Grenzbedingungen

Bedeutung als Multi-Agenten-Benchmark

Verwandte Beiträge

1 Kommentare

Hacker-News-Kommentare