Experiment zur Speicherarchitektur von AI-Agenten: Zusammengefasstes Wissen verschlechtert die Leistung sogar
(blog.clawsouls.ai)Dies sind reale Versuchsergebnisse dazu, wie man AI-Agenten mit Speicher ausstattet.
Demselben AI-Agenten (Claude) wurden vier verschiedene Speicherkonfigurationen gegeben, und zu einem realen Softwareprojekt wurden dieselben 20 Fragen gestellt.
Ergebnisse (von 5 Punkten):
• Hybrid (Erfahrung + Synthese): 4,95
• Erfahrungsbasierter Speicher (rohe Logs): 4,55
• Baseline (kein Speicher): 3,30
• Synthetischer Speicher (aufbereitete Zusammenfassung): 2,65
Die überraschendste Erkenntnis: Sorgfältig aufbereiteter synthetischer Speicher schnitt sogar schlechter ab als gar kein Speicher.
Dies wurde als „Overconfidence-Effekt“ bezeichnet — sauber zusammengefasstes Wissen gibt dem Agenten unbegründete Sicherheit und verringert seine Fähigkeit, zuzugeben, dass er etwas nicht weiß. Rohe erfahrungsbasierte Aufzeichnungen bewahren dagegen Spuren von Unsicherheit, sodass der Agent ehrlicher schlussfolgert.
Paper (Preprint): https://doi.org/10.5281/zenodo.18802214
Experimentdaten (öffentlich): https://github.com/clawsouls/experiential-memory-dataset
4 Kommentare
Das war etwas, was ich empirisch schon irgendwie gespürt hatte, aber synthetisches Gedächtnis ist sogar noch viel katastrophaler, als ich gedacht hatte.
Stimmt. Ich hatte anfangs auch erwartet, dass synthetischer Speicher zumindest besser als die Baseline sein würde, aber die Ergebnisse haben mich überrascht.
Bei der Analyse zeigte sich, dass der Schlüssel die „Bewahrung von Unsicherheit“ war. In den rohen Logs bleiben Spuren wie „Das habe ich ausprobiert, hat aber nicht funktioniert“ oder „Ursache unbekannt“ erhalten, sodass der Agent auf etwas, das er nicht weiß, auch mit „Ich weiß es nicht“ antwortet. In der Zusammenfassung wird dieser Kontext jedoch vollständig gelöscht, und am Ende gibt er falsche Antworten sogar mit Selbstsicherheit.
Würde es dann einen Unterschied machen, wenn wir das so aufbauen, dass ein synthetisches Gedächtnis den Prozess, die Misserfolge und die Erfolge solcher Aufgaben enthält?
Gute Frage. Tatsächlich entsprach in unserem Experiment die „hybride“ Bedingung genau dieser Richtung — also eine Konfiguration, bei der zu einem aufbereiteten Summary zusätzlich rohe Erfahrungslogs bereitgestellt wurden.
Im Ergebnis schnitt Hybrid mit 4,95/5,0 am besten ab. Wenn man nur das Summary gibt, sind es 2,65, aber wenn man dazu Prozessaufzeichnungen wie „fehlgeschlagen“ oder „Ursache unbekannt“ ergänzt, werden die Schwächen des Summarys eher ausgeglichen.
Daher lautet das Fazit: „Nicht das Summary an sich ist schlecht, sondern es muss zusammen mit Prozess und Unsicherheit festgehalten werden.“
Allerdings ist N=1, daher sind Anschlussstudien nötig, um zu prüfen, ob sich das allgemein für verschiedene Nutzergruppen einsetzen lässt.