1 Punkte von GN⁺ 2023-09-04 | 1 Kommentare | Auf WhatsApp teilen
  • Eine Arbeit über eine neue Methode zur Verbesserung des Langzeitgedächtnisses großer Sprachmodelle (LLMs), die in offenen Dialogsystemen eingesetzt werden
  • Ein zentrales Problem offener Dialogsysteme ist, dass sie in langen Gesprächen wichtige Informationen vergessen
  • Bisherige Lösungsansätze trainieren spezielle Retriever oder Zusammenfasser, um Kerninformationen aus Gesprächsinhalten zu gewinnen, doch das ist zeitaufwendig und stark von der Qualität gelabelter Daten abhängig
  • Die vorgeschlagene Methode versucht, dieses Problem zu entschärfen, indem sie mit LLMs rekursiv Zusammenfassungen oder Erinnerungen erzeugt
  • Dabei lässt die Methode LLMs zunächst kleine Gesprächskontexte behalten und erzeugt dann rekursiv neue Erinnerungen unter Verwendung früherer Erinnerungen und späterer Kontexte
  • Mit Hilfe der neuesten Erinnerung kann das LLM sehr konsistente Antworten erzeugen
  • Die Methode wurde mit ChatGPT und text-davinci-003 evaluiert; Experimente auf weit verbreiteten öffentlichen Datensätzen zeigen, dass sie in Dialogen mit langem Kontext konsistentere Antworten erzeugen kann
  • Diese Methode ist eine potenzielle Lösung, die es LLMs ermöglicht, extrem lange Kontexte zu modellieren
  • Code und Skripte für diese Methode sollen künftig veröffentlicht werden
  • Diese Forschung wurde von der Simons Foundation, Mitgliedsinstitutionen und allen Mitwirkenden unterstützt

1 Kommentare

 
GN⁺ 2023-09-04
Hacker-News-Kommentare
  • CodeRabbit verwendet für PR-Reviews einen ähnlichen Ansatz wie den im Artikel diskutierten und erzeugt Zusammenfassungen von Zusammenfassungen für jeden Commit, die schrittweise aktualisiert werden, wenn weitere Commits hinzukommen.
  • Einige Nutzer äußern Zweifel an der Wirksamkeit, Speicher im „Textraum“ aufzubauen, und schlagen vor, dass sich Speicher besser in einem dichten Embedding-Raum ablegen lässt, der die volle Bedeutung bewahren kann.
  • Es gibt Forderungen nach Transparenz und Reproduzierbarkeit in der Forschung; einige Nutzer glauben die Behauptungen nicht, solange es keinen Zugang zu dem in den Experimenten verwendeten Code und den Skripten gibt.
  • Der Einsatz rekursiver Zusammenfassung wurde erfolgreich in Arbeitsumgebungen angewendet, wobei Tausende von „Briefings“ in fünf Absätzen Text zusammengefasst und jedes Briefing nach Themen und Unterthemen klassifiziert werden.
  • Einige Nutzer berichten von Problemen mit rekursiver Zusammenfassung, etwa dass bestimmte Bits jede Zusammenfassungsrunde überstehen und das Modell dadurch bei einem bestimmten Thema hängen bleibt.
  • Es gibt Kritik am Mangel an Details im Paper; einige Nutzer empfinden es als enttäuschend und für LLM-Entwickler als wenig wertvoll.
  • Einige Nutzer stellen die Neuartigkeit der Technik infrage und argumentieren, dass die Zusammenfassung von Speicher für LLM-basierte Chatverläufe bereits ein etabliertes Verfahren sei und dass das Zusammenfassen jeder einzelnen Nachricht, wie im Paper vorgeschlagen, einen wesentlichen Performance-Engpass darstelle.
  • Es werden Fragen zur Implementierung aufgeworfen, bei der der Speichertext aus dem Paper als Teil des Prompts hinzugefügt wird, und es gibt Vorschläge für ein Speicher-/Abrufsystem, das keine Tokens des Kontextfensters verbraucht.
  • Die im Paper diskutierte Technik wird mit der „Summary“-Memory-Funktion von Langchain verglichen, die Berichten zufolge bereits seit März 2023 existiert.