2 Punkte von GN⁺ 2024-04-08 | 1 Kommentare | Auf WhatsApp teilen

Alles, was man braucht, sind mehr Agenten

  • Es wurde festgestellt, dass die Leistung großer Sprachmodelle (LLMs) mit der Anzahl instanziierter Agenten skalieren kann.
  • Über Sampling- und Abstimmungsmethoden lassen sich LLMs unabhängig von bestehenden komplexen Verfahren verbessern; das Ausmaß der Verbesserung hängt mit dem Schwierigkeitsgrad der Aufgabe zusammen.
  • Durch umfangreiche Experimente mit verschiedenen LLM-Benchmarks wurde das Vorhandensein dieser Beobachtung bestätigt und es wurden Eigenschaften untersucht, die ihr Auftreten fördern können.
  • Der für die Studie verwendete Code ist öffentlich verfügbar.

Meinung von GN⁺

  • Diese Studie kann einen wichtigen Beitrag zum Bereich der künstlichen Intelligenz leisten, indem sie einen neuen Ansatz zur Leistungssteigerung großer Sprachmodelle aufzeigt.
  • Die Erkenntnis, dass eine Erhöhung der Anzahl der Agenten die Leistung direkt verbessert, eröffnet eine neue Perspektive auf Ressourcenskalierung und Effizienz.
  • Weitere Forschung ist nötig, um zu klären, wie sich die experimentellen Ergebnisse auf reale Anwendungen übertragen lassen.
  • Dass die Leistungssteigerung mit dem Schwierigkeitsgrad der Aufgabe zusammenhängt, kann dabei helfen, Optimierungsstrategien für Sprachmodelle bei bestimmten Aufgaben zu entwickeln.
  • Über den veröffentlichten Code können andere Forschende dazu beitragen, diese Studie zu reproduzieren und zu erweitern; das fördert wissenschaftliche Transparenz und Zusammenarbeit.

1 Kommentare

 
GN⁺ 2024-04-08
Hacker-News-Kommentare
  • Zusammenfassung des ersten Kommentars:

    • Diese Arbeit stellt die gesamte Idee von Multi-Agenten-Setups (z. B. Chain-of-thought, LLM-Debate) infrage.
    • Als alternativer Ansatz wird dieselbe Anfrage mehrfach an dasselbe LLM gestellt und mithilfe eines Ähnlichkeitsalgorithmus zwischen den Antworten die häufigste Antwort ausgewählt.
    • Dieser einfache Algorithmus zeigt selbst im Vergleich zu anderen Multi-Agenten-Algorithmen eine hervorragende Leistung.
    • Das deutet darauf hin, dass Multi-Agenten-Schemata nichts Besonderes leisten und die verbesserten Ergebnisse hauptsächlich daher kommen, dass das LLM mehrfach ausgeführt wird und der Prompt dazu auffordert, die beste Antwort auszuwählen.
  • Zusammenfassung des zweiten Kommentars:

    • Seit 16 Monaten wird argumentiert, dass Agenten geschichtet werden müssen, anstatt sich darauf zu konzentrieren, dass ein einzelner Agent alles korrekt erledigt.
    • Interessant ist, dass der Grenznutzen bei der Bearbeitung einer Aufgabe ähnlich schnell abnimmt wie bei der idealen Größe menschlicher Meetings.
    • Es stellt sich die Frage, wie gut eine feinere Abstimmung der Agentenzahl mit der idealen Meeting-Größe übereinstimmen würde.
    • Außerdem würde man gern die Leistungsgewinne sehen, die sich ergeben, wenn jeder Agent mit leicht unterschiedlichen Zielen feinabgestimmt wird.
  • Zusammenfassung des dritten Kommentars:

    • Das steht im Zusammenhang mit einem aktuellen ACM-ByteCast-Podcast, in dem Professor Edward Chang vom Department für Informatik der Stanford University dieses Thema behandelt hat.
    • Dabei unterhalten sich mehrere LLMs über ein Diskussionsthema, während ein Mensch die Rolle des Moderators übernimmt.
    • Die endgültige Antwort, zu der mehrere LLMs im Gespräch gelangen, verbessert sich sowohl bei Genauigkeit als auch Präzision deutlich.
  • Zusammenfassung des vierten Kommentars:

    • Eine Frustration bei der Forschung zu Mixture of Experts ist die grundlegende probabilistische Überlegung, dass es im Allgemeinen besser funktioniert, ein LLM mehrfach abzufragen und das Ergebnis per Mehrheitsentscheid auszuwählen, als nur einmal zu fragen und dieses Ergebnis zu übernehmen.
    • Es scheint möglich, die Gewinne weiter zu steigern, indem man bessere Mischungen verschiedener LLMs oder bessere Methoden zur Aufteilung von Aufgaben in Teilaufgaben findet.
  • Zusammenfassung des fünften Kommentars:

    • Aus dem Diagramm geht hervor, dass man mit 10 Agenten den Großteil der Gewinne erzielt, mit 20 Agenten noch etwas mehr und danach der Grenznutzen abnimmt.
  • Zusammenfassung des sechsten Kommentars:

    • Ein scherzhafter Gedanke zum Geschäftsmodell von Unternehmen, die LLM-Dienste anbieten: ein Fahrdienst, den man mehrfach rufen muss, um ans Ziel zu kommen, oder ein Waschmittel, das Kleidung erst nach mehreren Anwendungen „vielleicht“ sauber macht.
    • Wenn ein Unternehmen „künstliche Intelligenz“ anbietet, wäre es vernünftig, nur für korrekte Antworten zu bezahlen.
  • Zusammenfassung des siebten Kommentars:

    • Es wird bezweifelt, ob diese Methode nicht sehr teuer und langfristig nicht tragfähig ist, und der Einschätzung zugestimmt, dass MoE der Weg nach vorn ist, da neue Modelle vermutlich abnehmende Erträge zeigen werden.
    • Der Rechenaufwand für einen einzelnen Prompt würde um das 7- bis 15-Fache steigen.
  • Zusammenfassung des achten Kommentars:

    • Das veröffentlichte Repository und die für die Benchmarks verwendeten Prompts sind sehr interessant.
    • Man würde gern Benchmarking für LLM-basierte Agenten sehen, die ein Toolset verwenden.
  • Zusammenfassung des neunten Kommentars:

    • Wenn man all die Aussagen nach dem Muster „x ist alles, was man braucht“ zusammennimmt, wird man feststellen, dass man tatsächlich eine Menge Dinge braucht.
  • Zusammenfassung des zehnten Kommentars:

    • Ein Ensemble aus beliebig vielen GPT-3.5-Agenten ist weniger genau als ein einzelner Aufruf von GPT-4.