[Übersetzung] MoA (Mixture-of-Agents), eine neue Methode zur Verbesserung der LLM-Leistung

PyTorchKR

Nach MoE (Mixture-of-Experts) und MoD (Mixture-of-Depths) wird nun eine neue Methode zur Verbesserung der Leistung von LLMs vorgestellt. Diese Technik mit dem Namen Mixture-of-Agents (MoA) soll die Stärken mehrerer LLMs bündeln und die kollektive Expertise nutzen, um die Leistung deutlich zu steigern. Schauen wir sie uns gemeinsam an. :smiley:

Kurze Einführung in die MoE-Methode (Mixture-of-Experts)

Die als Mixture-of-Experts bekannte MoE-Methode verbessert die Modellleistung, indem beim Training mehrere Expertenmodelle einbezogen werden. Obwohl das Modell dadurch groß ist, werden zur Laufzeit (Inference) für die Anfrage (Query) des Nutzers nur jene Experten aktiviert, die voraussichtlich passend antworten können. #mixture-of-experts

Kurze Einführung in die MoD-Methode (Mixture-of-Depths)

In jüngerer Zeit wurde auch zur MoD-Methode (Mixture-of-Depths), die man als Technik der Tiefenmischung bezeichnen kann, geforscht und veröffentlicht. Dabei geht es darum, die Tiefe zu reduzieren, indem weniger aktive Layer verwendet werden. #mixture-of-depths

MoA (Mixture-of-Agents), eine neue Methode zur Verbesserung der LLM-Leistung

Einführung in das Paper zur MoA-Methode (Mixture-of-Agents)

In letzter Zeit werden zahlreiche Large Language Models (LLMs) veröffentlicht, und jedes dieser LLMs zeigt in einem oder mehreren Bereichen beeindruckende Leistungen. Allerdings steigt ihre Leistungsfähigkeit im Verhältnis zu Modellgröße, Trainingsdaten und Recheninfrastruktur, sodass eine weitere Skalierung sehr kostspielig wird.

Dieses Paper (Mixture-of-Agents Enhances Large Language Model Capabilities) schlägt ein Mixture-of-Agents-Framework vor, das die Stärken mehrerer LLMs nutzt, um Inferenz- und Sprachgenerierungsfähigkeiten zu verbessern. Diese MoA-Technik basiert auf der Kollaborativität zwischen LLMs: Wenn ein Modell Antworten anderer Modelle nutzt, kann es Antworten höherer Qualität erzeugen – selbst dann, wenn die genutzten Antworten an sich von niedriger Qualität sind, verglichen mit dem Fall, dass sie gar nicht genutzt werden.

Mit dieser MoA-Technik können die individuellen Stärken verschiedener LLMs kombiniert werden, sodass ihre Expertise zusammengeführt wird und letztlich bessere Leistungen entstehen. Entsprechend wurden in mehreren Benchmarks wie AlpacaEval 2.0, MT-Benchmark und FLASK hervorragende Ergebnisse erzielt; insbesondere lag die Leistung über der von GPT-4o (GPT-4 Omni).

Ein besonders großer Vorteil der MoA-Technik ist, dass das bestehende LLM selbst nicht verändert werden muss; verwendet werden lediglich angepasste Eingabe-Prompts und einige Einstellungen des LLMs, darunter temperature und weitere Sampling-Optionen. Es ist also kein separater Prozess wie Fine-Tuning erforderlich. Zudem bietet der Ansatz Flexibilität und Skalierbarkeit, da sich aktuelle LLMs unabhängig von Größe oder Architektur der verwendeten Agenten-LLMs direkt einsetzen lassen.

Einführung in die MoA-Methode (Mixture-of-Agents)

Die Mixture-of-Agents-(MoA)-Methodik zielt darauf ab, die kollektive Expertise mehrerer LLMs über eine hierarchische Struktur zu nutzen. Jede Ebene besteht aus mehreren LLM-Agenten, die auf Basis der Ausgaben der vorherigen Ebene Antworten erzeugen und so die Endausgabe schrittweise verbessern.

Die Kernidee der MoA-Technik ist, dass Large Language Models (LLMs) Antworten höherer Qualität erzeugen können, wenn sie die Antworten anderer Modelle als Referenz heranziehen. Anders gesagt: Indem mehrere LLMs die Antworten der jeweils anderen als Bezugspunkt nutzen können, entsteht Kollaborativität, die die Qualität der finalen Antwort erhöht. So lässt sich die Qualität der Endantwort stark steigern, selbst wenn die Zwischenergebnisse nicht besonders gut sind.

Die wichtigsten Merkmale der Mixture-of-Agents-Technik lassen sich wie folgt zusammenfassen:

Hierarchische Struktur: Das MoA-Framework verwendet eine mehrschichtige Struktur aus mehreren LLM-Agenten. Jeder Agent verbessert die Antworten der vorherigen Ebene und steigert so schrittweise die Endausgabe.
Modellvielfalt: Das Framework betont den Einsatz unterschiedlicher LLMs in jeder Ebene. Durch die Kombination verschiedener Modelle lassen sich reichhaltigere und differenziertere Antworten erzeugen.
Iterative Verbesserung: Der iterative Prozess ermöglicht eine fortlaufende Verfeinerung des generierten Textes und liefert durch die kollaborative Synthese mehrerer Modelle bestmögliche Ergebnisse.

Kollaborativität von Large Language Models

Die Kollaborativität von Large Language Models (LLMs) bezeichnet die Fähigkeit verschiedener LLMs, bessere Antworten zu erzeugen, wenn sie sich auf die Ausgaben anderer Modelle beziehen. Viele Studien zeigen, dass sich die Qualität von Antworten verbessert, wenn ein Sprachmodell die Ausgabe eines anderen Modells als Zusatzinformation nutzt. Das ist möglich, weil jedes Modell unterschiedliche Stärken besitzt.

So kann etwa ein Modell komplexe Anweisungen besonders gut befolgen, während ein anderes bei der Codegenerierung stärker ist. Diese Vielfalt ermöglicht es in einer kollaborativen Umgebung, dass Modelle die Schwächen anderer Modelle ausgleichen. Um diese Kollaborativität experimentell nachzuweisen, wurden mehrere Benchmark-Tests eingesetzt; insbesondere im Benchmark AlpacaEval 2.0 zeigte sich eine deutliche Leistungssteigerung, wenn mehrere Modelle auf die Ausgaben der jeweils anderen Bezug nahmen.

Dadurch lässt sich beobachten, dass sich die Gesamtleistung deutlich verbessert, wenn LLMs Antworten erhalten, die von anderen LLMs unabhängig erzeugt wurden. Solche Ergebnisse zeigen, dass LLMs im Kern kollaborativ sind. Darüber hinaus deuten sie darauf hin, dass selbst Ausgaben niedriger Qualität zu besseren Antworten führen können, wenn andere Modelle daraus Informationen übernehmen.

In diesem Paper werden die Rollen der in der MoA-Methode eingesetzten LLMs in zwei Typen unterteilt: Proposer und Aggregator:

Proposer-LLM: Ein LLM, das besonders gut darin ist, nützliche Referenzantworten zu erzeugen, die von anderen Modellen verwendet werden können. Ein guter Proposer erzeugt nicht zwangsläufig für sich genommen besonders hoch bewertete Antworten, kann aber durch mehr Kontext und unterschiedliche Perspektiven letztlich zu einer besseren Endantwort beitragen, wenn er zusammen mit einem Aggregator eingesetzt wird.
Aggregator-LLM: Ein Modell, das besonders gut darin ist, die Antworten anderer Modelle zu einer einzigen hochwertigen Ausgabe zu synthetisieren. Ein effektiver Aggregator sollte die Qualität der Endantwort erhalten oder verbessern können, selbst wenn die vom Proposer kommenden Eingaben qualitativ unter dem liegen, was das Aggregator-LLM allein erzeugen könnte.

Struktur der Mixture-of-Agents-Methode (Architecture of MoA)

Das MoA-Framework besteht, wie in der obigen Abbildung gezeigt, aus mehreren Ebenen (Layer, $l$), wobei jede Ebene (Layer-$i$) mehrere ($n$) LLMs enthält. In der Abbildung werden die einzelnen LLMs der $i$-ten Ebene als $A_{i,1}$, $A_{i,2}$, ...$A_{i,n}$ dargestellt. In dieser Struktur erzeugen die Agenten jeder Ebene Antworten unter Nutzung sämtlicher Ausgaben der vorherigen Ebene als Zusatzinformation. Wichtig ist dabei, dass jedes LLM innerhalb derselben Ebene sowie über verschiedene Ebenen hinweg wiederverwendet werden kann.

Zu Beginn erzeugen die LLMs der ersten Ebene unabhängig voneinander Antworten auf den gegebenen Prompt. Diese Antworten werden dann an die Agenten der nächsten Ebene weitergegeben, die daraus verfeinerte Antworten erzeugen. Dieser Prozess wird wiederholt, bis schließlich präzisere und umfassendere Antworten entstehen. Durch diese mehrfachen Iterationen kann man letztlich stärkere und ganzheitlichere Antworten erhalten. So lassen sich die Grenzen einzelner Modelle überwinden und hochwertige Antworten erzeugen, die vielfältigere Informationen und Perspektiven integrieren – besonders nützlich bei der Lösung komplexer Probleme.

Ein weiteres wichtiges Element dieser Architektur ist die Modellauswahl. Es ist entscheidend, die in jeder Ebene eingesetzten Modelle sorgfältig nach Leistung und Vielfalt auszuwählen. Unter Berücksichtigung von Leistungskennzahlen und Modellvielfalt wird die optimale Agentenkonfiguration bestimmt.

Kriterien für die Auswahl der zu verwendenden Agenten (LLMs)

In der Mixture-of-Agents-Methode werden Modelle nicht nur anhand von Leistungskennzahlen ausgewählt, die zeigen, wie gut sie eine bestimmte Aufgabe lösen, sondern auch anhand ihrer Vielfalt, also wie unterschiedlich ihre Antworten ausfallen können:

Leistungskennzahlen (Performance Metrics): Sie geben an, wie gut jedes Modell bei einer bestimmten Aufgabe abschneidet, und helfen dabei, Modelle auszuwählen, die qualitativ hochwertige Ausgaben erzeugen können. Vielfalt bedeutet dabei die Fähigkeit von Modellen, Probleme auf unterschiedliche Weise anzugehen und zu lösen. So kann ein Modell etwa im Bereich Natural Language Processing besonders stark sein, während ein anderes bei Codegenerierung oder mathematischen Aufgaben besser abschneidet. Durch die Mischung solcher Modelle mit unterschiedlichen Fähigkeiten kann eine Multi-Agenten-Struktur umfassendere und leistungsfähigere Antworten erzeugen.
Berücksichtigung von Vielfalt (Diversity Considerations): Modellvielfalt hilft, die Verzerrungen eines einzelnen Modells zu reduzieren und ein breiteres Spektrum an Problemen zu lösen. Wird dasselbe Modell beispielsweise in mehreren Ebenen wiederholt verwendet, kann die Qualität der Antworten aufgrund seiner Grenzen sinken. Deshalb ist der Einsatz unterschiedlicher Modelle wichtig. Durch die Auswahl geeigneter Modelle für jede Ebene unter Berücksichtigung von Leistungskennzahlen und Vielfalt lässt sich die Qualität der Endantwort maximieren.

Single-Proposer-Struktur und Multi-Proposer-Struktur

Aus einer hochabstrakten Perspektive lässt sich die Mixture-of-Agents-(MoA)-Technik als eine auf die Modellebene angehobene Form der Mixture-of-Experts-(MoE)-Technik betrachten. Die MoA-Technik kann vollständig über die Prompt-Schnittstelle arbeiten, ohne interne Aktivierungen oder Gewichte eines LLM zu verändern. Anders als bei MoE, wo spezialisierte Subnetzwerke innerhalb eines einzelnen Modells verwendet werden, kommen hier mehrere (oder auch nur ein) LLMs über mehrere Ebenen hinweg zum Einsatz.

Single-Proposer-Struktur: Auch wenn die Mixture-of-Agents-Methode grundsätzlich auf mehreren Agenten (LLMs) basiert, kann dasselbe LLM mehrfach verwendet werden. In diesem Fall werden bei identischem Eingabemodell verschiedene Sampling-Einstellungen, darunter temperature, verändert, um mehrere unterschiedliche Ausgaben zu erzeugen. In einer solchen Single-Proposer-Struktur werden pro Ebene zwar nur ein oder wenige Modelle aktiviert, doch die von ihnen erzeugten unterschiedlichen Antworten spielen für den Aggregator eine wichtige Rolle bei der Erzeugung der finalen Antwort.
Multi-Proposer-Struktur: Hier werden pro Ebene verschiedene Modelle verwendet, die jeweils unterschiedliche Ausgaben erzeugen. Dadurch werden Interaktion und Kollaborativität zwischen den Modellen maximiert, was umfassendere und qualitativ hochwertigere Antworten ermöglicht. Die Multi-Proposer-Struktur nutzt Modellvielfalt maximal aus, erweitert die Breite der Problemlösung und überwindet die Grenzen eines einzelnen Modells. Mit dieser Konfiguration kann eine Multi-Agenten-Struktur robustere und ganzheitlichere Lösungen liefern.

Hier übernehmen Proposer und Aggregator komplementäre Rollen. Die Proposer erzeugen durch unterschiedliche Ansätze erste Antworten, und der Aggregator führt diese zusammen, um die Qualität der finalen Antwort sicherzustellen. Durch diese kollaborative Struktur kann ein Multi-Agenten-System leistungsfähigere und umfassendere Antworten liefern als ein einzelnes Modell.

Leistung und Kosteneffizienz der MoA-Methode

Leistung der MoA-Methode

In der obigen Tabelle sind MoA und MoA-Lite Modelle mit 6 Proposern und jeweils 3 bzw. 2 Ebenen. MoA w/ GPT-4o ist ein Modell, das GPT-4o als finalen Aggregator von MoA verwendet. Für die obigen Benchmarks wurden jeweils drei Durchläufe durchgeführt und Standardabweichung sowie Durchschnittswerte gemeinsam veröffentlicht.

Modelle mit der MoA-Methode erreichten in AlpacaEval 2.0 einen Wert von 65,1 % und übertrafen damit die 57,5 % von GPT-4o. Auch im MT-Benchmark zeigten sie bessere Leistungen als GPT-4o.

Wie die obige Abbildung zeigt, liefert die MoA-Methode bessere Leistungen als der Einsatz eines einzelnen LLM. Das liegt offenbar daran, dass der Aggregator nicht einfach nur eine der von den Proposer-LLMs erzeugten Antworten auswählt, sondern die vorgeschlagenen Antworten ganzheitlich berücksichtigt und daraus eine neue Antwort erzeugt.

Die rechte Seite der obigen Abbildung vergleicht die Antwort des Aggregators mit den Antworten der Proposer anhand von Ähnlichkeitswerten wie BLEU. Für jedes Sample wurde auf Basis von $n$ Antworten der Proposer der Rangkorrelationskoeffizient zwischen $n$ Präferenzwerten, die ein GPT-4-basierter Evaluator bestimmt hat, und $n$ Ähnlichkeitswerten berechnet. Das heißt, es lässt sich eine positive Korrelation zwischen Gewinnrate und BLEU-Wert bestätigen.

Darüber hinaus wurde zur Bestimmung einer geeigneten Zahl von Proposern pro Ebene die Anzahl der Proposer (das $n$ in der linken Tabelle oben) variiert und ihr Einfluss auf die Endqualität analysiert. Mit zunehmendem $n$ steigt die Endqualität, was sich damit erklären lässt, dass der Aggregator durch vielfältige Antworten aus unterschiedlichen Modellen auf mehr Informationen zurückgreifen kann. (Die Single-Proposer-Struktur entspricht hier dem Einsatz eines einzelnen LLM mit fest auf 0,7 gesetzter temperature.)

Zusätzlich wurden Experimente durchgeführt, um zu prüfen, ob es Modelle gibt, die sich besonders für die Rolle des Proposers oder des Aggregators eignen. (Rechte Tabelle oben.) Die Modelle GPT-4o, Qwen und LLaMA-3 zeigten sowohl als Proposer als auch als Aggregator gute Leistungen, während einige Modelle, darunter WizardLM, eher als Proposer als als Aggregator gute Ergebnisse erzielten.

Token- und Kosteneffizienz der MoA-Methode

Unter Einbeziehung von Budget- und Token-Analysen zeigt sich, dass MoA im Vergleich zu anderen State-of-the-Art-Modellen hohe Leistung zu geringeren Kosten liefern kann. Das bedeutet, dass der Ansatz nicht nur effektiv, sondern auch kosteneffizient ist, und eine praktische Lösung bietet, die Fähigkeiten von LLMs ohne übermäßige Kosten zu erweitern.

Die linke Seite der obigen Abbildung (a) zeigt die durchschnittlichen Inferenzkosten pro Instanz im AlpacaEval-2.0-Benchmark sowie die LC-Gewinnrate. Die Werte wurden auf Basis der Kosten der jeweiligen API-Anbieter berechnet und zeigen, dass die MoA-Methode ein kosteneffizienter Weg ist, hohe Leistung zu erzielen, ohne übermäßige Kosten zu verursachen. Besonders bemerkenswert ist, dass MoA-Lite etwa 4 % besser als GPT-4 Turbo abschneidet und dabei mehr als doppelt so kosteneffizient ist.

Die rechte Seite der obigen Abbildung (b) zeigt den Zusammenhang zwischen LC-Gewinnrate und der Anzahl der Teraflops. Dabei wird die Anzahl der Teraflops stellvertretend als Wert für die Latenz verwendet. Auch hier lässt sich ähnlich wie bei der Kosteneffizienzanalyse eine Pareto frontier beobachten. Das heißt, die Rechenressourcen werden effizient genutzt, während gleichzeitig die LC-Gewinnrate maximiert wird.

Weitere Überlegungen zu Kollaborativität und Vielfalt

Die Ergebnisse der in diesem Paper durchgeführten Experimente bestätigen, dass LLMs bessere Antworten erzeugen, wenn sie auf die Ausgaben anderer Modelle Bezug nehmen. Diese Kollaborativität ist ein Schlüsselelement für die Leistungssteigerung durch die MoA-Methode. Darüber hinaus wurde nachgewiesen, dass der Einsatz verschiedener LLMs auf jeder Ebene durchgängig bessere Ergebnisse liefert als die Abhängigkeit von einem einzelnen Modell. Das heißt, die durch Modellvielfalt entstehende Vielfalt der Antworten trägt wirksam zur Verbesserung der Gesamtleistung bei.

Fazit

Wie wir gesehen haben, stellt die Mixture-of-Agents-(MoA)-Technik einen wichtigen Fortschritt bei der Nutzung der kollektiven Stärken mehrerer LLMs dar. Durch einen hierarchischen und kollaborativen Ansatz erzielt MoA in verschiedenen Benchmarks hervorragende Leistungen und belegt den Wert von Modellvielfalt und iterativer Verfeinerung. Es ist zu erwarten, dass dieser Ansatz neue Versuche für leistungsfähigere und effizientere LLM-Systeme ermöglichen wird.

Paper zur MoA-Methode

https://arxiv.org/abs/2406.04692

Repository der MoA-Methode

https://github.com/togethercomputer/moa

OpenPipe bietet mit der MoA-Methode ein Modell, das die Leistung von GPT-4 bei 25-fach niedrigeren Kosten übertrifft

https://discuss.pytorch.kr/t/openpipe-moa-25-gpt-4/4668

Dieser Beitrag basiert auf einem mit einem GPT-Modell zusammengefassten Text; es kann daher sein, dass Inhalte oder Intentionen des Originals abweichend wiedergegeben wurden. Wenn Sie das Thema interessant finden, lesen Sie bitte auch das Original. Falls Ihnen beim Lesen unnatürliche oder fehlerhafte Stellen auffallen, geben Sie bitte per Kommentar Bescheid. 🤗

⚠️Werbung⚠️: War dieser von der :pytorch: PyTorch Korea User Group 🇰🇷 zusammengestellte Beitrag hilfreich? Wenn Sie sich als Mitglied registrieren, senden wir Ihnen wichtige Beiträge per E-Mail 💌 zu! Standardmäßig wöchentlich, aber eine Umstellung auf täglich ist ebenfalls möglich.