RouteLLM – Framework für LLM-Router-Serving und -Evaluierung

(github.com/lm-sys)

3 Punkte von GN⁺ 2024-07-12 | Noch keine Kommentare. | Auf WhatsApp teilen

RouteLLM ist ein Framework für das Serving und die Evaluierung von LLM-Routern, das gemeinsam von LMSys und Anyscale entwickelt wurde
Kernfunktionen:
- Ersetzt den OpenAI-Client und leitet einfache Anfragen an günstigere Modelle weiter
- Bietet trainierte Router, die Erweiterung um neue Router sowie den Vergleich der Router-Leistung in Benchmarks

Neben GPT-4 und Mixtral 8x7B können durch Anpassen der Argumente strong-model und weak-model verschiedene Modellkombinationen verwendet werden
Unterstützt mit LiteLLM chat completions für verschiedene Open-Source- und Closed-Modelle
Auch OpenAI-kompatible Endpunkte können verwendet werden
Es werden Anleitungen zum Einrichten von API-Schlüsseln für verschiedene Modellanbieter bereitgestellt

Motivation für die Entwicklung

Beim Einsatz von LLMs mit unterschiedlichen Kosten und Fähigkeiten ist die Verwendung des leistungsstärksten Modells für hochwertige Antworten teuer, während günstigere Modelle zu geringerer Qualität führen können
LLM-Routing bietet eine Lösung, um Kosten zu senken und gleichzeitig die Qualität zu erhalten, indem einfache Anfragen an günstigere Modelle gesendet werden
Jeder Anfrage ist ein cost threshold zugeordnet, der den Kosten-Qualitäts-Trade-off bestimmt

RouteLLM bietet einen leichtgewichtigen OpenAI-kompatiblen Server, der Anfragen nach verschiedenen Routing-Strategien weiterleitet
Mit --routers wird die Liste verfügbarer Router angegeben, mit --config der Pfad zur Router-Konfigurationsdatei
In den meisten Fällen wird der leistungsstarke und leichte Router mf empfohlen
Clients senden Anfragen, indem sie im Feld model den Router-Namen und den threshold angeben

Der für das Routing verwendete threshold steuert den Kosten-Qualitäts-Trade-off
Da sich der sinnvolle threshold-Bereich je nach Router-Typ und eingehenden Anfragen unterscheidet, empfiehlt sich eine Kalibrierung mit Beispielanfragen und dem Anteil der Anfragen, die an das starke Modell gesendet werden sollen
Standardmäßig wird die Threshold-Kalibrierung auf Basis des Chatbot-Arena-Datensatzes unterstützt
Empfehlenswert ist die Kalibrierung mit einem Datensatz, der den tatsächlich eingehenden Anfragetypen ähnelt

RouteLLM enthält auch ein Evaluierungs-Framework, um die Leistung verschiedener Routing-Strategien in Benchmarks zu messen
Mit --routers wird die Liste der zu evaluierenden Router angegeben, mit --benchmark ein bestimmter Benchmark
Die Evaluierungsergebnisse werden in der Konsole ausgegeben, außerdem werden Diagramme zur Router-Leistung erzeugt
Standardmäßig sind GPT-4 und Mixtral das für die Evaluierung verwendete Modellpaar; dies kann mit den Flags --strong-model und --weak-model geändert werden

RouteLLM bietet 4 Router, die für das Modellpaar gpt-4-1106-preview und mixtral-8x7b-instruct-v0.1 trainiert wurden
Router-Liste: mf, sw_ranking, bert, causal_llm, random
Diese Router generalisieren auch auf andere starke/schwache Modellpaare gut, sodass beim Austausch des Modellpaars kein erneutes Training nötig ist

RouteLLM wirkt wie ein nützliches Framework für den effizienten Einsatz verschiedener LLMs. Besonders attraktiv ist, dass einfache Anfragen an günstigere Modelle weitergeleitet werden können, um Kosten zu senken und gleichzeitig die Qualität zu erhalten
Positiv ist auch, dass die bereitgestellten Router gut auf verschiedene Modellpaare generalisieren. Das hat den Vorteil, dass Nutzer Router nicht selbst trainieren müssen
Auch die Threshold-Kalibrierung wirkt nützlich. Mit den tatsächlichen Anfragedaten der Nutzer lässt sich ein optimaler threshold finden
Ein weiterer Vorteil ist, dass sich mit dem Evaluierungs-Framework die Leistung verschiedener Router und Benchmarks leicht vergleichen lässt
Allerdings erfordert die Nutzung des Frameworks Vorbereitungen wie das Einrichten von API-Schlüsseln für starke und schwache Modelle. Für Einsteiger könnte die Einstiegshürde etwas höher sein
Ein anderes Projekt mit ähnlicher Funktionalität ist das Open-Source-Projekt Multi-model. Es bietet die Integration und das Routing mehrerer Sprachmodelle über eine einheitliche API