3 Punkte von GN⁺ 2024-07-12 | Noch keine Kommentare. | Auf WhatsApp teilen
  • RouteLLM ist ein Framework für das Serving und die Evaluierung von LLM-Routern, das gemeinsam von LMSys und Anyscale entwickelt wurde
  • Kernfunktionen:
    • Ersetzt den OpenAI-Client und leitet einfache Anfragen an günstigere Modelle weiter
    • Bietet trainierte Router, die Erweiterung um neue Router sowie den Vergleich der Router-Leistung in Benchmarks

Modellunterstützung

  • Neben GPT-4 und Mixtral 8x7B können durch Anpassen der Argumente strong-model und weak-model verschiedene Modellkombinationen verwendet werden
  • Unterstützt mit LiteLLM chat completions für verschiedene Open-Source- und Closed-Modelle
  • Auch OpenAI-kompatible Endpunkte können verwendet werden
  • Es werden Anleitungen zum Einrichten von API-Schlüsseln für verschiedene Modellanbieter bereitgestellt

Motivation für die Entwicklung

  • Beim Einsatz von LLMs mit unterschiedlichen Kosten und Fähigkeiten ist die Verwendung des leistungsstärksten Modells für hochwertige Antworten teuer, während günstigere Modelle zu geringerer Qualität führen können
  • LLM-Routing bietet eine Lösung, um Kosten zu senken und gleichzeitig die Qualität zu erhalten, indem einfache Anfragen an günstigere Modelle gesendet werden
  • Jeder Anfrage ist ein cost threshold zugeordnet, der den Kosten-Qualitäts-Trade-off bestimmt

Server

  • RouteLLM bietet einen leichtgewichtigen OpenAI-kompatiblen Server, der Anfragen nach verschiedenen Routing-Strategien weiterleitet
  • Mit --routers wird die Liste verfügbarer Router angegeben, mit --config der Pfad zur Router-Konfigurationsdatei
  • In den meisten Fällen wird der leistungsstarke und leichte Router mf empfohlen
  • Clients senden Anfragen, indem sie im Feld model den Router-Namen und den threshold angeben

Threshold-Kalibrierung

  • Der für das Routing verwendete threshold steuert den Kosten-Qualitäts-Trade-off
  • Da sich der sinnvolle threshold-Bereich je nach Router-Typ und eingehenden Anfragen unterscheidet, empfiehlt sich eine Kalibrierung mit Beispielanfragen und dem Anteil der Anfragen, die an das starke Modell gesendet werden sollen
  • Standardmäßig wird die Threshold-Kalibrierung auf Basis des Chatbot-Arena-Datensatzes unterstützt
  • Empfehlenswert ist die Kalibrierung mit einem Datensatz, der den tatsächlich eingehenden Anfragetypen ähnelt

Evaluierung

  • RouteLLM enthält auch ein Evaluierungs-Framework, um die Leistung verschiedener Routing-Strategien in Benchmarks zu messen
  • Mit --routers wird die Liste der zu evaluierenden Router angegeben, mit --benchmark ein bestimmter Benchmark
  • Die Evaluierungsergebnisse werden in der Konsole ausgegeben, außerdem werden Diagramme zur Router-Leistung erzeugt
  • Standardmäßig sind GPT-4 und Mixtral das für die Evaluierung verwendete Modellpaar; dies kann mit den Flags --strong-model und --weak-model geändert werden

Router

  • RouteLLM bietet 4 Router, die für das Modellpaar gpt-4-1106-preview und mixtral-8x7b-instruct-v0.1 trainiert wurden
  • Router-Liste: mf, sw_ranking, bert, causal_llm, random
  • Diese Router generalisieren auch auf andere starke/schwache Modellpaare gut, sodass beim Austausch des Modellpaars kein erneutes Training nötig ist

Meinung von GN⁺

  • RouteLLM wirkt wie ein nützliches Framework für den effizienten Einsatz verschiedener LLMs. Besonders attraktiv ist, dass einfache Anfragen an günstigere Modelle weitergeleitet werden können, um Kosten zu senken und gleichzeitig die Qualität zu erhalten
  • Positiv ist auch, dass die bereitgestellten Router gut auf verschiedene Modellpaare generalisieren. Das hat den Vorteil, dass Nutzer Router nicht selbst trainieren müssen
  • Auch die Threshold-Kalibrierung wirkt nützlich. Mit den tatsächlichen Anfragedaten der Nutzer lässt sich ein optimaler threshold finden
  • Ein weiterer Vorteil ist, dass sich mit dem Evaluierungs-Framework die Leistung verschiedener Router und Benchmarks leicht vergleichen lässt
  • Allerdings erfordert die Nutzung des Frameworks Vorbereitungen wie das Einrichten von API-Schlüsseln für starke und schwache Modelle. Für Einsteiger könnte die Einstiegshürde etwas höher sein
  • Ein anderes Projekt mit ähnlicher Funktionalität ist das Open-Source-Projekt Multi-model. Es bietet die Integration und das Routing mehrerer Sprachmodelle über eine einheitliche API

Noch keine Kommentare.

Noch keine Kommentare.