LLM-Inferenz-Handbuch
(bentoml.com)- Das LLM-Inferenz-Handbuch bietet einen umfassenden Überblick über die zentralen Konzepte und Optimierungstechniken, die für LLM-Inferenz in realen Produktionsumgebungen nötig sind
- Es liefert praxisrelevante Informationen wie Leistungskennzahlen (z. B. Time to First Token, Tokens per Second) und Best Practices für den Betrieb
- Aktuelle Optimierungsmethoden wie Continuous Batching und Prefix Caching werden detailliert erläutert
- Zuvor verstreutes Wissen zur LLM-Inferenz wird an einem Ort gebündelt, um Verständnis und Nutzbarkeit für Entwickler zu verbessern
- Das Handbuch wird kontinuierlich aktualisiert und berücksichtigt dabei aktuelle Praxiserkenntnisse und erprobte Methoden
Einführung in das LLM-Inferenz-Handbuch
LLM Inference in Production vereint Glossar, Leitfaden und Nachschlagewerk in einem
Dieses Handbuch behandelt ausführlich die Inhalte, die man in der Praxis unbedingt kennen muss, darunter Grundkonzepte der LLM-Inferenz, Leistungskennzahlen, Optimierungstechniken (Continuous Batching, Prefix Caching usw.) sowie Best Practices für den Betrieb
- Es bietet praxisnahe Orientierung für Bereitstellung, Skalierung und Betrieb von LLMs in Produktionsumgebungen
- Unrealistische Sonderfälle oder unnötiges technisches Rauschen werden ausgeklammert, stattdessen liegt der Fokus auf den wirklich wichtigen Aspekten in der Praxis
- Es stellt Techniken zur Leistungssteigerung passend zu verschiedenen Anwendungsfällen vor und hilft so konkret bei Performance-Verbesserungen
- Neueste Branchentrends und in der Praxis validierte Erkenntnisse werden laufend aktualisiert
Motivation für die Erstellung
Für Entwickler ist es oft schwierig, Informationen zur LLM-Inferenz zu finden, oder sie sind über viele Quellen verstreut, was zu einer Fragmentierung des Wissens führt
Das Autorenteam des Handbuchs hat Inhalte aus Papers, Vendor-Blogs, GitHub-Issues, Discord-Gesprächen und weiteren Quellen zusammengeführt, damit sich unter anderem Folgendes auf einmal verstehen lässt:
- Der Unterschied zwischen LLM-Training und -Inferenz
- Der Zusammenhang zwischen Goodput und dem Erreichen von SLOs
- Der praktische Einsatz der Prefill-Decode-Trennung
Zielgruppe
Dieses Handbuch richtet sich an Ingenieure, die LLMs in Produktionsumgebungen bereitstellen, skalieren und betreiben
Vom Fine-Tuning kleiner Open-Modelle bis zum Betrieb großer eigener Infrastrukturen
- gehören alle, die LLM-Inferenz schneller, günstiger und zuverlässiger machen wollen, zur zentralen Zielgruppe
Verwendung
Dieses Handbuch kann von Anfang bis Ende gelesen oder wie ein Nachschlagewerk gezielt nach Bedarf genutzt werden
Es gibt keine feste Reihenfolge oder vorgeschriebene Art der Nutzung
- und entsprechend den schnellen Veränderungen im Bereich LLM-Inferenz sollen fortlaufend neue Inhalte ergänzt und bestehende aktualisiert werden
Hinweise zur Mitwirkung
Fehlerberichte, Verbesserungsvorschläge und neue Themen sind willkommen
- Mitmachen kann jeder, indem ein Issue erstellt oder ein Pull Request im GitHub-Repository eingereicht wird
1 Kommentare
Hacker-News-Kommentare
llama.cppausdrücklich empfohlen werden.font-familyist-apple-system, BlinkMacSystemFont, "Segoe UI", Roboto, Helvetica, Arial, sans-serif.