LLM-Inferenz-Handbuch

(bentoml.com)

3 Punkte von GN⁺ 2025-07-12 | 1 Kommentare | Auf WhatsApp teilen

Das LLM-Inferenz-Handbuch bietet einen umfassenden Überblick über die zentralen Konzepte und Optimierungstechniken, die für LLM-Inferenz in realen Produktionsumgebungen nötig sind
Es liefert praxisrelevante Informationen wie Leistungskennzahlen (z. B. Time to First Token, Tokens per Second) und Best Practices für den Betrieb
Aktuelle Optimierungsmethoden wie Continuous Batching und Prefix Caching werden detailliert erläutert
Zuvor verstreutes Wissen zur LLM-Inferenz wird an einem Ort gebündelt, um Verständnis und Nutzbarkeit für Entwickler zu verbessern
Das Handbuch wird kontinuierlich aktualisiert und berücksichtigt dabei aktuelle Praxiserkenntnisse und erprobte Methoden

Einführung in das LLM-Inferenz-Handbuch

LLM Inference in Production vereint Glossar, Leitfaden und Nachschlagewerk in einem
Dieses Handbuch behandelt ausführlich die Inhalte, die man in der Praxis unbedingt kennen muss, darunter Grundkonzepte der LLM-Inferenz, Leistungskennzahlen, Optimierungstechniken (Continuous Batching, Prefix Caching usw.) sowie Best Practices für den Betrieb

Es bietet praxisnahe Orientierung für Bereitstellung, Skalierung und Betrieb von LLMs in Produktionsumgebungen
Unrealistische Sonderfälle oder unnötiges technisches Rauschen werden ausgeklammert, stattdessen liegt der Fokus auf den wirklich wichtigen Aspekten in der Praxis
Es stellt Techniken zur Leistungssteigerung passend zu verschiedenen Anwendungsfällen vor und hilft so konkret bei Performance-Verbesserungen
Neueste Branchentrends und in der Praxis validierte Erkenntnisse werden laufend aktualisiert

Motivation für die Erstellung

Für Entwickler ist es oft schwierig, Informationen zur LLM-Inferenz zu finden, oder sie sind über viele Quellen verstreut, was zu einer Fragmentierung des Wissens führt
Das Autorenteam des Handbuchs hat Inhalte aus Papers, Vendor-Blogs, GitHub-Issues, Discord-Gesprächen und weiteren Quellen zusammengeführt, damit sich unter anderem Folgendes auf einmal verstehen lässt:

Der Unterschied zwischen LLM-Training und -Inferenz
Der Zusammenhang zwischen Goodput und dem Erreichen von SLOs
Der praktische Einsatz der Prefill-Decode-Trennung

Zielgruppe

Dieses Handbuch richtet sich an Ingenieure, die LLMs in Produktionsumgebungen bereitstellen, skalieren und betreiben
Vom Fine-Tuning kleiner Open-Modelle bis zum Betrieb großer eigener Infrastrukturen

gehören alle, die LLM-Inferenz schneller, günstiger und zuverlässiger machen wollen, zur zentralen Zielgruppe

Verwendung

Dieses Handbuch kann von Anfang bis Ende gelesen oder wie ein Nachschlagewerk gezielt nach Bedarf genutzt werden
Es gibt keine feste Reihenfolge oder vorgeschriebene Art der Nutzung

und entsprechend den schnellen Veränderungen im Bereich LLM-Inferenz sollen fortlaufend neue Inhalte ergänzt und bestehende aktualisiert werden

Hinweise zur Mitwirkung

Fehlerberichte, Verbesserungsvorschläge und neue Themen sind willkommen

Mitmachen kann jeder, indem ein Issue erstellt oder ein Pull Request im GitHub-Repository eingereicht wird

1 Kommentare

GN⁺ 2025-07-12

Hacker-News-Kommentare

Hallo, ich bin einer der Maintainer dieses Projekts. Es freut mich sehr und ist mir eine Ehre, dass unser Projekt auf Hacker News vorgestellt wurde. Der Grund, warum wir dieses Handbuch erstellt haben, war, dass auch Entwickler, die reale LLM-Anwendungen bauen, leicht Zugang zu den Konzepten der LLM-Inferenz bekommen sollen. Wir wollten das an vielen Orten verstreute Wissen klar, praxisnah und gut skalierbar zusammenführen. Wir werden es weiter verbessern, um ein noch besseres Handbuch zu schaffen, und freuen uns aktiv über Feedback. Ich würde mich auch freuen, wenn ihr euch das GitHub-Repository anseht.
- Vielen Dank, dass ihr das so gut zusammengestellt habt. Ich habe eine Frage: Wenn man sich in dieser Grafik die Abbildung zur Definition von TTFT und ITL ansieht, wirkt es so, als würde das Modell erst vier Token von T0 bis T3 erzeugen und dann ein Ausgabetoken ausgeben. Meiner Meinung nach eignet sich diese Grafik eher zur Erklärung von ITL. Bei TTFT sollte im Decode-Schritt nur T0 erscheinen und dann sofort die Detokenisierung erfolgen, sodass das erste Ausgabetoken ankommt (vor allem, weil eine TTFT-Messung sonst in einer Streaming-Umgebung keinen Sinn ergibt).
- Ich habe nicht vor, extra ein Issue dafür zu eröffnen, aber ich würde mir wünschen, dass im Self-Hosting-Teil des Handbuchs lokale Self-Hosting-Inferenz-Open-Source-Projekte wie llama.cpp ausdrücklich empfohlen werden.
- Mir gefällt, dass dieses Handbuch nützlich und gut strukturiert ist. Allerdings ist es in zu viele kleine Seiten aufgeteilt, und auf dem Smartphone wird das Inhaltsverzeichnis standardmäßig nicht angezeigt, was das Lesen unkomfortabel macht. Ich habe nach nur wenigen Seiten aufgehört. Es wäre gut, wenn zumindest jede Sektion auf einer einzigen Seite angezeigt würde.
- Wirklich großartige Arbeit, schön gestaltet und sehr nützlich.
Das Design ist auch wirklich großartig, und ich frage aus Neugier: Wie nennt sich dieser Designstil bzw. Trend, der auf der Website verwendet wurde? Mir hat das Design dieser Seite ebenfalls sehr gefallen.
- Es sieht so aus, als ob das grundlegende CSS-Framework Infima verwendet wird. Das ist das Standard-CSS-Framework von Docusaurus und nutzt einfach den System-Font-Stack. font-family ist -apple-system, BlinkMacSystemFont, "Segoe UI", Roboto, Helvetica, Arial, sans-serif.
Ich hoffe, dass künftig auch mehr Inhalte zu Structured outputs/Guided generation und Sampling ergänzt werden. Als zusätzliche Referenz zu Sampling-Algorithmen in der Inferenzphase ist auch dies hier einen Blick wert.
- Wow, auch diese Zusammenstellung zum Sampling ist wirklich sehr detailliert.
Ich freue mich sehr, dass es so ein Handbuch jetzt gibt. Ich verstehe, warum es bei öffentlich zugänglichen Materialien so viel Interesse und Begeisterung für das Modelltraining gibt, aber es ist ebenso sehr wichtig, Modelle in der Praxis gut zu betreiben. Wenn sie künftig breit in verschiedensten Anwendungen eingeführt werden sollen, wird Wissen über Ausführung und Betrieb immer wichtiger werden.
Danke, dass ihr das alles so gesammelt und geordnet habt. Künftig reicht es wahrscheinlich, einfach diesen einen Link zu teilen, damit Interessierte etwas lernen können. Ein Vorschlag noch: Auf der Seite „OpenAI-compatible API“ wäre es schön, zusätzlich ein Beispiel für reine REST-Aufrufe ohne das OpenAI-Paket aufzunehmen.
Was ich von BentoML noch in Erinnerung habe: Das war ursprünglich eher im Bereich MLOps angesiedelt, glaube ich, und ich erinnere mich, es vor etwa einem Jahr benutzt zu haben. Mich würde interessieren, ob das Unternehmen seinen Schwerpunkt verlagert hat.
- LLM-Serving nimmt im Markt einen großen Stellenwert ein, daher ist es für ein Serving-Framework ein natürlicher Schritt, in diesen Bereich zu expandieren.
Ein wirklich hervorragendes Nachschlagewerk, danke, dass ihr es so gut zusammengestellt habt.