Lemonade by AMD: Schneller Open-Source-LLM-Server für lokale Nutzung mit GPU und NPU

(lemonade-server.ai)

11 Punkte von GN⁺ 27 일 전 | 1 Kommentare | Auf WhatsApp teilen

Ein von AMD unterstützter lokaler AI-Server, der Text, Bilder und Sprache mithilfe von GPU und NPU schnell verarbeitet – als Open-Source-Plattform
Setzt auf lokale Ausführung und Datenschutz und ist mit dem OpenAI-API-Standard kompatibel, sodass eine sofortige Anbindung an verschiedenste Apps möglich ist
Bietet mit einem leichtgewichtigen C++-Backend, automatischer Hardware-Konfiguration und gleichzeitigem Betrieb mehrerer Modelle eine praxisnahe lokale AI-Umgebung
Unterstützt Chat, Vision, Image Generation, Transcription, Speech Generation über eine einzige integrierte API
Bietet dieselbe Umgebung unter Windows, Linux, macOS (Beta), und mit der integrierten GUI lassen sich Modelle einfach herunterladen und wechseln

Zentrale Merkmale

Open Source und lokales Design im Mittelpunkt
- Entwickelt auf Basis der Philosophie, dass lokale AI frei, offen, schnell und privat sein sollte
- Wurde maßgeblich von der lokalen AI-Community aufgebaut und kann auf jedem PC ausgeführt werden
- Legt Wert auf Datenschutz und eine unabhängige Laufzeitumgebung
Schnelle Installation und leichtgewichtige Architektur
- One Minute Install richtet den kompletten Stack automatisch ein
- Das native C++-Backend ist ein leichtgewichtiger Dienst mit einer Größe von etwa 2 MB
- Die Funktion automatische Hardware-Konfiguration richtet GPU- und NPU-Umgebungen automatisch ein
Breite Kompatibilität
- Dank OpenAI-API-Kompatibilität sofort mit Hunderten von Apps nutzbar
- Unterstützt verschiedene Inference-Engines wie llama.cpp, Ryzen AI SW und FastFlowLM
- Mehrere Modelle gleichzeitig ausführen ist möglich, sodass mehrere Modelle parallel laufen können
Integrierte API
- Ein einzelner lokaler Dienst unterstützt Chat, Vision, Image Generation, Transcription und Speech Generation
- Bereitgestellt als standardisierte REST-API; beispielhaft kann über den Endpunkt POST /api/v1/chat/completions ein dialogorientiertes Modell aufgerufen werden
- In der Beispielanfrage wird "model": "Qwen3-0.6B-GGUF" verwendet, um nach der Bevölkerungszahl von Paris zu fragen
Benutzeroberfläche und Ökosystem
- Mit der integrierten GUI-App lassen sich Modelle schnell herunterladen, testen und wechseln
- Auf Basis des OpenAI-API-Standards sofort mit verschiedensten Apps kompatibel
- Kontinuierliche Verbesserungen und Funktionserweiterungen durch Beteiligung der Community

Technische Spezifikationen und Anwendungsbeispiele

Hardware und Leistung
- In einer Umgebung mit 128 GB Unified RAM können große Modelle wie gpt-oss-120b und Qwen-Coder-Next ausgeführt werden
- Mit der Option --no-mmap sind kürzere Ladezeiten und eine größere Kontextgröße (64 und mehr) möglich
Bild- und Sprachfunktionen
- Beispiel für Bildgenerierung: „Limonadenkrug im Stil der Renaissance-Malerei“
- Sprachbeispiel: “Hello, I am your AI assistant. What can I do for you today?”

Neueste Releases

Lemonade wird fortlaufend verbessert; neueste Funktionen und Performance-Verbesserungen werden über den Release-Stream bereitgestellt
Neue Funktionen und Highlights sind auf der offiziellen Website verfügbar

1 Kommentare

GN⁺ 27 일 전

Hacker-News-Kommentare

Ich nutze Lemonade jetzt seit fast einem Jahr. Auf Strix Halo verwende ich praktisch nur das, ohne andere Tools. Die AMD Strix Halo Toolboxes von kyuz0 sind auch gut, aber Lemonade kann zusätzlich TTS, STT, Text- und Bildgenerierung sowie Bildbearbeitung. Es unterstützt verschiedene Backends wie ROCm, Vulkan, CPU, GPU und NPU, und die Entwicklung geht praktisch und schnell voran. Für AMD-Hardware kann ich es klar empfehlen.
Dank OpenAI- und Ollama-kompatibler Endpunkte lässt es sich auch direkt in VSCode Copilot oder Open Web UI nutzen
- Ich frage mich, wie groß der Geschwindigkeitsvorteil wäre, wenn man das Qwen3.5-122B-Modell mit Lemonade auf Strix Halo laufen lässt, verglichen mit Vulkan-basiertem llama.cpp
- Mich würde interessieren, ob es jemand mit Agents oder Claw ausprobiert hat und welche Modelle dabei genutzt wurden
Ich betreibe seit einigen Monaten lokale LLMs auf einer 7900 XTX, und die ROCm-Erfahrung war ziemlich rau. Dass AMD nun einen offiziellen Inferenzserver herausbringt, der Treiber- und Abhängigkeitsprobleme löst, ist ein großer Fortschritt. Ich frage mich aber, ob die NPU-Unterstützung in der Praxis wirklich einen nennenswerten Durchsatz bringt. In meinen Tests war sie außer bei kleinen Modellen eher ein Flaschenhals
- Mich würde interessieren, was genau so schwierig war. Ich betreibe lokale Modelle auf einer RX 7900 XTX mit Ollama und hatte fast keine ROCm-Probleme. Schade ist nur das VRAM-Limit von 24 GB. Ich überlege, für mehr VRAM auf eine Radeon Pro umzusteigen
- Unter Kernel 7.0.0 war Vulkan deutlich schneller als ROCm, mit etwa 20 % oder mehr Leistungsplus
- Die NPU ist bei Akkubetrieb für Energieeffizienz gedacht. Sie ist kein Ersatz für die GPU
Ich frage mich, ob der Name „Lemonade“ vielleicht bedeutet, dass man das Maximum aus Zitronen herausholt
- Weil sich „L-L-M“ ähnlich wie „lemon“ anhört, ist es wohl ein Wortspiel im Stil von LLM-aid → lemonade
- Wenn das Leben einem ständig Zitronen gibt, sollte man lieber explodierende Zitronen bauen
- Ich nutze für lokale Inferenz ausschließlich AMD-Hardware. Bei offenen Treibern, Energieeffizienz und Preis ist sie aus Sicht von Verbrauchern meiner Meinung nach besser als Nvidia
- Der Name „Lemonsqueeze“ sei ausgeschlossen worden, weil er zu gewalttätig klinge
Lemonade wirkt wie etwas zwischen Ollama und LM Studio. Es geht nicht nur um simples Model Serving, sondern interessant ist vor allem der Fokus auf eine integrierte Runtime. Zentral scheint die Orchestrierung mehrerer Modalitäten wie Text, Bild und Audio auf einmal zu sein. Ich frage mich, ob das in der Praxis wirklich eine Abstraktion ist oder eher mehrere zusammengebundene Tools. Auch ist fraglich, ob die AMD/NPU-Optimierung die Portabilität eher verschlechtert
- Es bündelt verschiedene Tools sowie Funktionen zur Auswahl und Verwaltung von Modellen. Die Installation ist auch mit CPU- oder Vulkan-Backend möglich, standardmäßig werden aber nur ROCm-Builds und AMD-NPU unterstützt. Für CUDA muss man die llama.cpp-Version überschreiben, was die Verwaltung umständlich macht. Wenn man auf einer AMD-Maschine lokale Modelle einfach starten will, ist das wohl die leichteste Lösung.
  Ich betreibe es auf meinem NAS zusammen mit Home Assistant. Neben Strix Halo verwalte ich außerdem noch separat einen Server mit CUDA-Karten
Schade ist, dass die von Lemonade verwendeten NPU-Modelle und -Kernel nicht öffentlich sind. Es wäre gut, wenn die offene Unterstützung weiter ausgebaut würde
- In der Dokumentation steht: „Hugging Face-Modelle können auf dem Lemonade Server registriert werden“
- Ich habe die Hardware zwar mit dem Wissen gekauft, dass ich die NPU vielleicht nicht nutzen kann, aber solche Nachrichten zu hören, ist trotzdem nervig
Die eigentliche Stärke von Lemonade ist die multimodale Integration. Textgenerierung, Bildgenerierung und Spracherkennung sind normalerweise drei getrennte Dienste mit jeweils eigener API und eigenem Modellmanagement, aber hier kann ein einzelner Server alles über OpenAI-kompatible Endpunkte bereitstellen. Für Prototyping bringt das einen deutlichen Qualitätsgewinn.
Die NPU ist nützlich für kleine Always-on-Modelle oder Prefill-Offloading, wird für normale Chatbots aber teilweise überschätzt.
Wenn AMD das Scheduling zwischen GPU und NPU transparent macht, sodass Entwickler sich nicht mehr um die Hardware kümmern müssen, könnte es gut zur Standardwahl werden
Ich betreibe Lemonade auf Strix Halo. Es enthält verschiedene Backends wie diffusion und llama, aber ich nutze nur den llama.cpp-ROCm-Build (Link). Mit Bild oder Audio arbeite ich nicht. Mit GPT OSS 120B komme ich auf etwa 50 Token pro Sekunde. Die NPU ist für stromsparende Always-on-Modelle gedacht und bringt bei normalen Chatbots keinen großen Vorteil
- Selbst eine kleine NPU kann einen Teil der Prefill-Berechnungen auslagern. In der Decoding-Phase hängt es aber von Speicherbandbreite und der Unterstützung interner Operationen ab. Die Apple Neural Engine unterstützt zum Beispiel nur INT8-/FP16-Operationen und hilft daher nicht besonders viel
Ich habe die Website und die News-Ankündigung gelesen, bin aber immer noch unsicher, was Lemonade genau ist. Ob es ein Ersatz für LM Studio ist und ob auf dem Mac MLX oder Metal unterstützt werden, würde mich interessieren. Falls der Schwerpunkt auf AMD-Optimierung liegt, würde ich gern wissen, ob andere GPUs im Nachteil sind
- Laut der GitHub-Roadmap ist die macOS-Beta abgeschlossen, MLX-Unterstützung befindet sich in Entwicklung
- Es ist eine One-Stop-Lösung, mit der sich ein lokaler AI-Stack einfach installieren und pflegen lässt. STT, TTS, Bildgenerierung und LLM-Endpunkte werden auf einmal bereitgestellt, außerdem gibt es eine eigene WebUI. OpenAI-, Ollama- und Anthropic-kompatible Endpunkte werden ebenfalls unterstützt
- Wie LM Studio abstrahiert es mehrere Runtimes, kann aber über AMDs FastFlowML-Runtime die NPU der Ryzen-AI-CPU unter Linux nutzen
- LM Studio überlässt die eigentliche LLM-Ausführung anderer Software. Wenn diese Software die NPU nicht unterstützt, fällt die Leistung ab. Lemonade scheint genau diese Backend-Rolle zu übernehmen
Überraschend ist, dass es im Installationsleitfaden für den Linux-Server keine Docker-/Podman-Option gibt. Dort stehen nur Snap/PPA und RPM. Vermutlich sollen Container-Nutzer selbst bauen
- Tatsächlich gibt es eine Docker-Installationsoption. Es wäre gut, wenn sie auch auf der Release-Seite ergänzt würde
Hat es schon jemand mit Ollama verglichen? Ich nutze Ollama mit ROCm 7.4 auf einer 9070 XT problemlos
- Lemonade unterstützt mehrere APIs und spezielle Builds für AMD-GPU und NPU. Es wird direkt von AMD betrieben. Intern basieren beide auf llama.cpp, aber Lemonade hat je nach GPU optimierte Builds
- Auf einem MacBook M1 Max (64 GB RAM) habe ich mit dem Modell qwen3.59b getestet: Ollama brauchte 1 Minute 44 Sekunden, Lemonade 1 Minute 14 Sekunden — Lemonade war schneller
- Mich würde auch ein Vergleich mit vLLM interessieren
- Ich nutze aktuell ebenfalls Ollama, frage mich aber, wie groß der Leistungsunterschied zu Lemonade ist
- Ich würde auch gern wissen, ob es besser als Vulkan ist

Lemonade by AMD: Schneller Open-Source-LLM-Server für lokale Nutzung mit GPU und NPU

Zentrale Merkmale

Open Source und lokales Design im Mittelpunkt

Schnelle Installation und leichtgewichtige Architektur

Breite Kompatibilität

Integrierte API

Benutzeroberfläche und Ökosystem

Technische Spezifikationen und Anwendungsbeispiele

Hardware und Leistung

Bild- und Sprachfunktionen

Neueste Releases

Verwandte Beiträge

1 Kommentare

Hacker-News-Kommentare