Lemonade by AMD: Schneller Open-Source-LLM-Server für lokale Nutzung mit GPU und NPU
(lemonade-server.ai)- Ein von AMD unterstützter lokaler AI-Server, der Text, Bilder und Sprache mithilfe von GPU und NPU schnell verarbeitet – als Open-Source-Plattform
- Setzt auf lokale Ausführung und Datenschutz und ist mit dem OpenAI-API-Standard kompatibel, sodass eine sofortige Anbindung an verschiedenste Apps möglich ist
- Bietet mit einem leichtgewichtigen C++-Backend, automatischer Hardware-Konfiguration und gleichzeitigem Betrieb mehrerer Modelle eine praxisnahe lokale AI-Umgebung
- Unterstützt Chat, Vision, Image Generation, Transcription, Speech Generation über eine einzige integrierte API
- Bietet dieselbe Umgebung unter Windows, Linux, macOS (Beta), und mit der integrierten GUI lassen sich Modelle einfach herunterladen und wechseln
Zentrale Merkmale
-
Open Source und lokales Design im Mittelpunkt
- Entwickelt auf Basis der Philosophie, dass lokale AI frei, offen, schnell und privat sein sollte
- Wurde maßgeblich von der lokalen AI-Community aufgebaut und kann auf jedem PC ausgeführt werden
- Legt Wert auf Datenschutz und eine unabhängige Laufzeitumgebung
-
Schnelle Installation und leichtgewichtige Architektur
- One Minute Install richtet den kompletten Stack automatisch ein
- Das native C++-Backend ist ein leichtgewichtiger Dienst mit einer Größe von etwa 2 MB
- Die Funktion automatische Hardware-Konfiguration richtet GPU- und NPU-Umgebungen automatisch ein
-
Breite Kompatibilität
- Dank OpenAI-API-Kompatibilität sofort mit Hunderten von Apps nutzbar
- Unterstützt verschiedene Inference-Engines wie llama.cpp, Ryzen AI SW und FastFlowLM
- Mehrere Modelle gleichzeitig ausführen ist möglich, sodass mehrere Modelle parallel laufen können
-
Integrierte API
- Ein einzelner lokaler Dienst unterstützt Chat, Vision, Image Generation, Transcription und Speech Generation
- Bereitgestellt als standardisierte REST-API; beispielhaft kann über den Endpunkt
POST /api/v1/chat/completionsein dialogorientiertes Modell aufgerufen werden - In der Beispielanfrage wird
"model": "Qwen3-0.6B-GGUF"verwendet, um nach der Bevölkerungszahl von Paris zu fragen
-
Benutzeroberfläche und Ökosystem
- Mit der integrierten GUI-App lassen sich Modelle schnell herunterladen, testen und wechseln
- Auf Basis des OpenAI-API-Standards sofort mit verschiedensten Apps kompatibel
- Kontinuierliche Verbesserungen und Funktionserweiterungen durch Beteiligung der Community
Technische Spezifikationen und Anwendungsbeispiele
-
Hardware und Leistung
- In einer Umgebung mit 128 GB Unified RAM können große Modelle wie gpt-oss-120b und Qwen-Coder-Next ausgeführt werden
- Mit der Option
--no-mmapsind kürzere Ladezeiten und eine größere Kontextgröße (64 und mehr) möglich
-
Bild- und Sprachfunktionen
- Beispiel für Bildgenerierung: „Limonadenkrug im Stil der Renaissance-Malerei“
- Sprachbeispiel: “Hello, I am your AI assistant. What can I do for you today?”
Neueste Releases
- Lemonade wird fortlaufend verbessert; neueste Funktionen und Performance-Verbesserungen werden über den Release-Stream bereitgestellt
- Neue Funktionen und Highlights sind auf der offiziellen Website verfügbar
1 Kommentare
Hacker-News-Kommentare
Ich nutze Lemonade jetzt seit fast einem Jahr. Auf Strix Halo verwende ich praktisch nur das, ohne andere Tools. Die AMD Strix Halo Toolboxes von kyuz0 sind auch gut, aber Lemonade kann zusätzlich TTS, STT, Text- und Bildgenerierung sowie Bildbearbeitung. Es unterstützt verschiedene Backends wie ROCm, Vulkan, CPU, GPU und NPU, und die Entwicklung geht praktisch und schnell voran. Für AMD-Hardware kann ich es klar empfehlen.
Dank OpenAI- und Ollama-kompatibler Endpunkte lässt es sich auch direkt in VSCode Copilot oder Open Web UI nutzen
Ich betreibe seit einigen Monaten lokale LLMs auf einer 7900 XTX, und die ROCm-Erfahrung war ziemlich rau. Dass AMD nun einen offiziellen Inferenzserver herausbringt, der Treiber- und Abhängigkeitsprobleme löst, ist ein großer Fortschritt. Ich frage mich aber, ob die NPU-Unterstützung in der Praxis wirklich einen nennenswerten Durchsatz bringt. In meinen Tests war sie außer bei kleinen Modellen eher ein Flaschenhals
Ich frage mich, ob der Name „Lemonade“ vielleicht bedeutet, dass man das Maximum aus Zitronen herausholt
Lemonade wirkt wie etwas zwischen Ollama und LM Studio. Es geht nicht nur um simples Model Serving, sondern interessant ist vor allem der Fokus auf eine integrierte Runtime. Zentral scheint die Orchestrierung mehrerer Modalitäten wie Text, Bild und Audio auf einmal zu sein. Ich frage mich, ob das in der Praxis wirklich eine Abstraktion ist oder eher mehrere zusammengebundene Tools. Auch ist fraglich, ob die AMD/NPU-Optimierung die Portabilität eher verschlechtert
Ich betreibe es auf meinem NAS zusammen mit Home Assistant. Neben Strix Halo verwalte ich außerdem noch separat einen Server mit CUDA-Karten
Schade ist, dass die von Lemonade verwendeten NPU-Modelle und -Kernel nicht öffentlich sind. Es wäre gut, wenn die offene Unterstützung weiter ausgebaut würde
Die eigentliche Stärke von Lemonade ist die multimodale Integration. Textgenerierung, Bildgenerierung und Spracherkennung sind normalerweise drei getrennte Dienste mit jeweils eigener API und eigenem Modellmanagement, aber hier kann ein einzelner Server alles über OpenAI-kompatible Endpunkte bereitstellen. Für Prototyping bringt das einen deutlichen Qualitätsgewinn.
Die NPU ist nützlich für kleine Always-on-Modelle oder Prefill-Offloading, wird für normale Chatbots aber teilweise überschätzt.
Wenn AMD das Scheduling zwischen GPU und NPU transparent macht, sodass Entwickler sich nicht mehr um die Hardware kümmern müssen, könnte es gut zur Standardwahl werden
Ich betreibe Lemonade auf Strix Halo. Es enthält verschiedene Backends wie diffusion und llama, aber ich nutze nur den llama.cpp-ROCm-Build (Link). Mit Bild oder Audio arbeite ich nicht. Mit GPT OSS 120B komme ich auf etwa 50 Token pro Sekunde. Die NPU ist für stromsparende Always-on-Modelle gedacht und bringt bei normalen Chatbots keinen großen Vorteil
Ich habe die Website und die News-Ankündigung gelesen, bin aber immer noch unsicher, was Lemonade genau ist. Ob es ein Ersatz für LM Studio ist und ob auf dem Mac MLX oder Metal unterstützt werden, würde mich interessieren. Falls der Schwerpunkt auf AMD-Optimierung liegt, würde ich gern wissen, ob andere GPUs im Nachteil sind
Überraschend ist, dass es im Installationsleitfaden für den Linux-Server keine Docker-/Podman-Option gibt. Dort stehen nur Snap/PPA und RPM. Vermutlich sollen Container-Nutzer selbst bauen
Hat es schon jemand mit Ollama verglichen? Ich nutze Ollama mit ROCm 7.4 auf einer 9070 XT problemlos