Moondream 3 Preview: Führende Inferenz auf Spitzenniveau mit bahnbrechender Geschwindigkeit
(moondream.ai)- Moondream 3 erreicht mit einer 9B-MoE-Struktur und 2B aktiven Parametern gleichzeitig visuelle Inferenzleistung auf Spitzenniveau sowie schnelle und effiziente Inferenzgeschwindigkeit
- Das Modell wurde mit Fokus auf eine für reale Vision-Aufgaben spezialisierte Architektur, einfache Trainierbarkeit, hohe Geschwindigkeit und niedrige Kosten entwickelt
- Es zeigt starke Leistung in zahlreichen realen Anwendungsfeldern wie Objekterkennung, Pointing, strukturierter Ausgabe und OCR
- Es unterstützt eine Kontextlänge von 32k Tokens und stärkt damit die Fähigkeit zur Verarbeitung komplexer Fragen und Antworten deutlich
- Erste Benchmarks zeigen gegenüber bestehenden großen Modellen Vorteile bei Antwortgeschwindigkeit und Effizienz
Einführung und Hauptziele
- Moondream 3 ist ein neues Vision-Language-Modell auf Basis einer 9B-Mixture-of-Experts(MoE)-Struktur mit 2B aktiven Parametern
- Im Vergleich zu bestehenden Modellen zielt es zugleich auf visuelle Inferenzfähigkeiten auf Spitzenniveau sowie sehr schnelle und kosteneffiziente Inferenzleistung ab
- Zur Lösung realer Probleme konzentriert es sich auf die folgenden vier Kernbereiche
- Visuelle Inferenz: Ziel ist es, trotz kleiner Modellgröße bei realen Aufgaben hervorragende Fähigkeiten ohne nennenswerte Einbußen der praktischen Leistung zu bieten
- Einfache Trainierbarkeit: Besonderer Wert wird auf leichtes Fine-Tuning für spezialisierte Vision-Aufgaben wie medizinische Bildauswertung oder Anomalieerkennung in Menschenmengen gelegt
- Geschwindigkeit: Unterstützung hoher Geschwindigkeit für Vision-AI-Anwendungen mit Echtzeitanforderungen, etwa Produktklassifizierung oder drohnenbasierte Überwachung
- Geringe Kosten: Mit Blick auf Umgebungen mit hohem Bilddurchsatz wird auch bei großflächigem Einsatz eine Minimierung der Betriebskosten angestrebt
- Obwohl es ein 9B-MoE-Modell ist, werden nur 2B aktive Parameter genutzt, was die Grundlage für schnelle und kostengünstige Echtzeit-Inferenz schafft
- Durch den Einsatz von Reinforcement Learning wird die Trainingseffizienz verbessert, sodass auch in komplexen Umgebungen eine hohe Anpassungsfähigkeit erreicht wird
- Die Kontextlänge wurde stark von 2k auf 32k erweitert, wodurch Probleme bei der Verarbeitung komplexer Kontexte verbessert werden
Praxisbeispiele für Moondream 3
-
Objekterkennung (Object Detection)
- Moondream 3 geht über einfache Label-Klassifizierung hinaus und kann komplexe Anfragen verstehen sowie kontextgerechte Objekterkennung durchführen
- Im Vergleich zu Frontier-Modellen bietet es differenzierte Leistung bei grundlegenden Funktionen wie Objekterkennung und Pointing
- Beispiel 1: Erkennung eines „Läufers mit lila Socken“
- Beispiel 2: Erkennung des UI-Elements „Menge eingeben“
-
Pointing (Zeigefunktion)
- Moondream 3 verfügt standardmäßig über eine Funktion zum präzisen Zeigen (Pointing) auf bestimmte Objekte im Bild
- Beispiel 3: Pointing auf das Objekt „Flasche“
- Beispiel 4: Auswahl des „am besten für Pasta geeigneten Kochutensils“
- Moondream 3 verfügt standardmäßig über eine Funktion zum präzisen Zeigen (Pointing) auf bestimmte Objekte im Bild
-
Strukturierte Ausgabe (Structured Output)
- Mit der 32k-Kontextlänge wird die Fähigkeit zur Erzeugung komplex strukturierter Ausgaben verbessert, und mit minimalem Prompting können Ergebnisse in Formaten wie JSON zurückgegeben werden
- Beispiel 5: Erzeugung eines JSON-Arrays mit den Feldern dog_id, fur_color und harness_color für Schlittenhund-Informationen
- Mit der 32k-Kontextlänge wird die Fähigkeit zur Erzeugung komplex strukturierter Ausgaben verbessert, und mit minimalem Prompting können Ergebnisse in Formaten wie JSON zurückgegeben werden
-
OCR (optische Zeichenerkennung)
- Die OCR-Leistung wurde im Vergleich zu früher deutlich verbessert und ist für verschiedene Anwendungen in der realen Welt nutzbar
- Bei sehr kleiner Schrift gibt es noch gewisse Grenzen, doch bei der Extraktion strukturierter Informationen wie Tabellen zeigt das Modell hohe Genauigkeit
- Beispiel 6: Umwandlung einer Tabelle zu chemischen Reaktionen in eine Markdown-Tabelle
Benchmarks
- Moondream 3 zeigt in verschiedenen Benchmarks eine mit führenden VLMs vergleichbare Leistung
- Gleichzeitig weist Moondream 3 in Bezug auf die Antwortgeschwindigkeit weiterhin klare praktische Vorteile gegenüber großen Modellen nach
- Vollständigere Benchmark-Ergebnisse und Vergleiche der Inferenzzeit sollen später veröffentlicht werden
Technische Notizen zu Moondream 3
- Feingranulares, spärliches Mixture-of-Experts-Modell, bei dem von 64 Experts pro Token jeweils 8 aktiviert werden
- Anwendung der Initialisierungstechnik drop upcycling aus Moondream 2 (2B Dense)
- Unterstützung der vollen Kontextlänge von 32k Tokens im tatsächlichen Training
- Lange Kontext-Samples wurden dem Pretraining beigemischt und dadurch ohne zusätzlichen Kontextverlängerungsschritt effektiv übernommen
- Verbesserte Langkontext-Verständnisfähigkeit durch Temperaturskalierung während des Trainings und Anpassung der strukturellen Attention
- Unterstützung zweier Modi für logisches Schließen und nichtlogische Erklärungen, mit besonderer Spezialisierung auf bildbasiertes Grounding
- RL-basiertes Training verbessert schrittweise die Abhängigkeit von Beispielen visueller Inferenz und die Anpassungsfähigkeit
- Durch Load Balancing, orthogonalen Router-Loss usw. wird tokenspezifische Spezialisierung gefördert; in der Post-Training-Phase wird die Stabilität ergänzt
- Verbesserte Genauigkeit und Klarheit durch Optimierungen von Attention-Komponenten wie LSE-Unterdrückung und Temperatur-Tuning
Fazit und weitere Pläne
- In dieser Preview kann die Geschwindigkeit aufgrund nicht optimierten Inferenzcodes geringer sein; außerdem läuft derzeit zusätzliches Training des Modells
- Für die offizielle Version werden deutliche Verbesserungen bei Leistung, Benchmarks und Inferenzgeschwindigkeit erwartet
- Geplant sind zudem verschiedene abgeleitete Modelle wie quantisierte und distilled kleine Versionen
- Verfügbar in Moondream Playground und auf HuggingFace; Feedback und Fragen können über Discord ausgetauscht werden
Hinweis: Da Frontier-Modelle keine native Objekterkennung unterstützen, wurde für den Vergleich ein Template-Prompt verwendet
1 Kommentare
Hacker-News-Kommentare
Seit dem Versions-Tag 2025-01-09 habe ich von den angekündigten Leistungsverbesserungen nicht viel gespürt; bei den späteren Releases wurde der Recall zwar besser, aber es ist schade, dass die Precision stark nachgelassen hat
Um solche Probleme besser zu lösen, wäre es gut, wenn Vision-Language-Modelle wie Moondream auch die Class Confidence ausgeben würden
Mir gefällt auch sehr, dass es eine dedizierte Objekterkennungs-API gibt; das habe ich bei anderen Modellen oder Wrappern nicht gesehen
Ich bin gespannt auf die Ergebnisse der Inferenz-Optimierung von Moondream 3, Glückwunsch an das Team
Gründer Vik ist es wert, auf X verfolgt zu werden
Als ich mir aber die Ergebnisse der Big-3-Labs angesehen habe, war ich überrascht, wie schlecht Claude und OpenAI abschneiden
Gemini ist zwar schlechter als Moondream, aber immer noch das einzige, das man als wirklich brauchbar bezeichnen kann
Ich hätte nicht gedacht, dass der Leistungsunterschied so groß ist
ChatGPT liegt ständig daneben und Claude sagt nur, die Oberseite des Würfels sei verdeckt und deshalb nicht lesbar (sie ist tatsächlich nicht verdeckt)
Es wirkt so, als würden Anthropic, OpenAI usw. diese Technologie unbedingt in ihre Plattformen integrieren wollen
Die Leute, die es gebaut haben, sollten reich werden, und kombiniert mit der Reichweite großer Organisationen würde der visuelle Einsatz von LLMs viel nützlicher werden
Ich habe für Bounding-Box-Automatisierung ebenfalls Gemini bevorzugt, aber wenn das 9B-Modell das schlägt, ist das extrem vielversprechend
Moondream 2 stand unter der Apache-2-Lizenz, aber die 3-Preview offenbar unter BSL; ich frage mich, ob die Lizenz dauerhaft geändert wurde
Es ist wirklich schnell und präzise, ich freue mich auch auf 3
Es gibt 5.000 kostenlose Requests, aber bevor man einen echten Service anschließt, muss man zuerst prüfen, ob die Preise sinnvoll sind
Sie optimieren noch, um die Inferenzkosten weiter zu senken, und bereiten sich darauf vor, den bestmöglichen Preis anzubieten
Wer den Start früh mitbekommen möchte, kann auch @moondreamai auf X folgen
Dass nur 2B Parameter aktiv sind und dennoch die Performance eines 8B-Modells gehalten wird, könnte für Deployments auf Edge-Geräten ein großer Wendepunkt sein
Ich habe viel Erfahrung mit dem Deployment von Vision-Modellen in der Produktion, wo Latenz entscheidend ist, und mit einer Sparse Activation wie hier könnten die Einführungsgrenzen durch die Inferenzkosten großer Vision-Language-Modelle deutlich sinken
Auch die Diagrammverständnis-Funktion ist ein spannender Punkt für Dokumentautomatisierungs-Workflows
Mich würde interessieren, ob jemand die Konsistenz des Modells bei anderer Bildqualität oder unter unterschiedlichen Lichtbedingungen getestet hat
Unter solchen Bedingungen tun sich kleine Modelle oft schwerer als Flaggschiff-Modelle
Ich würde gern wissen, ob es jemand für Computer-/Browser-Steuerung ausprobiert hat und wie gut es mit Graphen und Diagrammen umgeht
Vor dem finalen Release wird noch versucht, zusätzlich zu trainieren, damit es in Agent-Umgebungen End-to-End funktioniert
Deshalb wurde auch die Context-Länge erhöht
Das Diagrammverständnis umfasst verschiedene Typen und ist ziemlich ordentlich
Im Blog wurde der ChartQA-Benchmark veröffentlicht; dort ist es ähnlich wie GPT5* und etwas besser als Gemini 2.5 Flash
Konkret würde ich gern mehr darüber hören, wie sich MoE auf die Aktivierung während der Inferenz auswirkt und was das praktisch für die Latenz bedeutet
Mit KV-Cache wäre eine CPU-Kombination mit 32 GB RAM wohl am günstigsten und trotzdem einigermaßen schnell
Wegen der geringen Zahl aktiver Parameter ist die Leistung auch auf der CPU ganz ordentlich