Moondream 3 Preview: Führende Inferenz auf Spitzenniveau mit bahnbrechender Geschwindigkeit

(moondream.ai)

14 Punkte von GN⁺ 2025-09-28 | 1 Kommentare | Auf WhatsApp teilen

Moondream 3 erreicht mit einer 9B-MoE-Struktur und 2B aktiven Parametern gleichzeitig visuelle Inferenzleistung auf Spitzenniveau sowie schnelle und effiziente Inferenzgeschwindigkeit
Das Modell wurde mit Fokus auf eine für reale Vision-Aufgaben spezialisierte Architektur, einfache Trainierbarkeit, hohe Geschwindigkeit und niedrige Kosten entwickelt
Es zeigt starke Leistung in zahlreichen realen Anwendungsfeldern wie Objekterkennung, Pointing, strukturierter Ausgabe und OCR
Es unterstützt eine Kontextlänge von 32k Tokens und stärkt damit die Fähigkeit zur Verarbeitung komplexer Fragen und Antworten deutlich
Erste Benchmarks zeigen gegenüber bestehenden großen Modellen Vorteile bei Antwortgeschwindigkeit und Effizienz

Einführung und Hauptziele

Moondream 3 ist ein neues Vision-Language-Modell auf Basis einer 9B-Mixture-of-Experts(MoE)-Struktur mit 2B aktiven Parametern
Im Vergleich zu bestehenden Modellen zielt es zugleich auf visuelle Inferenzfähigkeiten auf Spitzenniveau sowie sehr schnelle und kosteneffiziente Inferenzleistung ab
Zur Lösung realer Probleme konzentriert es sich auf die folgenden vier Kernbereiche
- Visuelle Inferenz: Ziel ist es, trotz kleiner Modellgröße bei realen Aufgaben hervorragende Fähigkeiten ohne nennenswerte Einbußen der praktischen Leistung zu bieten
- Einfache Trainierbarkeit: Besonderer Wert wird auf leichtes Fine-Tuning für spezialisierte Vision-Aufgaben wie medizinische Bildauswertung oder Anomalieerkennung in Menschenmengen gelegt
- Geschwindigkeit: Unterstützung hoher Geschwindigkeit für Vision-AI-Anwendungen mit Echtzeitanforderungen, etwa Produktklassifizierung oder drohnenbasierte Überwachung
- Geringe Kosten: Mit Blick auf Umgebungen mit hohem Bilddurchsatz wird auch bei großflächigem Einsatz eine Minimierung der Betriebskosten angestrebt
Obwohl es ein 9B-MoE-Modell ist, werden nur 2B aktive Parameter genutzt, was die Grundlage für schnelle und kostengünstige Echtzeit-Inferenz schafft
Durch den Einsatz von Reinforcement Learning wird die Trainingseffizienz verbessert, sodass auch in komplexen Umgebungen eine hohe Anpassungsfähigkeit erreicht wird
Die Kontextlänge wurde stark von 2k auf 32k erweitert, wodurch Probleme bei der Verarbeitung komplexer Kontexte verbessert werden

Praxisbeispiele für Moondream 3

Objekterkennung (Object Detection)
- Moondream 3 geht über einfache Label-Klassifizierung hinaus und kann komplexe Anfragen verstehen sowie kontextgerechte Objekterkennung durchführen
- Im Vergleich zu Frontier-Modellen bietet es differenzierte Leistung bei grundlegenden Funktionen wie Objekterkennung und Pointing
  - Beispiel 1: Erkennung eines „Läufers mit lila Socken“
  - Beispiel 2: Erkennung des UI-Elements „Menge eingeben“
Pointing (Zeigefunktion)
- Moondream 3 verfügt standardmäßig über eine Funktion zum präzisen Zeigen (Pointing) auf bestimmte Objekte im Bild
  - Beispiel 3: Pointing auf das Objekt „Flasche“
  - Beispiel 4: Auswahl des „am besten für Pasta geeigneten Kochutensils“
Strukturierte Ausgabe (Structured Output)
- Mit der 32k-Kontextlänge wird die Fähigkeit zur Erzeugung komplex strukturierter Ausgaben verbessert, und mit minimalem Prompting können Ergebnisse in Formaten wie JSON zurückgegeben werden
  - Beispiel 5: Erzeugung eines JSON-Arrays mit den Feldern dog_id, fur_color und harness_color für Schlittenhund-Informationen
OCR (optische Zeichenerkennung)
- Die OCR-Leistung wurde im Vergleich zu früher deutlich verbessert und ist für verschiedene Anwendungen in der realen Welt nutzbar
- Bei sehr kleiner Schrift gibt es noch gewisse Grenzen, doch bei der Extraktion strukturierter Informationen wie Tabellen zeigt das Modell hohe Genauigkeit
  - Beispiel 6: Umwandlung einer Tabelle zu chemischen Reaktionen in eine Markdown-Tabelle

Benchmarks

Moondream 3 zeigt in verschiedenen Benchmarks eine mit führenden VLMs vergleichbare Leistung
Gleichzeitig weist Moondream 3 in Bezug auf die Antwortgeschwindigkeit weiterhin klare praktische Vorteile gegenüber großen Modellen nach
Vollständigere Benchmark-Ergebnisse und Vergleiche der Inferenzzeit sollen später veröffentlicht werden

Technische Notizen zu Moondream 3

Feingranulares, spärliches Mixture-of-Experts-Modell, bei dem von 64 Experts pro Token jeweils 8 aktiviert werden
Anwendung der Initialisierungstechnik drop upcycling aus Moondream 2 (2B Dense)
Unterstützung der vollen Kontextlänge von 32k Tokens im tatsächlichen Training
Lange Kontext-Samples wurden dem Pretraining beigemischt und dadurch ohne zusätzlichen Kontextverlängerungsschritt effektiv übernommen
Verbesserte Langkontext-Verständnisfähigkeit durch Temperaturskalierung während des Trainings und Anpassung der strukturellen Attention
Unterstützung zweier Modi für logisches Schließen und nichtlogische Erklärungen, mit besonderer Spezialisierung auf bildbasiertes Grounding
RL-basiertes Training verbessert schrittweise die Abhängigkeit von Beispielen visueller Inferenz und die Anpassungsfähigkeit
Durch Load Balancing, orthogonalen Router-Loss usw. wird tokenspezifische Spezialisierung gefördert; in der Post-Training-Phase wird die Stabilität ergänzt
Verbesserte Genauigkeit und Klarheit durch Optimierungen von Attention-Komponenten wie LSE-Unterdrückung und Temperatur-Tuning

Fazit und weitere Pläne

In dieser Preview kann die Geschwindigkeit aufgrund nicht optimierten Inferenzcodes geringer sein; außerdem läuft derzeit zusätzliches Training des Modells
Für die offizielle Version werden deutliche Verbesserungen bei Leistung, Benchmarks und Inferenzgeschwindigkeit erwartet
Geplant sind zudem verschiedene abgeleitete Modelle wie quantisierte und distilled kleine Versionen
Verfügbar in Moondream Playground und auf HuggingFace; Feedback und Fragen können über Discord ausgetauscht werden

Hinweis: Da Frontier-Modelle keine native Objekterkennung unterstützen, wurde für den Vergleich ein Template-Prompt verwendet

1 Kommentare

GN⁺ 2025-09-28

Hacker-News-Kommentare

Ich nutze Moondream 2 wirklich sehr nützlich, hauptsächlich zum automatischen Labeln von Objekterkennungs-Datensätzen für neue Klassen und zum Distillieren in ein viel kleineres CNN mit ähnlicher Genauigkeit
Seit dem Versions-Tag 2025-01-09 habe ich von den angekündigten Leistungsverbesserungen nicht viel gespürt; bei den späteren Releases wurde der Recall zwar besser, aber es ist schade, dass die Precision stark nachgelassen hat
Um solche Probleme besser zu lösen, wäre es gut, wenn Vision-Language-Modelle wie Moondream auch die Class Confidence ausgeben würden
Mir gefällt auch sehr, dass es eine dedizierte Objekterkennungs-API gibt; das habe ich bei anderen Modellen oder Wrappern nicht gesehen
Ich bin gespannt auf die Ergebnisse der Inferenz-Optimierung von Moondream 3, Glückwunsch an das Team
Gründer Vik ist es wert, auf X verfolgt zu werden
- Als Antwort hieß es, man könne Beispiele für Precision-/Recall-Probleme jederzeit an vik@m87.ai mailen
Ich habe es ebenfalls für automatisches Dataset-Labeling verwendet, und es funktioniert wirklich gut
Die Leistung des Moondream-Modells ist wirklich beeindruckend
Als ich mir aber die Ergebnisse der Big-3-Labs angesehen habe, war ich überrascht, wie schlecht Claude und OpenAI abschneiden
Gemini ist zwar schlechter als Moondream, aber immer noch das einzige, das man als wirklich brauchbar bezeichnen kann
Ich hätte nicht gedacht, dass der Leistungsunterschied so groß ist
- Interessanterweise liest nur Gemini die Zahl auf einem D20-Würfel korrekt
  ChatGPT liegt ständig daneben und Claude sagt nur, die Oberseite des Würfels sei verdeckt und deshalb nicht lesbar (sie ist tatsächlich nicht verdeckt)
- Es ist erstaunlich, dass Moondream so gut ist und trotzdem noch nicht von Big Tech übernommen wurde
  Es wirkt so, als würden Anthropic, OpenAI usw. diese Technologie unbedingt in ihre Plattformen integrieren wollen
  Die Leute, die es gebaut haben, sollten reich werden, und kombiniert mit der Reichweite großer Organisationen würde der visuelle Einsatz von LLMs viel nützlicher werden
- Gemini ist bei OCR-artigen Aufgaben wirklich hervorragend, aber bei den meisten anderen bildbezogenen Aufgaben fällt die Leistung meist stark ab
Das Ergebnis ist wirklich cool
Ich habe für Bounding-Box-Automatisierung ebenfalls Gemini bevorzugt, aber wenn das 9B-Modell das schlägt, ist das extrem vielversprechend
Moondream 2 stand unter der Apache-2-Lizenz, aber die 3-Preview offenbar unter BSL; ich frage mich, ob die Lizenz dauerhaft geändert wurde
- Laut der Moondream3-Lizenz soll sie nach zwei Jahren auf Apache 2 wechseln
Auf paper.design verwenden wir moondream2, um von Nutzern hochgeladene Bilder automatisch zu labeln (für den Layer-Tree)
Es ist wirklich schnell und präzise, ich freue mich auch auf 3
Ich habe fünf Minuten lang nach Preisinformationen für Moondream Cloud gesucht, aber es scheint sie gar nicht zu geben (zumindest nicht vor der Registrierung)
Es gibt 5.000 kostenlose Requests, aber bevor man einen echten Service anschließt, muss man zuerst prüfen, ob die Preise sinnvoll sind
- Cloud soll bald erscheinen
  Sie optimieren noch, um die Inferenzkosten weiter zu senken, und bereiten sich darauf vor, den bestmöglichen Preis anzubieten
  Wer den Start früh mitbekommen möchte, kann auch @moondreamai auf X folgen
Ich finde die Wahl der MoE-Architektur besonders interessant
Dass nur 2B Parameter aktiv sind und dennoch die Performance eines 8B-Modells gehalten wird, könnte für Deployments auf Edge-Geräten ein großer Wendepunkt sein
Ich habe viel Erfahrung mit dem Deployment von Vision-Modellen in der Produktion, wo Latenz entscheidend ist, und mit einer Sparse Activation wie hier könnten die Einführungsgrenzen durch die Inferenzkosten großer Vision-Language-Modelle deutlich sinken
Auch die Diagrammverständnis-Funktion ist ein spannender Punkt für Dokumentautomatisierungs-Workflows
Mich würde interessieren, ob jemand die Konsistenz des Modells bei anderer Bildqualität oder unter unterschiedlichen Lichtbedingungen getestet hat
Unter solchen Bedingungen tun sich kleine Modelle oft schwerer als Flaggschiff-Modelle
Beeindruckendes Modell
Ich würde gern wissen, ob es jemand für Computer-/Browser-Steuerung ausprobiert hat und wie gut es mit Graphen und Diagrammen umgeht
- Die Fähigkeit „point“ wurde mit riesigen Mengen an UI-Daten trainiert, und viele Nutzer setzen sie in Kombination mit einem größeren Driver-Modell für UI-Automatisierung ein
  Vor dem finalen Release wird noch versucht, zusätzlich zu trainieren, damit es in Agent-Umgebungen End-to-End funktioniert
  Deshalb wurde auch die Context-Länge erhöht
  Das Diagrammverständnis umfasst verschiedene Typen und ist ziemlich ordentlich
  Im Blog wurde der ChartQA-Benchmark veröffentlicht; dort ist es ähnlich wie GPT5* und etwas besser als Gemini 2.5 Flash
  - Allerdings wird GPT5 bei viel mehr Arten von Charts/Graphen gut funktionieren, während Moondream wegen Preis/Latenz eher für Vision-AI geeignet ist, bei der GPT5 schwer einsetzbar ist
- Ich nutze es für Dataset-Labeling und bin gespannt, wie die Ergebnisse ausfallen
Ich frage mich, ob das Konzept von 2B aktiven Parametern auf Inferenz pro Token bezogen ist und wie es skaliert, wenn sich die Context-Länge ändert
Konkret würde ich gern mehr darüber hören, wie sich MoE auf die Aktivierung während der Inferenz auswirkt und was das praktisch für die Latenz bedeutet
Kann jemand Hardware empfehlen, mit der man dieses Modell lokal halbwegs vernünftig und möglichst günstig betreiben kann?
- Es gibt noch keine quantisierte Version, daher benötigen allein die Gewichte etwa 20 GB Speicher
  Mit KV-Cache wäre eine CPU-Kombination mit 32 GB RAM wohl am günstigsten und trotzdem einigermaßen schnell
  Wegen der geringen Zahl aktiver Parameter ist die Leistung auch auf der CPU ganz ordentlich
Mich würden Vergleichsergebnisse zur Leistung von Qwen3-VL-Modellen gegenüber Moondream interessieren

Moondream 3 Preview: Führende Inferenz auf Spitzenniveau mit bahnbrechender Geschwindigkeit

Einführung und Hauptziele

Praxisbeispiele für Moondream 3

Objekterkennung (Object Detection)

Pointing (Zeigefunktion)

Strukturierte Ausgabe (Structured Output)

OCR (optische Zeichenerkennung)

Benchmarks

Technische Notizen zu Moondream 3

Fazit und weitere Pläne

Verwandte Beiträge

1 Kommentare

Hacker-News-Kommentare