14 Punkte von GN⁺ 2025-09-28 | 1 Kommentare | Auf WhatsApp teilen
  • Moondream 3 erreicht mit einer 9B-MoE-Struktur und 2B aktiven Parametern gleichzeitig visuelle Inferenzleistung auf Spitzenniveau sowie schnelle und effiziente Inferenzgeschwindigkeit
  • Das Modell wurde mit Fokus auf eine für reale Vision-Aufgaben spezialisierte Architektur, einfache Trainierbarkeit, hohe Geschwindigkeit und niedrige Kosten entwickelt
  • Es zeigt starke Leistung in zahlreichen realen Anwendungsfeldern wie Objekterkennung, Pointing, strukturierter Ausgabe und OCR
  • Es unterstützt eine Kontextlänge von 32k Tokens und stärkt damit die Fähigkeit zur Verarbeitung komplexer Fragen und Antworten deutlich
  • Erste Benchmarks zeigen gegenüber bestehenden großen Modellen Vorteile bei Antwortgeschwindigkeit und Effizienz

Einführung und Hauptziele

  • Moondream 3 ist ein neues Vision-Language-Modell auf Basis einer 9B-Mixture-of-Experts(MoE)-Struktur mit 2B aktiven Parametern
  • Im Vergleich zu bestehenden Modellen zielt es zugleich auf visuelle Inferenzfähigkeiten auf Spitzenniveau sowie sehr schnelle und kosteneffiziente Inferenzleistung ab
  • Zur Lösung realer Probleme konzentriert es sich auf die folgenden vier Kernbereiche
    • Visuelle Inferenz: Ziel ist es, trotz kleiner Modellgröße bei realen Aufgaben hervorragende Fähigkeiten ohne nennenswerte Einbußen der praktischen Leistung zu bieten
    • Einfache Trainierbarkeit: Besonderer Wert wird auf leichtes Fine-Tuning für spezialisierte Vision-Aufgaben wie medizinische Bildauswertung oder Anomalieerkennung in Menschenmengen gelegt
    • Geschwindigkeit: Unterstützung hoher Geschwindigkeit für Vision-AI-Anwendungen mit Echtzeitanforderungen, etwa Produktklassifizierung oder drohnenbasierte Überwachung
    • Geringe Kosten: Mit Blick auf Umgebungen mit hohem Bilddurchsatz wird auch bei großflächigem Einsatz eine Minimierung der Betriebskosten angestrebt
  • Obwohl es ein 9B-MoE-Modell ist, werden nur 2B aktive Parameter genutzt, was die Grundlage für schnelle und kostengünstige Echtzeit-Inferenz schafft
  • Durch den Einsatz von Reinforcement Learning wird die Trainingseffizienz verbessert, sodass auch in komplexen Umgebungen eine hohe Anpassungsfähigkeit erreicht wird
  • Die Kontextlänge wurde stark von 2k auf 32k erweitert, wodurch Probleme bei der Verarbeitung komplexer Kontexte verbessert werden

Praxisbeispiele für Moondream 3

  • Objekterkennung (Object Detection)

    • Moondream 3 geht über einfache Label-Klassifizierung hinaus und kann komplexe Anfragen verstehen sowie kontextgerechte Objekterkennung durchführen
    • Im Vergleich zu Frontier-Modellen bietet es differenzierte Leistung bei grundlegenden Funktionen wie Objekterkennung und Pointing
      • Beispiel 1: Erkennung eines „Läufers mit lila Socken“
      • Beispiel 2: Erkennung des UI-Elements „Menge eingeben“
  • Pointing (Zeigefunktion)

    • Moondream 3 verfügt standardmäßig über eine Funktion zum präzisen Zeigen (Pointing) auf bestimmte Objekte im Bild
      • Beispiel 3: Pointing auf das Objekt „Flasche“
      • Beispiel 4: Auswahl des „am besten für Pasta geeigneten Kochutensils“
  • Strukturierte Ausgabe (Structured Output)

    • Mit der 32k-Kontextlänge wird die Fähigkeit zur Erzeugung komplex strukturierter Ausgaben verbessert, und mit minimalem Prompting können Ergebnisse in Formaten wie JSON zurückgegeben werden
      • Beispiel 5: Erzeugung eines JSON-Arrays mit den Feldern dog_id, fur_color und harness_color für Schlittenhund-Informationen
  • OCR (optische Zeichenerkennung)

    • Die OCR-Leistung wurde im Vergleich zu früher deutlich verbessert und ist für verschiedene Anwendungen in der realen Welt nutzbar
    • Bei sehr kleiner Schrift gibt es noch gewisse Grenzen, doch bei der Extraktion strukturierter Informationen wie Tabellen zeigt das Modell hohe Genauigkeit
      • Beispiel 6: Umwandlung einer Tabelle zu chemischen Reaktionen in eine Markdown-Tabelle

Benchmarks

  • Moondream 3 zeigt in verschiedenen Benchmarks eine mit führenden VLMs vergleichbare Leistung
  • Gleichzeitig weist Moondream 3 in Bezug auf die Antwortgeschwindigkeit weiterhin klare praktische Vorteile gegenüber großen Modellen nach
  • Vollständigere Benchmark-Ergebnisse und Vergleiche der Inferenzzeit sollen später veröffentlicht werden

Technische Notizen zu Moondream 3

  • Feingranulares, spärliches Mixture-of-Experts-Modell, bei dem von 64 Experts pro Token jeweils 8 aktiviert werden
  • Anwendung der Initialisierungstechnik drop upcycling aus Moondream 2 (2B Dense)
  • Unterstützung der vollen Kontextlänge von 32k Tokens im tatsächlichen Training
  • Lange Kontext-Samples wurden dem Pretraining beigemischt und dadurch ohne zusätzlichen Kontextverlängerungsschritt effektiv übernommen
  • Verbesserte Langkontext-Verständnisfähigkeit durch Temperaturskalierung während des Trainings und Anpassung der strukturellen Attention
  • Unterstützung zweier Modi für logisches Schließen und nichtlogische Erklärungen, mit besonderer Spezialisierung auf bildbasiertes Grounding
  • RL-basiertes Training verbessert schrittweise die Abhängigkeit von Beispielen visueller Inferenz und die Anpassungsfähigkeit
  • Durch Load Balancing, orthogonalen Router-Loss usw. wird tokenspezifische Spezialisierung gefördert; in der Post-Training-Phase wird die Stabilität ergänzt
  • Verbesserte Genauigkeit und Klarheit durch Optimierungen von Attention-Komponenten wie LSE-Unterdrückung und Temperatur-Tuning

Fazit und weitere Pläne

  • In dieser Preview kann die Geschwindigkeit aufgrund nicht optimierten Inferenzcodes geringer sein; außerdem läuft derzeit zusätzliches Training des Modells
  • Für die offizielle Version werden deutliche Verbesserungen bei Leistung, Benchmarks und Inferenzgeschwindigkeit erwartet
  • Geplant sind zudem verschiedene abgeleitete Modelle wie quantisierte und distilled kleine Versionen
  • Verfügbar in Moondream Playground und auf HuggingFace; Feedback und Fragen können über Discord ausgetauscht werden

Hinweis: Da Frontier-Modelle keine native Objekterkennung unterstützen, wurde für den Vergleich ein Template-Prompt verwendet

1 Kommentare

 
GN⁺ 2025-09-28
Hacker-News-Kommentare
  • Ich nutze Moondream 2 wirklich sehr nützlich, hauptsächlich zum automatischen Labeln von Objekterkennungs-Datensätzen für neue Klassen und zum Distillieren in ein viel kleineres CNN mit ähnlicher Genauigkeit
    Seit dem Versions-Tag 2025-01-09 habe ich von den angekündigten Leistungsverbesserungen nicht viel gespürt; bei den späteren Releases wurde der Recall zwar besser, aber es ist schade, dass die Precision stark nachgelassen hat
    Um solche Probleme besser zu lösen, wäre es gut, wenn Vision-Language-Modelle wie Moondream auch die Class Confidence ausgeben würden
    Mir gefällt auch sehr, dass es eine dedizierte Objekterkennungs-API gibt; das habe ich bei anderen Modellen oder Wrappern nicht gesehen
    Ich bin gespannt auf die Ergebnisse der Inferenz-Optimierung von Moondream 3, Glückwunsch an das Team
    Gründer Vik ist es wert, auf X verfolgt zu werden
    • Als Antwort hieß es, man könne Beispiele für Precision-/Recall-Probleme jederzeit an vik@m87.ai mailen
  • Ich habe es ebenfalls für automatisches Dataset-Labeling verwendet, und es funktioniert wirklich gut
  • Die Leistung des Moondream-Modells ist wirklich beeindruckend
    Als ich mir aber die Ergebnisse der Big-3-Labs angesehen habe, war ich überrascht, wie schlecht Claude und OpenAI abschneiden
    Gemini ist zwar schlechter als Moondream, aber immer noch das einzige, das man als wirklich brauchbar bezeichnen kann
    Ich hätte nicht gedacht, dass der Leistungsunterschied so groß ist
    • Interessanterweise liest nur Gemini die Zahl auf einem D20-Würfel korrekt
      ChatGPT liegt ständig daneben und Claude sagt nur, die Oberseite des Würfels sei verdeckt und deshalb nicht lesbar (sie ist tatsächlich nicht verdeckt)
    • Es ist erstaunlich, dass Moondream so gut ist und trotzdem noch nicht von Big Tech übernommen wurde
      Es wirkt so, als würden Anthropic, OpenAI usw. diese Technologie unbedingt in ihre Plattformen integrieren wollen
      Die Leute, die es gebaut haben, sollten reich werden, und kombiniert mit der Reichweite großer Organisationen würde der visuelle Einsatz von LLMs viel nützlicher werden
    • Gemini ist bei OCR-artigen Aufgaben wirklich hervorragend, aber bei den meisten anderen bildbezogenen Aufgaben fällt die Leistung meist stark ab
  • Das Ergebnis ist wirklich cool
    Ich habe für Bounding-Box-Automatisierung ebenfalls Gemini bevorzugt, aber wenn das 9B-Modell das schlägt, ist das extrem vielversprechend
    Moondream 2 stand unter der Apache-2-Lizenz, aber die 3-Preview offenbar unter BSL; ich frage mich, ob die Lizenz dauerhaft geändert wurde
  • Auf paper.design verwenden wir moondream2, um von Nutzern hochgeladene Bilder automatisch zu labeln (für den Layer-Tree)
    Es ist wirklich schnell und präzise, ich freue mich auch auf 3
  • Ich habe fünf Minuten lang nach Preisinformationen für Moondream Cloud gesucht, aber es scheint sie gar nicht zu geben (zumindest nicht vor der Registrierung)
    Es gibt 5.000 kostenlose Requests, aber bevor man einen echten Service anschließt, muss man zuerst prüfen, ob die Preise sinnvoll sind
    • Cloud soll bald erscheinen
      Sie optimieren noch, um die Inferenzkosten weiter zu senken, und bereiten sich darauf vor, den bestmöglichen Preis anzubieten
      Wer den Start früh mitbekommen möchte, kann auch @moondreamai auf X folgen
  • Ich finde die Wahl der MoE-Architektur besonders interessant
    Dass nur 2B Parameter aktiv sind und dennoch die Performance eines 8B-Modells gehalten wird, könnte für Deployments auf Edge-Geräten ein großer Wendepunkt sein
    Ich habe viel Erfahrung mit dem Deployment von Vision-Modellen in der Produktion, wo Latenz entscheidend ist, und mit einer Sparse Activation wie hier könnten die Einführungsgrenzen durch die Inferenzkosten großer Vision-Language-Modelle deutlich sinken
    Auch die Diagrammverständnis-Funktion ist ein spannender Punkt für Dokumentautomatisierungs-Workflows
    Mich würde interessieren, ob jemand die Konsistenz des Modells bei anderer Bildqualität oder unter unterschiedlichen Lichtbedingungen getestet hat
    Unter solchen Bedingungen tun sich kleine Modelle oft schwerer als Flaggschiff-Modelle
  • Beeindruckendes Modell
    Ich würde gern wissen, ob es jemand für Computer-/Browser-Steuerung ausprobiert hat und wie gut es mit Graphen und Diagrammen umgeht
    • Die Fähigkeit „point“ wurde mit riesigen Mengen an UI-Daten trainiert, und viele Nutzer setzen sie in Kombination mit einem größeren Driver-Modell für UI-Automatisierung ein
      Vor dem finalen Release wird noch versucht, zusätzlich zu trainieren, damit es in Agent-Umgebungen End-to-End funktioniert
      Deshalb wurde auch die Context-Länge erhöht
      Das Diagrammverständnis umfasst verschiedene Typen und ist ziemlich ordentlich
      Im Blog wurde der ChartQA-Benchmark veröffentlicht; dort ist es ähnlich wie GPT5* und etwas besser als Gemini 2.5 Flash
      • Allerdings wird GPT5 bei viel mehr Arten von Charts/Graphen gut funktionieren, während Moondream wegen Preis/Latenz eher für Vision-AI geeignet ist, bei der GPT5 schwer einsetzbar ist
    • Ich nutze es für Dataset-Labeling und bin gespannt, wie die Ergebnisse ausfallen
  • Ich frage mich, ob das Konzept von 2B aktiven Parametern auf Inferenz pro Token bezogen ist und wie es skaliert, wenn sich die Context-Länge ändert
    Konkret würde ich gern mehr darüber hören, wie sich MoE auf die Aktivierung während der Inferenz auswirkt und was das praktisch für die Latenz bedeutet
  • Kann jemand Hardware empfehlen, mit der man dieses Modell lokal halbwegs vernünftig und möglichst günstig betreiben kann?
    • Es gibt noch keine quantisierte Version, daher benötigen allein die Gewichte etwa 20 GB Speicher
      Mit KV-Cache wäre eine CPU-Kombination mit 32 GB RAM wohl am günstigsten und trotzdem einigermaßen schnell
      Wegen der geringen Zahl aktiver Parameter ist die Leistung auch auf der CPU ganz ordentlich
  • Mich würden Vergleichsergebnisse zur Leistung von Qwen3-VL-Modellen gegenüber Moondream interessieren