Apples FastVLM – effiziente Bildkodierung für Vision-Language-Modelle

(github.com/apple)

15 Punkte von GN⁺ 2025-05-14 | 1 Kommentare | Auf WhatsApp teilen

Offizielles Repo von Apple für das auf der CVPR 2025 vorgestellte Paper "FastVLM: Efficient Vision Encoding for Vision Language Models"
FastViTHD zeigt eine Reduzierung der Token-Anzahl und kürzere Kodierungszeiten für hochauflösende Bilder
Das kleinste Modell erzielt 85-fach schnellere Ergebnisse als LLaVA-OneVision-0.5B und einen 3,4-fach kleineren Encoder
Das große Modell zeigt überlegene Leistung gegenüber Cambrian-1-8B und ist 7,9-fach schneller
Eine Demo-App für mobile Geräte wie das iPhone wird bereitgestellt

Bedeutung und Vorteile des FastVLM-Projekts

FastVLM ist eine offizielle Open-Source-Implementierung für Vision-Language-Modelle (Vision Language Model, VLM)
Gegenüber bestehenden Vision-Encodern bietet es herausragende Vorteile bei Geschwindigkeit und Effizienz
Es ist auf verschiedener Hardware einsetzbar, insbesondere in Apple Silicon- und mobilen Umgebungen
Vorgefertigte Modelle in unterschiedlichen Größen und Leistungsklassen können direkt ausgewählt und genutzt werden
Im Vergleich zu anderen Projekten gewährleistet die kleinere Modellgröße optimierte Echtzeitreaktionen und einen geringen Hardwarebedarf

Wichtige Merkmale

FastViTHD ist ein innovativer Vision-Encoder mit Hybridarchitektur, der die Anzahl der Ausgabetokens reduziert und die Kodierungszeit hochauflösender Bilder deutlich verkürzt
Das kleinste Modell FastVLM-0.5B bietet eine 85-fach schnellere TTFT (Time to First Token) als LLaVA-OneVision-0.5B sowie einen 3,4-fach kleineren Encoder
Das große FastVLM-7B-Modell in Kombination mit dem Qwen2-7B-LLM zeigt im Vergleich zu aktuellen SOTA-Modellen wie Cambrian-1-8B eine 7,9-fach schnellere TTFT und starke Leistung mit einem einzelnen Bild-Encoder
Es wird sogar eine Demo-App bereitgestellt, die in einer realen mobilen Umgebung (iOS) läuft, sodass sich der praktische Nutzen der Technologie sofort überprüfen lässt

Modellinformationen (Model Zoo)

FastVLM-Modelle in verschiedenen Größen (FastVLM-0.5B, FastVLM-1.5B, FastVLM-7B) werden in Versionen der Stufe 2 und Stufe 3 bereitgestellt
Für jedes Modell werden offiziell PyTorch-Checkpoint-Dateien angeboten
Mit den offiziell bereitgestellten Befehlen können Nutzer mehrere Modelle gesammelt in das Verzeichnis checkpoints herunterladen

Nutzungsbeispiel (Usage Example)

Mit bereits trainierten PyTorch-Checkpoints kann die Inferenz mit dem Skript predict.py einfach und schnell getestet werden
Gibt man über den Beispielbefehl ein Bild ein und stellt einen Prompt (eine Frage), erhält man eine Beschreibung des Bildes oder eine Antwort auf die Frage

Unterstützung für Apple Silicon und mobile Geräte

Für die Inferenz auf Apple Silicon gibt es eine Anleitung, die einen separaten Prozess zum Modellexport und zur Quantisierung erklärt
Direkt für Apple Silicon optimierte Versionen der Checkpoint-Dateien werden offiziell verteilt
Ein Leitfaden zur App-Entwicklung und der Quellcode zur direkten Nutzung auf iPhone, iPad und Mac sind im Ordner /app enthalten

Weitere Informationen und Open-Source-Hinweise

Es werden der offizielle arXiv-Link zum FastVLM-Paper und ein Zitationsformat für das CVPR-2025-Paper bereitgestellt
Die Codebasis basiert auf verschiedenen Open-Source-Projekten; Hinweise zu Beiträgen und Lizenzinformationen werden separat bereitgestellt
Vor der Nutzung von Modell und Code müssen unbedingt die Lizenzen (Lizenzdatei und Modelllizenz) geprüft werden

1 Kommentare

GN⁺ 2025-05-14

Hacker-News-Kommentare

Ein Topmodell mit 0,5B und 2 GB Größe – es ergibt einfach keinen Sinn, wenn jede App das separat herunterladen muss. Ich könnte mir gut vorstellen, dass Apple plant, diese Modelle eindeutig auf OS-Ebene vorzuladen und ein SDK bereitzustellen, damit alle Apps sie lokal aufrufen können. Wirklich eine spannende Zeit. Ich habe sogar ein Issue eröffnet, um genau diesen Punkt zu klären.
- Ich denke, ein auf offenen Gewichten basierendes, vom OS standardisiertes Foundation Model hätte enormes Potenzial. Wenn die API es App-Entwicklern erlauben würde, zur Laufzeit angepasste LoRa-Finetunes in das OS-Standardmodell zu laden, hätte man im Idealfall gleichzeitig die Vorteile eines app-spezifischen Modells bei gleichbleibender Größe populärer Apps und die Vorteile des Foundation Models.
- Mit Quantisierung auf f16 oder sogar int8 ließe sich das Modell vielleicht noch kleiner machen, aber der Kernpunkt ist genau das, was du gesagt hast. Auch aus Nutzersicht ist es keine schöne Erfahrung, für eine einzelne App eine 500-MB-Datei herunterladen zu müssen.
- Ich meine mich zu erinnern, dass bei der WWDC letztes Jahr im Zusammenhang mit LLMs etwas Ähnliches gesagt wurde. Die Idee war, dass das OS ein Basismodell bereitstellt und jede App dieses Modell mit LORAs feinabstimmen oder eigene Custom Heads daraufsetzen kann.
- Ich glaube nicht, dass sie das öffentlich erwähnen würden, außer bei einer großen Präsentation. Vermutlich lässt sich das erst bei einer Veranstaltung wie der WWDC bestätigen.
Ich habe das Gefühl, dass es entscheidend ist, die time-to-first-token-Geschwindigkeit ausreichend zu steigern, wenn man Apps bauen will, die wie On-Device-Continuous-Vision-basierte Assistenten den Bildschirm sehen und sofort handeln. Im Repo die echte App in Aktion zu sehen, war ziemlich beeindruckend, und ich freue mich darauf, das heute Nacht selbst zu bauen und auszuprobieren.
Ich wünschte, sie würden sich aktiver in der AI/ML-Community einbringen und auch Gewichte und Modellarchitektur auf HuggingFace veröffentlichen. Witzigerweise habe ich heute eine ähnliche VLM-Demo mit einem kostenlosen VLM gesehen. Hier der Link: https://github.com/ngxson/smolvlm-realtime-webcam
- SmolVLM ist ein Modell vom HuggingFace-Team. Es macht Spaß zu sehen, was Leute mit so kleinen Modellen alles bauen. Hier sind noch passende Links: https://huggingface.co/blog/smolvlm, https://arxiv.org/abs/2504.05299
Ich baue selbst eine Echtzeit-Sprach+Vision-App namens Sen. Sie ist derzeit als Beta verfügbar und streamt Frames in Echtzeit über webrtc. Ich finde sie schnell und smart, und ich frage mich, wie gut solche Modelle werden, je näher sie an die Hardware rücken. In Zukunft könnten solche Modelle ganz natürlich auf dem Gerät mit schneller TTFB laufen.
- Falls du einen Beitrag hast, in dem du deinen Tech-Stack und dein Setup zusammengefasst hast, würde ich mich freuen, wenn du ihn teilen könntest – oder auch einfach über eine kurze Zusammenfassung. Ich möchte für Kinder etwas wie ein persönliches Qwen bauen, bei dem man per Button und Sprache Prompts hin- und herschickt, brauche aber vorerst noch keine Vision-Funktionalität (wäre irgendwann natürlich cool). Siri ist wirklich enttäuschend. Es ist einfach noch nicht auf dem Niveau, das ich gern hätte.
Es ist wirklich spannend zu sehen, dass statt unbegrenzt Ressourcen hineinzupumpen daran gearbeitet wird, Ressourcen effizient zu reduzieren und Modelle klein genug zum Ausführen zu machen.
Ich habe zunehmend das Gefühl, dass die Zukunft der Robotik in VLA-Modellen (Vision-Language-Action) liegt. Tesla FSD ist ebenfalls ein End-to-End-VLA-Modell, und effiziente Vision-Encoding-Verfahren werden wohl entscheidend für Sicherheit und Reaktionsfähigkeit von Robotern sein.
Als Vater eines kleinen Kindes mit schwer geschädigtem Sehnerv, bei dem jederzeit die Erblindung drohte, konnte durch eine experimentelle Behandlung in einer NIH-Studie ein Teil des Sehvermögens erhalten werden (ich finde, die Unterstützung für Wissenschaft muss weitergehen). Durch die Fortschritte bei Vision-Language-Modellen habe ich Hoffnung, dass mein Kind, selbst wenn es erblinden sollte, trotzdem mit der Welt kommunizieren, studieren und in geliebten Bereichen wie Wissenschaft oder Ingenieurwesen aktiv sein kann. Mein Kind ist für sein Alter außergewöhnlich talentiert, und ich blicke hoffnungsvoll in seine Zukunft.
- Ich möchte etwas aus meiner Erfahrung erzählen, als ich in den 80ern vollständig blind aufgewachsen bin. Damals war die Technik noch nicht so weit wie heute, und Computer kamen bei mir erst mit etwa 12 Jahren ins Spiel. Ich habe Tippen auf einer alten Schreibmaschine gelernt und Braille mit einer schweren metallenen Brailleschreibmaschine geschrieben. OCR war damals nicht besonders gut, und erst in der Oberstufe konnte ich mit einem Laptop mit Braille-Display im Unterricht mithalten. Ich nutzte DOS und schrieb meine Notizen in Word 5.5. Abgesehen von PC Lingua zum Lateinlernen gab es kaum spezielle Lernwerkzeuge. Am Ende hatte ich nur meine elektronischen Notizen und meinen Kopf – und trotzdem habe ich die Schule abgeschlossen, habe heute einen wirklich erfüllenden Beruf, lebe im eigenen Zuhause, bin mit meiner wundervollen Freundin zusammen und führe ein völlig unabhängiges Leben. Tatsächlich musste ich meine Mutter eher bewusst auf Abstand halten, weil sie mir ständig helfen wollte. Unter Menschen mit Behinderung sagt man manchmal, Überbehütung durch Eltern sei eine „zusätzliche Behinderung durch die Eltern“. Bitte nimm das nicht emotional, sondern denk über die Bedeutung nach. Dein Kind kann mit 18 absolut selbstständig sein. Je mehr man diesen Zeitpunkt künstlich hinauszögert, desto schwieriger wird echte Unabhängigkeit, und desto mehr Gelegenheiten gehen verloren, innere Stärke zu entwickeln. Ich verstehe sehr gut, warum dir die heutigen technologischen Fortschritte Hoffnung machen, aber ich glaube, dass die Möglichkeiten deines Kindes noch größer sind, als du denkst. Wenn du ihm hilfst, diese Möglichkeiten selbst zu entdecken, können wirklich erstaunliche Dinge geschehen. Und ich hoffe, dass es nicht nur von teuren Geräten oder den neuesten Tools abhängig wird. Ich liebe Vision-Modelle auch sehr, aber selbst heute gehe ich nur mit meinem Stock und meinem Handy aus dem Haus. Manchmal frage ich Siri: „Wo bin ich hier?“, aber am Ende ist es mein Stock, der mir den Weg weist. In Wirklichkeit ist ein Großteil der neuesten Technik übertrieben dargestellt, und ich möchte betonen, wie viel man schon mit ganz normalem Hören und Tastsinn erreichen kann. Ich wünsche dir, deiner Familie und deinem Kind von Herzen alles Gute für die Zukunft.
Ich denke, mit solcher Technik könnte man mit nur einem Handy und einer an einer Brille befestigten Kamera einen echten praktischen Helfer für blinde Menschen bauen. Menschen, die sich früher ohne Assistenz kaum bewegen konnten, könnten im Alltag ein unabhängigeres Leben führen und sich selbstständig fortbewegen.
- Um Sahnehähnchen von cremiger Pilzsuppe zu unterscheiden, mag das nützlich sein, aber für Mobilität dürfte es gegenüber den bestehenden Strategien blinder Menschen nicht besonders hilfreich sein. Feedback wie „Hier ist ein Baum, da noch ein Baum, ein Fußgänger, noch ein Baum, ein Schild“ hilft bei echter Fortbewegung meiner Meinung nach kaum.
Ich frage mich, ob man das in llama.cpp konvertieren/ausführen könnte. Dass es auf LLaVA basiert, macht mich ziemlich optimistisch.

Apples FastVLM – effiziente Bildkodierung für Vision-Language-Modelle

Bedeutung und Vorteile des FastVLM-Projekts

Wichtige Merkmale

Modellinformationen (Model Zoo)

Nutzungsbeispiel (Usage Example)

Unterstützung für Apple Silicon und mobile Geräte

Weitere Informationen und Open-Source-Hinweise

Verwandte Beiträge

1 Kommentare

Hacker-News-Kommentare