- Offizielles Repo von Apple für das auf der CVPR 2025 vorgestellte Paper "FastVLM: Efficient Vision Encoding for Vision Language Models"
- FastViTHD zeigt eine Reduzierung der Token-Anzahl und kürzere Kodierungszeiten für hochauflösende Bilder
- Das kleinste Modell erzielt 85-fach schnellere Ergebnisse als LLaVA-OneVision-0.5B und einen 3,4-fach kleineren Encoder
- Das große Modell zeigt überlegene Leistung gegenüber Cambrian-1-8B und ist 7,9-fach schneller
- Eine Demo-App für mobile Geräte wie das iPhone wird bereitgestellt
Bedeutung und Vorteile des FastVLM-Projekts
- FastVLM ist eine offizielle Open-Source-Implementierung für Vision-Language-Modelle (Vision Language Model, VLM)
- Gegenüber bestehenden Vision-Encodern bietet es herausragende Vorteile bei Geschwindigkeit und Effizienz
- Es ist auf verschiedener Hardware einsetzbar, insbesondere in Apple Silicon- und mobilen Umgebungen
- Vorgefertigte Modelle in unterschiedlichen Größen und Leistungsklassen können direkt ausgewählt und genutzt werden
- Im Vergleich zu anderen Projekten gewährleistet die kleinere Modellgröße optimierte Echtzeitreaktionen und einen geringen Hardwarebedarf
Wichtige Merkmale
- FastViTHD ist ein innovativer Vision-Encoder mit Hybridarchitektur, der die Anzahl der Ausgabetokens reduziert und die Kodierungszeit hochauflösender Bilder deutlich verkürzt
- Das kleinste Modell FastVLM-0.5B bietet eine 85-fach schnellere TTFT (Time to First Token) als LLaVA-OneVision-0.5B sowie einen 3,4-fach kleineren Encoder
- Das große FastVLM-7B-Modell in Kombination mit dem Qwen2-7B-LLM zeigt im Vergleich zu aktuellen SOTA-Modellen wie Cambrian-1-8B eine 7,9-fach schnellere TTFT und starke Leistung mit einem einzelnen Bild-Encoder
- Es wird sogar eine Demo-App bereitgestellt, die in einer realen mobilen Umgebung (iOS) läuft, sodass sich der praktische Nutzen der Technologie sofort überprüfen lässt
Modellinformationen (Model Zoo)
- FastVLM-Modelle in verschiedenen Größen (FastVLM-0.5B, FastVLM-1.5B, FastVLM-7B) werden in Versionen der Stufe 2 und Stufe 3 bereitgestellt
- Für jedes Modell werden offiziell PyTorch-Checkpoint-Dateien angeboten
- Mit den offiziell bereitgestellten Befehlen können Nutzer mehrere Modelle gesammelt in das Verzeichnis
checkpoints herunterladen
Nutzungsbeispiel (Usage Example)
- Mit bereits trainierten PyTorch-Checkpoints kann die Inferenz mit dem Skript predict.py einfach und schnell getestet werden
- Gibt man über den Beispielbefehl ein Bild ein und stellt einen Prompt (eine Frage), erhält man eine Beschreibung des Bildes oder eine Antwort auf die Frage
Unterstützung für Apple Silicon und mobile Geräte
- Für die Inferenz auf Apple Silicon gibt es eine Anleitung, die einen separaten Prozess zum Modellexport und zur Quantisierung erklärt
- Direkt für Apple Silicon optimierte Versionen der Checkpoint-Dateien werden offiziell verteilt
- Ein Leitfaden zur App-Entwicklung und der Quellcode zur direkten Nutzung auf iPhone, iPad und Mac sind im Ordner
/app enthalten
Weitere Informationen und Open-Source-Hinweise
- Es werden der offizielle arXiv-Link zum FastVLM-Paper und ein Zitationsformat für das CVPR-2025-Paper bereitgestellt
- Die Codebasis basiert auf verschiedenen Open-Source-Projekten; Hinweise zu Beiträgen und Lizenzinformationen werden separat bereitgestellt
- Vor der Nutzung von Modell und Code müssen unbedingt die Lizenzen (Lizenzdatei und Modelllizenz) geprüft werden
1 Kommentare
Hacker-News-Kommentare