Überblick über das Ferret-Modell
- Das Ferret-Modell ermöglicht durch eine hybride Regionenrepräsentation und einen visuell-räumlichen Sampler feingranulare Referenzen und präzise Lokalisierung mit offenem Vokabular.
- Der GRIT-Datensatz (~1,1M) ist ein groß angelegter, hierarchischer und robuster Datensatz für Instruction-Tuning.
- Ferret-Bench ist ein multimodaler Evaluierungs-Benchmark, der gleichzeitig Referenzierung/Lokalisierung, Semantik, Wissen und Schlussfolgerung erfordert.
Veröffentlichung des Ferret-Modells
- [12/14] Veröffentlichung der 7B- und 13B-Checkpoints.
- [10/30] Veröffentlichung des FERRET-Modells und des Ferret-Bench-Codes.
- Daten und Code dürfen nur zu Forschungszwecken verwendet werden und unterliegen den Lizenzvereinbarungen von LLaMA, Vicuna und GPT-4.
- Der Datensatz steht unter CC BY NC 4.0 (nur nichtkommerzielle Nutzung erlaubt), und mit diesem Datensatz trainierte Modelle dürfen nicht außerhalb von Forschungszwecken verwendet werden.
Installation und Verwendung
- Das FERRET-Repository klonen, in den entsprechenden Ordner wechseln und die benötigten Pakete installieren.
- Zusätzliche Pakete sind für bestimmte Trainingsszenarien erforderlich.
Training
- FERRET wurde auf 8 A100-GPUs mit jeweils 80 GB Speicher trainiert.
- Beim Training mit weniger GPUs müssen
per_device_train_batch_size reduziert und gradient_accumulation_steps erhöht werden.
- Die Vorbereitung der Vicuna-Checkpoints und des Projektors von LLaVA ist erforderlich.
- Ein Trainingsskript wird bereitgestellt.
Evaluation
- Siehe Dokumentation für Details.
Checkpoints
- Extraktion des
delta zwischen dem vortrainierten Modell und Vicuna.
- Nach dem Herunterladen der Vicuna-Gewichte die vorbereiteten Gewichts-Offsets herunterladen und anwenden.
Demo
- Nach dem FERRET-Training die Demo lokal mit dem Checkpoint ausführen.
- Verwendung der Gradio-Web-UI.
- Controller, Gradio-Webserver und Model Worker nacheinander ausführen.
Zitation
- Wenn Ferret nützlich ist, bitte mit dem folgenden BibTeX zitieren.
Danksagung
- LLaVA: zugrunde liegende Codebasis.
- Vicuna: LLM-Codebasis.
Meinung von GN⁺
- Innovative Technologie: Das Ferret-Modell präsentiert eine innovative Technologie, die mit vielfältigem Vokabular feingranulare Referenzen und Lokalisierung ermöglicht.
- Bedeutung für die Forschung: Dieses Modell und der Datensatz sind wichtige Ressourcen, die die Forschung zu Referenzierungs- und Lokalisierungsaufgaben im Bereich der künstlichen Intelligenz voranbringen können.
- Vielfältige Anwendungsmöglichkeiten: Diese Technologie kann in verschiedensten Anwendungen eingesetzt werden, die Bild und Text kombinieren, und könnte das visuelle Verständnis und die Interaktion von künstlicher Intelligenz auf die nächste Stufe heben.
Noch keine Kommentare.