Chameleon: Metas neues multimodales LLM

(arxiv.org)

4 Punkte von GN⁺ 2024-05-23 | 2 Kommentare | Auf WhatsApp teilen

Chameleon ist eine Familie gemischt-modaler Modelle auf Basis früher Fusions-Token, die Bilder und Text in beliebiger Reihenfolge verstehen und erzeugen kann
Diese Modellfamilie umfasst einen stabilen Trainingsansatz, ein Alignment-Rezept und Architekturparameter für ein gemischt-modales Setup auf Basis früher Fusions-Token
Von Beginn an wurde ein stabiler Trainingsansatz gewählt, und das Alignment-Rezept sowie die Architekturparameter wurden für ein gemischt-modales Setup auf Basis früher Fusions-Token ausgelegt
Es wurde anhand umfassender Aufgaben evaluiert, darunter visuelle Fragebeantwortung, Bildunterschriftengenerierung, Textgenerierung, Bildgenerierung und Long-Form-gemischt-modale Generierung
- Bei der Bildunterschriftengenerierung zeigt es Leistung auf dem neuesten Stand der Technik
- Bei rein textbasierten Aufgaben übertrifft es Llama-2 und zeigt eine wettbewerbsfähige Leistung gegenüber Modellen wie Mixtral 8x7B und Gemini-Pro
- Es verfügt über starke Fähigkeiten zur Bildgenerierung und kann als einzelnes Modell verschiedene Aufgaben ausführen
- In der Bewertung von Long-Form-gemischt-modaler Generierung erreicht oder übertrifft es die Leistung deutlich größerer Modelle wie Gemini Pro und GPT-4V, wenn Prompt oder Ausgabe gemischte Sequenzen aus Bildern und Text enthalten
Chameleon stellt einen wichtigen Fortschritt bei der integrierten Modellierung vollständig multimodaler Dokumente dar
Es setzt einen neuen Maßstab für einheitliche multimodale Modelle mit umfassenden Fähigkeiten über verschiedene Aufgaben hinweg

Meinung von GN⁺

Multimodale Modelle können verschiedene Eingabeformen gleichzeitig verarbeiten und sind daher in realen Anwendungen sehr nützlich. Sie bieten zum Beispiel große Vorteile bei visuellen Fragebeantwortungssystemen oder der Generierung von Bildunterschriften.
Chameleon zeigt im Vergleich zu Llama-2, Mixtral 8x7B und Gemini-Pro wettbewerbsfähige Leistung. Das belegt seine Flexibilität und Leistungsfähigkeit bei verschiedenen Aufgaben.
Bei der Einführung neuer Technologien sollten Stabilität des Modells, Trainingskosten und Datenanforderungen berücksichtigt werden. Im Fall von Chameleon ist der Early-Fusion-Ansatz zwar stabil, für den praktischen Einsatz können jedoch ausreichend Daten und Rechenressourcen erforderlich sein.
Die Leistung bei langfristiger gemischt-modaler Generierung ist sehr interessant. Das eröffnet großes Potenzial für die Erstellung komplexer Dokumente oder multimedialer Inhalte.
In der Branche gibt es verschiedene multimodale Modelle wie OpenAIs GPT-4 und Googles BERT. Es ist wichtig, die Eigenschaften sowie Vor- und Nachteile der einzelnen Modelle zu vergleichen und das passende Modell auszuwählen.

2 Kommentare

fastkoder 2024-06-19

Modell-Checkpoint: https://ai.meta.com/resources/models-and-libraries/…
Blog: https://ai.meta.com/blog/meta-fair-research-new-releases/
GitHub-Repository: https://github.com/facebookresearch/chameleon
Vor 8 Stunden veröffentlicht!

GN⁺ 2024-05-23

Hacker-News-Kommentare

Zusammenfassung ausgewählter Hacker-News-Kommentare

Grundlagenforschung und das Softmax-Problem
- Die Grundlagenforschung ist sehr interessant. Besonders beeindruckend ist die Analyse der Schwierigkeiten bei der Verwendung von Softmax über verschiedene Tokenisierungsräume hinweg.
- Beim 34B-Modell tritt das Problem am deutlichsten hervor. Das erinnert daran, dass das Training großer Modelle neue Probleme verursacht.
Multimodalität und Mirasol3B
- Im Vergleich zu Mirasol3B wird Audio nicht unterstützt. Googles Mirasol3B machte Demos möglich, indem Audio in Bilder umgewandelt wurde.
- Meta bewegt sich ebenfalls in Richtung Multimodalität. Auch der neue GPT-Sprachmodus verwendet wahrscheinlich dieselbe Architektur.
- Wenn neue Modalitäten hinzukommen, verbessert sich die Modellleistung bei gleicher Parametergröße.
Trainingszeit und Kosten
- Die Trainingszeit beträgt 4.282.407 Stunden; bei einer 200-W-GPU entspricht das einem Stromverbrauch von etwa 1 GWh. Die Kosten liegen bei rund 100.000 $.
- Auf einer einzelnen GPU würde das Training 500 Jahre und Energiekosten von 100.000 $ erfordern. Tatsächlich wäre ein Training mit 3.000 GPUs in 2 Monaten möglich.
Leistung des Chameleon-Modells
- Das Chameleon-Modell erreicht oder übertrifft die Leistung größerer Modelle wie Gemini Pro und GPT-4V. Bei der Bewertung gemischtmodaler Generierung zeigt es eine hervorragende Leistung.
- Es stellt einen wichtigen Fortschritt bei der integrierten Modellierung multimodaler Dokumente dar.
Tempo des technologischen Fortschritts
- Der technologische Fortschritt ist sehr schnell. Es gibt vieles, das interessant und leicht verständlich ist.
- Gleichzeitig kann das ermüdend sein, und weil so viel Geld hineinfließt, wirkt vieles wie Betrug. Es ist sinnvoll, sich tief in ein Thema einzuarbeiten und dazugehörige Papers zu lesen.
Verbreitung multimodaler Modelle
- Multimodale Modelle wurden zuletzt breit übernommen, verwenden aber weiterhin getrennte Encoder oder Decoder je Modalität.
- Zum Beispiel verwendet Gemini Pro Bild-Token, und GPT-4V ist ähnlich aufgebaut. Zwei unterschiedliche Tokenizer werden vorab trainiert.
Integrierte Modelle und Modalitätskonkurrenz
- Integrierte Modelle sind interessant, aber die Entdeckung von „Modalitätskonkurrenz“ deutet darauf hin, dass es kurzfristig besser sein könnte, auf jede Modalität spezialisierte Modelle zu trainieren.
Metas Open-Source-Pläne
- Es wird gefragt, ob Meta plant, diese Modelle als Open Source zu veröffentlichen.
- Außerdem steht die Frage im Raum, ob das Modell herunterladbar sein wird.

Chameleon: Metas neues multimodales LLM

Meinung von GN⁺

Verwandte Beiträge

2 Kommentare

Hacker-News-Kommentare

Zusammenfassung ausgewählter Hacker-News-Kommentare