TII stellt die Falcon-2-AI-Modellreihe vor, die Llama 3 8B übertrifft

(tii.ae)

2 Punkte von GN⁺ 2024-05-14 | 1 Kommentare | Auf WhatsApp teilen

TII aus Abu Dhabi hat die Reihe Falcon 2 vorgestellt und setzt im Open-Source-LLM-Wettbewerb auf mehrsprachige und multimodale Modelle
Falcon 2 11B ist ein Modell mit 11 Milliarden Parametern, das mit 5,5 Billionen Tokens trainiert wurde, und liegt auf dem Hugging Face Leaderboard vor Meta Llama 3 8B
Falcon 2 11B VLM ist das erste multimodale Modell von TII, das visuelle Eingaben in Text umwandelt, und kann die Bildinterpretation in verschiedenen Branchen nutzbar machen
Beide Modelle werden als Open Source bereitgestellt, folgen der TII Falcon License 2.0 und sind so konzipiert, dass Entwickler sie auch auf leichterer Infrastruktur einfach bereitstellen und integrieren können
TII will Falcon 2 auf mehrere Größen erweitern und Mixture of Experts prüfen, um Leistung und Antwortqualität zu verbessern

Vorstellung von Falcon 2 und Modellaufbau

Das Technology Innovation Institute ist eine Organisation für angewandte Forschung unter dem Advanced Technology Research Council in Abu Dhabi und hat am 13. Mai 2024 das große Sprachmodell Falcon 2 veröffentlicht
Die Reihe besteht aus zwei Modellen
- Falcon 2 11B: ein LLM mit 11 Milliarden Parametern, trainiert mit 5,5 Billionen Tokens
- Falcon 2 11B VLM: ein Vision-to-Language-Modell, das visuelle Eingaben in Textausgaben umwandelt
Beide Modelle unterstützen mehrere Sprachen, und Falcon 2 11B VLM ist das erste multimodale Modell von TII
TII positioniert Falcon 2 11B VLM als derzeit einziges Modell im Spitzenfeld des Marktes mit Image-to-Text-Funktion

Leistungsvergleich und Einsatzbereiche

Falcon 2 11B wurde auf dem Open-LLM-Evaluierungs-Leaderboard von Hugging Face mit der Gruppe vortrainierter Modelle verglichen
- Es erzielt eine höhere Leistung als Meta Llama 3 8B
- Es liegt mit nahezu gleichem Ergebnis wie Google Gemma 7B in der Spitzengruppe
- Die Werte liegen bei 64,28 für Falcon 2 11B und 64,29 für Gemma 7B
Das Modell Falcon 2 11B bearbeitet Aufgaben in Englisch, Französisch, Spanisch, Deutsch, Portugiesisch und weiteren Sprachen
Falcon 2 11B VLM kann Bilder und visuelle Informationen aus der Umgebung identifizieren und interpretieren
- Als Anwendungsfelder werden Gesundheitswesen, Finanzen, E-Commerce, Bildung und der Rechtsbereich genannt
- Dazu kommen Einsatzfälle wie Dokumentenmanagement, digitale Archivierung, kontextbezogene Indizierung und Unterstützung für Sehbehinderte

Veröffentlichungsform und nächste Pläne

Falcon 2 11B und Falcon 2 11B VLM werden beide als Open Source bereitgestellt und sind für Entwickler zugänglich
Beide Modelle können effizient auf nur einer GPU laufen und sollen sich dadurch leicht auf leichterer Infrastruktur wie Laptops und anderen Geräten bereitstellen und integrieren lassen
Falcon 2 11B wird unter der TII Falcon License 2.0 angeboten, einer permissiven Softwarelizenz auf Basis von Apache 2.0
- Sie enthält eine Richtlinie zur zulässigen Nutzung, die einen verantwortungsvollen Einsatz von AI fördern soll
TII plant künftig unterschiedliche Größen für Modelle der nächsten Falcon-2-Generation und prüft den Einsatz von Mixture of Experts
- Mixture of Experts ist ein Ansatz, bei dem kleinere Netzwerke mit unterschiedlicher Spezialisierung kombiniert werden, um präzisere und stärker angepasste Antworten zu erzeugen
- TII geht davon aus, dass dieser Ansatz die Genauigkeit erhöhen und Entscheidungen beschleunigen kann
Informationen zu den neuen Modellen gibt es auf FalconLLM.TII.ae

1 Kommentare

GN⁺ 2024-05-14

Meinungen auf Hacker News

Die Benchmark-Ergebnisse wirken ungefähr vergleichbar mit Mistral 7B und Llama 3 8B; wenn man bedenkt, dass das Modell größer geworden ist, sieht das nicht besonders beeindruckend aus.
https://huggingface.co/tiiuae/falcon-11B
https://huggingface.co/meta-llama/Meta-Llama-3-8B
https://mistral.ai/news/announcing-mistral-7b/
- Stimmt. Auch Falcon-180b wurde anfangs stark überbewertet, aber die Community merkte bald, dass es weitgehend nutzlos war; in typischen Fällen schlugen kleinere große Sprachmodelle es problemlos.
  Diesmal wird behauptet, falcon-11b sei besser als Llama 3 8b, aber es zeigen sich schon mehrere Probleme. falcon-11b ist etwa 40 % größer als Llama 3 8b und lässt sich daher schwer derselben Größenklasse zuordnen; außerdem stützt sich die Behauptung auf automatische Benchmarks, obwohl seit Langem klar ist, dass automatische Benchmarks allein für einen solchen Schluss nicht ausreichen.
  Einige automatische Benchmark-Werte liegen deutlich unter Llama 3 8b, und nur in einem einzigen Benchmark liegt es knapp vorn. Man kann ein Modell in einem Benchmark wie den bisherigen Spitzenreiter aussehen lassen, aber das heißt keineswegs, dass es ein gutes Modell ist.
  Obwohl es keinerlei menschliche Bewertung gibt, wurde absichtlich ein vorschneller Clickbait-Titel gewählt; zudem wird behauptet, es sei besser als Llama 3, während Llama 3 70b komplett ignoriert wird.
  Ehrlich gesagt nervt es, dass tiiuae so viel Aufmerksamkeit bekommt, obwohl sie nichts Nützliches liefern und weiterhin solche irreführenden Köder auslegen.
- Das scheint für ihre Modelle insgesamt zu gelten. Sie sind wirklich groß, aber gemessen am Aufwand gibt es keine echte Leistungssteigerung.
  Ihr bereinigter Web-Datensatz ist stark zensiert, was ebenfalls Einfluss haben könnte. Er ist moralisch sehr konservativ und schließt Pornografie und viele andere Themen vollständig aus.
  Daher wäre es nicht überraschend, wenn ein Teil des Problems darin besteht, dass zu viele Inhalte herausgefiltert und nur mehr von Ähnlichem hinzugefügt wird.
- Vielleicht sind die Vergleichskennzahlen auch nicht passend.
  Das Modell ist zwar größer, benötigte fürs Training aber weniger Tokens als Llama 3. Ohne öffentlichen Datensatz ist ein sauberer Vergleich und eine Reproduktion schwierig.
  Es ist schwer zu sagen, ob es an der Modellarchitektur, der Datensatzqualität, der Modellgröße, der Kombination daraus oder an etwas anderem liegt.
Die Lizenz ist nicht gut: https://falconllm-staging.tii.ae/falcon-2-terms-and-conditio...
Es handelt sich um eine modifizierte Apache-2-Lizenz mit zusätzlichen Klauseln, darunter die Pflicht, eine Acceptable-Use-Policy einzuhalten: https://falconllm-staging.tii.ae/falcon-2-acceptable-use-pol...
In dieser modifizierten Apache-2-Lizenz steht jedoch, dass „die Acceptable-Use-Policy von Zeit zu Zeit aktualisiert werden kann und man die Webadresse, unter der die Policy gehostet wird, überwachen muss, um sicherzustellen, dass die Nutzung des Werks oder abgeleiteter Werke der aktualisierten Policy entspricht“.
Wie auch immer man die aktuelle Acceptable-Use-Policy bewertet: Sie behalten sich das Recht vor, sie künftig nach Belieben zu ändern, und die Nutzer müssen die neue Policy befolgen.
Das zeigt gut, warum ich den Trend ablehne, solche Lizenzen Open Source zu nennen, obwohl sie nicht mit der OSI-Definition vereinbar sind.
- Im Grunde kann man es für nichts verwenden, was nicht trivial ist. Denn sie können jederzeit und ohne Vorankündigung deinen Use Case verbieten.
- Ich frage mich wirklich, ob die Klausel „sie behalten sich das Recht vor, sie künftig nach Belieben zu ändern, und die Nutzer müssen die neue Policy befolgen“ vor Gericht tatsächlich Bestand hätte. Ich wüsste gern, ob es dazu einschlägige Rechtsprechung oder Präzedenzfälle gibt.
- Solche Lizenzspielchen sind nichts Neues. Das gab es schon bei Falcon 1. Ich weiß den Aufwand zu schätzen, aber es wirkt, als würden sie weiterhin herausfinden wollen, ob und wie sie es monetarisieren können.
- Das 40b-Modell scheint reines Apache zu sein.
Da steht: „Das neue Falcon 2 11B übertrifft Metas Llama 3 8B und erreicht eine Leistung auf Augenhöhe mit Googles führendem Gemma-7B-Modell.“ Ich war stark der Ansicht, dass Llama 3 8B Gemma 7B bei fast allen Metriken übertrifft.
- Man muss beachten, dass hier Basismodelle verglichen werden, nicht Chat-tuned Modelle. Für Falcon-11B gibt es derzeit nämlich kein Chat-tuned Modell. Metas Chat-Tuning wirkt besser als Gemmas Chat-Tuning.
  Trotzdem war das Gemma-1.1-Chatmodell nach meiner Nutzung ziemlich ordentlich, auch wenn ich finde, dass das Llama3-8B-Chatmodell klar besser ist.
  CodeGemma 1.1 7B wird im Vergleich zu verwandten Coding-Modellen besonders unterschätzt. Das Basis-Modell CodeGemma 7B gehörte bei Code-Completion zu den besten Modellen, die ich getestet habe, und auch das Chatmodell gehörte beim Schreiben von Code zu den besten getesteten Modellen.
  Andere Modelle scheinen Benchmarks besser zu optimieren, halten in der tatsächlichen Nutzung aber nicht so gut durch wie CodeGemma. Ich bin gespannt, wie CodeLlama3 ausfallen wird, aber das gibt es noch nicht.
- Nur anekdotisch, aber meiner Erfahrung nach ist Gemma völlig nutzlos, während Llama 3 8b für seine Größe außergewöhnlich gut ist. Die Vorstellung, dass Gemma vor Llama 3 liegt, fühlt sich seltsam an. Wenn Gemma in manchen Benchmarks vorn liegt, vermute ich eher so etwas wie Kontamination.
- Das fand ich auch seltsam.
  Heutzutage verfolge ich Benchmarks nicht mehr so sehr und konzentriere mich voll auf Basketball.
  Übrigens bin ich eigentlich ein bisschen besser als Lebron. Lebron ist sogar viel schlechter als meine dreijährige Tochter, und ich gewinne manchmal gegen meine Tochter. Im Basketball
Seufz, ich dachte, das sei ein Artikel über Falcon AT von Spectrum Holobyte. Laut MyAbandonware.com:
„Im Kern Falcon 2, aber irgendwie anders vermarktet, ist Falcon AT die zweite Veröffentlichung in Spectrum Holobytes innovativer, harter Flugsimulationsreihe Falcon. Entgegen der verbreiteten Ansicht, Falcon 3.0 sei der Beginn der modernen Flugsimulation, war Falcon AT bereits ein großer Fortschritt gegenüber Falcon: mit scharfer EGA-Grafik, vielen realistischen Optionen und einer deutlich erweiterten Kampagne. Das Spiel ist eine Simulation moderner Luftkämpfe mit den großartigen Tutorials, vielfältigen Missionen und der präzisen Flugmechanik, die Falcon-Fans kennen und lieben gelernt haben. Zu den zahlreichen Innovationen gehören auch überraschend gut spielbare Multiplayer-Optionen per Hotseat und Modem. Heute weitgehend vergessen, erklärt Falcon AT die schwer erklärbare Lücke zwischen Falcon und Falcon 3.0.“
- Es scheint einen Trend zu geben, neue Produkte nach klassischen Computerspielen zu benennen. Vielleicht ist es auch nicht beabsichtigt. Gerade eben gab es hier einen Beitrag über ein System namens Loom, das aber kein klassisches Adventure-Spiel war. Ich rechne damit, dass jemand ein großes Sprachmodell oder Networking-Software veröffentlicht und es Zork nennt.
- Außerdem steht gerade „F-16 Strike Eagle II reverse engineering“ <https://news.ycombinator.com/item?id=40347662> auf der Startseite, was mit dazu beiträgt, dass die Assoziationskette in diese Richtung läuft.
Ich verstehe nicht, was mit der Formulierung „das einzige KI-Modell mit Vision-Language-Fähigkeiten“ gemeint ist. Ist das nicht ungefähr das, was GPT-4 Vision und LLaVA machen?
- Zuerst dachte ich, das sei ein Wortspiel mit verdrehter Bedeutung.
  Vielleicht könnte man sagen, LLaVA sei ein Language-Vision-Modell, aber selbst so ließ es sich für mich nicht sinnvoll deuten.
  Vielleicht ist es einfach gelogen.
- Die Claude-Modelle fallen auch alle darunter.
Offene Modelle sind willkommen, aber wie hier schon angemerkt wurde, sind die Falcon-Modelle nicht besonders offen. Auch der ursprüngliche Falcon funktionierte nicht so gut, wie es die Benchmark-Zahlen nahelegten. Er wurde als großer Fortschritt gepusht, fühlte sich zum Zeitpunkt der Veröffentlichung aber nicht so an, als würde er konkurrierende offene Modelle übertreffen.
Die Werbeaussage, ein 11B-Modell übertreffe 7B- und 8B-Modelle „derselben Klasse“, wirkt etwas überzogen. Ich werde es beobachten, aber für lokale Inferenz werde ich es auf jeden Fall einmal ausprobieren. Mein Bauchgefühl ist allerdings, dass ein feinabgestimmtes llama 3 8B Stand dieser Woche wahrscheinlich das Beste in dieser Klasse ist.
- Ich habe beim ursprünglichen Falcon ebenfalls gesehen, dass die Leistung nicht den Benchmark-Zahlen entsprach. Aus Sicht von Tokens pro Parameter war es wohl zu wenig trainiert. Es wirkte, als hätten sie einfach ein Modell mit 40 Milliarden Parametern haben wollen, eher nach der Art vor der Chinchilla-Optimierung.
Solche Erinnerungen daran, dass KI nicht nur von Demokratien eingesetzt wird, die zumindest teilweise ethische Aufsicht versuchen, sondern auch von den schlimmsten Diktatoren, sind wirklich gruselig.
- MBZ ist nicht MBS, und Saudi-Arabien und die VAE sind verschiedene Länder. MBZ ist einer der beliebtesten Staatschefs der Welt, und seine Bürger gehören zu den wohlhabendsten.
  Sein Land ist eines der wenigen entwickelten Länder, dessen Wirtschaft weiterhin stetig wächst, und es hat eine der liberalsten Einwanderungspolitiken der Welt, ist aber trotzdem eines der sichersten Länder außerhalb Ostasiens.
  Er ist viel eher ein Kandidat für den besten Diktator als für den schlimmsten.
Ich möchte etwas verstehen. Dieses Modell wurde doch größtenteils mit öffentlichen Datensätzen trainiert, nutzte AWS-Hardware und verwendete bekannte Algorithmen und Techniken, oder? Wie unterscheidet es sich von anderen Modellen, die jeder mit genug Geld trainieren kann?
Aus meiner skeptischen, fast schon ablehnenden Sicht wirkt das nur wie Selbstdarstellung und der Versuch, relevant zu erscheinen. Gibt es bei solchen Projekten noch etwas, das ich übersehe?
- Viele Modelle fallen in diese Kategorie. Souveränität hat bis zu einem gewissen Grad Wert, egal ob für Staaten oder Unternehmen. Auch die Bedrohung durch Wettbewerb ist für alle gut.
  Selbst wenn das Endergebnis meist nicht besonders spannend ist, ist es schön, dass es Leute gibt, die an so etwas arbeiten.
Für einen Moment dachte ich, das hätte mit der klassischen Flugsimulation zu tun:
https://en.wikipedia.org/wiki/Falcon_4.0
- SpaceX hat auch die Raketen Falcon 1 und Falcon 9, außerdem gab es eine vorgeschlagene, aber nie entwickelte Falcon 5.
Die Artikel-Tendenz ist dermaßen absurd, dass man den VAE zurufen möchte, sie sollten etwas subtiler sein. „schlägt llama 3“ ist eine verdächtig wenig hilfreiche Zusammenfassung, und die Stelle mit dem „einzigen KI-Modell mit Vision-Language-Fähigkeiten“ ist einfach nur verwirrend.

TII stellt die Falcon-2-AI-Modellreihe vor, die Llama 3 8B übertrifft

Vorstellung von Falcon 2 und Modellaufbau

Leistungsvergleich und Einsatzbereiche

Veröffentlichungsform und nächste Pläne

Verwandte Beiträge

1 Kommentare

Meinungen auf Hacker News