1 Punkte von GN⁺ 2024-04-19 | 1 Kommentare | Auf WhatsApp teilen
  • Metas Llama-Seite stellt die Llama-Modellfamilie als Open-Source-KI vor, die auf einfache Bereitstellung, Kosteneffizienz, Leistung und Skalierung auf große Nutzerzahlen ausgelegt ist, und behandelt sowohl Llama 4 als auch die Llama-3-Reihe
  • Llama 4 Maverick und Llama 4 Scout sind native multimodale Modelle auf Basis von Early Fusion, die Text- und Vision-Token gemeinsam vortrainieren; beide werben mit einem Kontext von 10M Token
  • Die Llama-3-Reihe ist in 3.1, 3.2 und 3.3 unterteilt und bietet je nach Größe und Einsatzzweck — Text, Edge und Multimodalität — Optionen wie 8B, 70B, 405B, 1B, 3B, 11B, 90B und 70B
  • Die Leistungsvergleiche umfassen MMLU Pro, GPQA Diamond, LiveCodeBench, MMMU, ChartQA, DocVQA, MMLU Multi, MTOB und weitere; Llama 4 Maverick erreicht MMLU Pro 80,5, Scout 74,3
  • In den Fällen von Stoque und Shopify werden Einführungsergebnisse wie 50 % weniger wiederholte Supportanfragen, 11 % höhere interne Zufriedenheit, 76 % höherer Token-Durchsatz und 33 % geringere Compute-Kosten durch JSON-Ausgaben genannt

Llama-Modellfamilie und Optionen nach Version

  • Llama ist eine Modellfamilie, mit der sich Lösungen nach den eigenen Anforderungen aufbauen lassen; sie zielt auf einfache Bereitstellung, Kosteneffizienz, Leistung und Skalierung auf Milliarden Nutzer ab
  • Die wichtigsten Schwerpunkte der neuesten Llama-Modelle sind native Multimodalität, fortgeschrittenes Reasoning und lange Kontextfenster
  • Modellkarten und Prompt-Formate sind unter Model overview zu finden
  • Llama 4: native Multimodalität und 10M-Kontext

    • Llama 4 ist eine Familie nativer multimodaler Modelle, die per Early Fusion unbeschriftete Text- und Vision-Daten gemeinsam vortrainiert
    • Llama 4 Maverick unterstützt das Verstehen von Bildern und Text und verarbeitet mit einem Kontext von 10M Token Aufgaben in langen Formaten
    • Memory, Personalisierung und multimodale Anwendungen sind die wichtigsten Einsatzbereiche
    • Llama 4 Scout ist ein Modell für Text- und visuelle Intelligenz und hebt die Effizienz auf einer einzelnen H100-GPU sowie ein 10M-Kontextfenster hervor
    • Als wichtiger Anwendungsfall für Scout wird die Analyse langer Dokumente genannt
    • Details bietet die Llama-4-Modelldokumentation
  • Llama 3: Modellfamilie nach Größe und Einsatzzweck

    • Llama 3 ist eine Open-Source-KI-Modellfamilie, die Fine-Tuning, Distillation und Bereitstellung überall ermöglicht
    • Llama 3.3 ist ein mehrsprachiges Open-Source-LLM, das als 70B-Modell verfügbar ist; es soll Leistung und Qualität auf dem Niveau von 405B zu geringeren Kosten bieten
    • Es ist auf textbasierte Anwendungsfälle wie die Erzeugung synthetischer Daten ausgerichtet; Details gibt es in der Llama-3.3-Modelldokumentation
    • Llama 3.2 ist eine flexible und kosteneffiziente Modellfamilie für Edge-Anwendungen
      • 1B und 3B sind leichtgewichtig und kosteneffizient, sodass sie überall laufen können
      • 11B und 90B sind multimodale Modelle, die hochauflösende Bilder auswerten und Text ausgeben können
      • Details bietet die Llama-3.2-Modelldokumentation
    • Llama 3.1 ist ein offenes Foundation Model für Flexibilität und Kontrolle und ist in den Größen 8B, 70B und 405B verfügbar
    • Es umfasst Fähigkeiten in Allgemeinwissen, Anpassbarkeit, Mathematik, Tool-Nutzung und mehrsprachiger Übersetzung und wird für Textzusammenfassung, mehrsprachige Agenten und Coding eingesetzt
    • Details sind in der Llama-3.1-Modelldokumentation verfügbar

Leistungskennzahlen und reale Einführungsergebnisse

  • Llama-4-Benchmarks und Bewertungsbedingungen

    • Die Fähigkeiten von Llama 4 werden als native Multimodalität, langer Kontext und Image Grounding zusammengefasst
    • Alle Llama-4-Modelle nutzen Early Fusion, um große Mengen unbeschrifteter Text- und Vision-Token gemeinsam vortrainieren zu können
    • Die Benchmarks vergleichen Llama 4 Maverick und Llama 4 Scout
      • Reasoning: MMLU Pro liegt bei Maverick bei 80,5 und bei Scout bei 74,3; GPQA Diamond bei Maverick bei 69,8 und bei Scout bei 57,2
      • Coding: LiveCodeBench liegt bei Maverick bei 43,4 und bei Scout bei 32,8
      • Multimodale Bilder: MMMU liegt bei Maverick bei 73,4 und bei Scout bei 69,4, ChartQA bei Maverick bei 90,0 und bei Scout bei 88,8, DocVQA bei beiden bei 94,4
      • Mehrsprachigkeit: MMLU Multi liegt bei Maverick bei 84,6 und bei Scout bei 74,3
      • Langer Kontext: MTOB Half Book liegt bei Maverick bei 54,0 / 46,4 und bei Scout bei 42,2 / 36,6; MTOB Full Book bei Maverick bei 50,8 / 46,7 und bei Scout bei 39,7 / 36,3
      • Effizienz: Die Kosten pro 1M Token werden für beide mit $0.19–$0.49 angegeben
    • Laut Methodik und Anmerkungen sind die Llama-Ergebnisse 0-Shot-Bewertungen bei Temperature 0 und verwenden weder Majority Voting noch paralleles Test-Time-Compute
    • Bei Benchmarks mit hoher Varianz wie GPQA Diamond und LiveCodeBench werden mehrere Generierungsergebnisse gemittelt, um die Unsicherheit zu reduzieren
    • Da spezialisierte Bewertungen für langen Kontext bei allgemeinen Modellen traditionell nicht berichtet werden, werden interne Ausführungsergebnisse geteilt
    • Die Kosten von $0.19/Mtok für Llama 4 Maverick sind eine 3:1-Blended-Schätzung unter der Annahme verteilter Inferenz; auf einem einzelnen Host werden voraussichtlich $0.30–$0.49/Mtok möglich sein
  • Anwendungsfälle von Stoque und Shopify

    • Stoque hat seine interne Intelligence mit Llama umgestellt, damit Teams Insights schneller finden, Reibung reduzieren und in großem Maßstab effizienter arbeiten können
    • Wiederholte Supportanfragen gingen um 50 % zurück, und der Abschluss von Verwaltungs- und Supportaufgaben stieg um 30 %
    • Die Zufriedenheit interner Nutzer stieg um 11 %
    • Shopify nutzt Llama für die Erstellung von Produktseiten, die Lokalisierung von Inhalten und die Automatisierung des Supports
    • Gegenüber dem vorherigen Modell ist der Token-Durchsatz um 76 % höher, und bei der Intent-Erkennung wird eine Macro-F1-Genauigkeit von 97,7 % erreicht
    • Durch JSON-Ausgaben werden die Compute-Kosten um 33 % reduziert
    • Schutzmechanismen für generative KI identifizieren und mindern potenzielle Risiken proaktiv durch Schutz auf Systemebene und helfen Entwicklern, generative KI verantwortungsvoller bereitzustellen

1 Kommentare

 
GN⁺ 2024-04-19
Meinungen auf Hacker News
  • Nützliche Links: https://ai.meta.com/blog/meta-llama-3/, https://about.fb.com/news/2024/04/meta-ai-assistant-built-wi..., https://twitter.com/karpathy/status/1781028605709234613

  • Meta hat auch eine Konsole veröffentlicht: https://www.meta.ai/
    Außerdem wurde die Integration von Meta AI in die gesamte Meta-Produktpalette angekündigt: https://about.fb.com/news/2024/04/meta-ai-assistant-built-wi...
    Da allerdings kein Vergleich mit GPT-4-Turbo oder Claude Opus enthalten ist, scheint es noch ein gutes Stück von den Frontier-Modellen entfernt zu sein; man muss sehen, wie es in der LLM Arena abschneidet.

    • Dass nicht mit den Topmodellen verglichen wurde, liegt vermutlich daran, dass man einen Vergleich „in derselben Klasse“ anstellen wollte. Das 70B-Modell liegt in derselben Klasse wie Sonnet, und wenn es Sonnet schlägt, kann es bei den meisten Aufgaben auch Opus oder GPT-4 nahekommen.
      Große Unterschiede dürften wahrscheinlich nur bei sehr schwierigen Reasoning-Benchmarks auftreten. Da Llama offene Gewichte hat, wird es im Gegensatz zu Opus viele Fine-Tunings und LoRAs geben.
    • Wenn Llama-3-400B mit Claude 3 Opus und ähnlichen Modellen mithalten kann, könnten die Verlierer Nvidias Aktienkurs, OpenAI und Sam sowie Google sein; Gewinner wären womöglich AMD, Intel, Universitäten und Entwickler weltweit.
      Wenn Staaten und Großunternehmen statt viel Geld in GPUs zum Trainieren eigener Modelle zu stecken Llama-3/Llama-4 nutzen, könnte das die Wachstumserwartungen für GPUs dämpfen; OpenAI hätte ein schwächeres Argument für eine Finanzierung über 100 Milliarden Dollar, und Googles KI-Vorsprung würde unschärfer. AMD und Intel könnten sich darauf konzentrieren, KI-Inferenzchips zu entwickeln, statt Nvidias Trainings-GPUs einzuholen.
    • Dass es ohne Login nutzbar ist, ist ebenfalls überraschend. Das hätte man von Meta nicht erwartet.
    • Meta erklärte, dass es noch an wettbewerbsfähigeren großen Modellvarianten trainiert.
      Die größten Modelle mit über 400B Parametern befinden sich demnach noch im Training; in den kommenden Monaten sollen mehrere Modelle mit Multimodalität, mehrsprachiger Konversation, deutlich längeren Kontextfenstern und insgesamt stärkeren Fähigkeiten veröffentlicht werden.
    • Bei mir erscheint „Meta AI isn't available yet in your country“; ich frage mich, wo es verfügbar ist. In Norwegen bekomme ich diese Meldung.
  • Öffentliche Benchmarks sind als grobe Indikatoren nützlich, aber Entwickler sollten Custom Benchmarks ausführen, die auf ihren eigenen Use Case zugeschnitten sind.
    Replicate hat schnell eine Llama-3-API bereitgestellt https://replicate.com/blog/run-llama-3-with-an-api, und mit promptfoo https://github.com/typpo/promptfoo lassen sich Llama 3, Mixtral, GPT, Claude usw. vergleichen. Beispielsweise kann man Replicates meta/meta-llama-3-8b-instruct, meta/meta-llama-3-70b-instruct, OpenAIs gpt-4-turbo, Anthropics claude-3-opus-20240229 usw. mit denselben Prompts evaluieren.
    Ich teste noch, aber bei einem Satz zufälliger Programmierfragen wirkt Llama 3 8B ziemlich gut. Auch ollama unterstützt jetzt Llama 3 8B, sodass lokale Evaluierungen mit ollama:chat:llama3 einfach sind.

    • Beim Testen mit Aufgaben, die sehr wahrscheinlich bereits vollständig online verfügbar sind, muss man sehr vorsichtig sein.
      Ein guter Test ist einfach, prüft aber die tatsächliche Anwendung, etwa das Lösen einer quadratischen Gleichung für zufällige a, b, c. Es ist ein Algorithmus, den wohl alle Modelle kennen, und trotzdem machen sie Fehler; danach tun sie manchmal so, als hätten sie verifiziert, und wiederholen die falsche Antwort. Auch LLAMA 3 behauptete nach mehreren Hinweisen auf Fehler, es habe „die korrekte Lösung gefunden und auf mehrere Arten verifiziert“, aber die tatsächliche Lösung war wie am Anfang falsch, und es gab auch keinen Verifizierungsversuch.
    • Es gab ein Tokenizer-/Vokabularproblem, bei dem am Ende der Antwort assistant angehängt wurde, aber jetzt sollte es funktionieren.
      Es lässt sich mit ollama run llama3 ausführen; verschiedene quantisierte Versionen sowie das Text-/70B-Modell werden ebenfalls gerade hochgeladen.
  • Llama 3 70B ist auf der bekannten LMSYS-Chatbot-Arena-Rangliste auf Platz 5 eingestiegen, gleichauf mit Claude 2 Sonnet, Bard (Gemini Pro) und Command R+ sowie vor Claude 2 Haiku und früheren GPT-4-Versionen.
    Die Unsicherheit der Werte ist noch groß, daher wird man die genaue Platzierung erst mit der Zeit sehen, und sie kann sich noch ändern. Llama 3 8B liegt auf Platz 12, gleichauf mit Claude 1, Mixtral 8x22B und Qwen-1.5-72B. Die aktuelle Rangliste ist unter https://arena.lmsys.org/ verfügbar.
    Auf der rein englischen Rangliste ist es noch beeindruckender, weil Llama 3 70B zusammen mit GPT-4 und Claude Opus in der Spitzengruppe bleibt. Das könnte auch daran liegen, dass das Safety-Tuning weniger stark ist als zuvor und dadurch weniger Prompts abgelehnt werden, aber praktisch ist es trotzdem eine nützliche Verbesserung. Bei diesem Tempo dürfte das 400B-Modell praktisch dominieren.

  • Ich habe es chinesischen Rap erzeugen lassen; das Ergebnis war ziemlich ordentlich, aber direkt nach Abschluss wurde die Antwort gelöscht und durch den Hinweis ersetzt, dass es Chinesisch noch nicht verstehe, aber daran arbeite und eine Nachricht senden werde, sobald Gespräche auf Chinesisch möglich sind.
    Bei anderen Sprachen ist es genauso: Nicht-englische Generierung funktioniert, aber am Ende wird die Antwort entfernt und durch denselben Hinweis ersetzt.

    • Es scheint einen Post-Processor zu geben, der nach einer bestimmten Anzahl generierter Tokens die Antwortqualität bewertet und die Antwort zurückrollt, wenn sie unter dem Schwellenwert liegt.
    • Man kann es lokal ausführen. Die lokale Version hat solche Schutzmechanismen nicht.
    • Auf Italienisch funktioniert es, aber es hängt immer einen Disclaimer an, dass die nicht-englischen Fähigkeiten noch verbessert werden und Fehler enthalten können und dass es am hilfreichsten ist, wenn es auf Englisch unterstützt.
    • Dass dieser Bug auch nach 12 Stunden noch besteht, ist seltsam.
  • Im Blog stehen viele gute Details: https://ai.meta.com/blog/meta-llama-3/
    Auch eine 400B-Version soll kommen, und es sieht so aus, als würde sie deutlich besser werden als GPT-4 und Claude Opus. Dezentralisierung und offene Software sind im Aufwind

    • Verglichen mit den Zahlen zu Claude 3 von Anthropic https://www.anthropic.com/news/claude-3-family wirken die Werte von Llama 400B etwas niedriger
      Natürlich handelt es sich beim Benchmark um einen Zwischen-Checkpoint, und das Training läuft noch weiter
    • Das wurde überhaupt nicht gesagt. Im Gegenteil: Die veröffentlichten Benchmarks liegen unter GPT-4 oder Opus
      Man sollte Benchmarks nicht blind vertrauen, aber es gibt keine Behauptung, dass es GPT-4 oder Opus übertrifft. Da es ein Zwischen-Checkpoint ist, besteht die Möglichkeit, dass es künftig vorbeizieht
    • Ich weiß nicht, wo stehen soll, dass das 400B-Modell viel besser als GPT-4 ist
    • Als dezentral würde ich das schwerlich bezeichnen. Man kann es zwar an vielen Orten ausführen, aber es gibt nur eine Bezugsquelle
      Und Open Source ist es auch nicht
    • Es ist weder Open Source noch dezentral
  • Ich bin Zuck, Yann und dem Meta-Team wirklich dankbar, dass sie einen offenen Ansatz gewählt haben und Modellgewichte, Tokenizer, Informationen zu Trainingsdaten usw. teilen
    Sie sind der größte Treiber der Explosion offener Forschung, die es über Projekte wie llama.cpp ermöglicht hat, auf Consumer-Hardware lokal ziemlich gute Modelle auszuführen und Zensur oder Kontrolle zu umgehen
    Nicht, dass ich Anfragen stellen will, die von OpenAI oder Anthropic blockiert würden, aber ich mag es nicht, wenn so mächtige Technologie hinter Mauern liegt und Gatekeeper kontrollieren, wie sie genutzt wird. Es gibt viele Menschen und Unternehmen, die an Offenheit glauben, aber wenn jemand mit Hunderten Milliarden Dollar Kapital, nachhaltigem Cashflow und GPUs im Wert von Milliarden Dollar so handelt, ist der Einfluss viel größer. Zuck hätte diesen Weg nicht wählen müssen, und wenn ein professioneller HBS-/McKinsey-Manager Facebook führen würde, wäre es sehr wahrscheinlich nicht so offen geblieben. Wir alle profitieren enorm davon, dass sie die Kronjuwelen nicht unter dem Vorwand von KI-Sicherheitsrisiken hinter einer zentralisierten API versteckt haben

    • Wenn man Zucks Interviews sieht, merkt man, dass er im Inneren immer noch Ingenieur ist. Andere große Tech-Unternehmen haben diese Art von Führung verloren
    • Gut ist auch, dass er erst 39 ist und noch mehr als genug Energie zu haben scheint, das Unternehmen zu führen. Dass Meta einen leidenschaftlichen Gründer hat, sehe ich als großen Vorteil gegenüber anderen großen Tech-Unternehmen
    • Wahrscheinlich geschieht das nicht nur aus reiner Güte. Wahrscheinlicher ist eine Strategie, die Modelle zur Commodity zu machen, um komplementäre Produkte zu verkaufen
      Das ist die Strategie, über die Joel Spolsky früher gesprochen hat; wobei nicht ganz klar ist, welche Komplemente zu KI-Modellen Meta genau verkaufen kann. Trotzdem wirkt es eindeutig wie eine strategische Entscheidung in irgendeiner Form
    • Das liegt daran, dass er Gründer-CEO ist. In Leidenschaft und Authentizität unterscheidet er sich von Karriere-MBAs
      An Zuck gibt es vieles zu kritisieren, aber fehlende Ernsthaftigkeit gegenüber der Mission gehört nicht dazu
    • Meta hat auch das Open Compute Project vorangetrieben. Ich bin wegen Googles Engagement für Open Source dort eingestiegen, war aber sehr enttäuscht, als sich diese Kultur beim Bau von Exascale-Lösungen nicht fortsetzte
      Es freut mich zu sehen, dass Meta hier die Fackel weiterträgt, und ich hoffe, dass das so bleibt
  • Da es keinen direkten Vergleich mit GPT-4 im kostenpflichtigen ChatGPT Plus gab, habe ich die Zahlen abgeglichen
    Für Llama 3 8B / Llama 3 70B / GPT-4 liegen die Werte bei MMLU bei 68.4 / 82.0 / 86.5, bei GPQA bei 34.2 / 39.5 / 49.1, bei MATH bei 30.0 / 50.4 / 72.2, bei HumanEval bei 62.2 / 81.7 / 87.6 und bei DROP bei 58.4 / 79.7 / 85.4
    Das kostenlose ChatGPT, das die meisten nutzen, basiert auf GPT-3.5, das deutlich schwächer ist als GPT-4. Umfassende Evaluierungswerte für das neueste GPT-3.5 konnte ich nicht finden, aber Llama 3 70B dürfte es locker schlagen, und 8B dürfte ihm wohl nahekommen. Dass man ein Modell dieser Größenordnung lokal ausführen und verändern kann, ist sehr spannend. Die GPT-4-Werte beziehen sich auf gpt-4-turbo-2024-04-09 (chatgpt) aus https://github.com/openai/simple-evals

    • Unten auf https://ai.meta.com/blog/meta-llama-3/ gibt es auch Ergebnisse zum laufenden 400B-Modell. Es scheint noch nicht ganz angekommen zu sein
      Für Llama 3 400B Base / Instruct sind es bei MMLU 84.8 / 86.1, bei GPQA - / 48.0, bei MATH - / 57.8, bei HumanEval - / 84.1 und bei DROP 83.5 / -
    • Wenn man bedenkt, dass GPT-4 1,8T Parameter hat, ist das erstaunlich
    • Ich warte auf feinabgestimmte oder gemergte Modelle. Viele Entwickler haben auf Basis von Llama 2 Modelle gebaut, die deutlich besser waren als das Basismodell; bei der neuen Version erwarte ich einen ähnlichen Verlauf
    • Ich frage mich, ob es schon Material zum Vergleich mit Mixtral 8x22B gibt. Die Welt bewegt sich wirklich schnell
    • Wegen des hohen HumanEval-Scores bin ich besonders gespannt. Weder das 400B-Modell noch ein CodeLlama-Tuning sind bisher erschienen
      Falls jemand es zum Programmieren in der IDE ausprobieren möchte: Ich habe Llama 3 70B zum Coding-Assistenten https://www.double.bot hinzugefügt
  • Es gibt auch ein Zuck-Interview: https://twitter.com/dwarkesh_sp/status/1780990840179187715

    • Um Minute 5 herum kommt eine interessante Stelle: Zuck sagt, dass er vor ein paar Jahren sehr viele H100-GPUs gekauft habe, um eine Empfehlungs-Engine für Reels zu bauen, die mit TikTok konkurrieren sollte
      Damals habe er sicherheitshalber die doppelte Menge des benötigten Bedarfs beschafft, und dadurch wurde Meta zufällig zu einem der wenigen Unternehmen mit genug GPU-Kapazität, um LLMs dieser Größenordnung zu trainieren
    • 1 bis 2 Jahre MMA scheinen seinem Charisma deutlich mehr geholfen zu haben als das bisherige Medientraining. In Interviews wirkt er heutzutage viel natürlicher
    • Dwarkeshs Podcast ist insgesamt wirklich gut
  • In der Model Card gibt es Benchmark-Ergebnisse im Vergleich zu anderen Llama-Modellen, einschließlich Llama 2: https://github.com/meta-llama/llama3/blob/main/MODEL_CARD.md...
    Die Leistungssteigerung von Llama 3 gegenüber Llama 2 ist dramatisch und beeindruckend. Das gilt selbst im Vergleich zu Llama 2 13B, und dass das Kontextfenster auf 8k verdoppelt wurde, dürfte viele neue Möglichkeiten eröffnen.

    • Bei den instruction-getunten Modellen ist Llama 3 8B sogar deutlich besser als Llama 2 70B.
    • Schade ist, dass die Kontextlänge von 8k deutlich kürzer ist als der 64k-Kontext von Mixtral 8x22B.
      Trotzdem sind die veröffentlichten Leistungskennzahlen beeindruckend, und es ist lobenswert, dass Meta diese Modelle veröffentlicht hat.