Llama-3.3-70B-Instruct

(huggingface.co)

2 Punkte von GN⁺ 2024-12-07 | 1 Kommentare | Auf WhatsApp teilen

Das auf Hugging Face veröffentlichte Llama-3.3-70B-Instruct ist Metas instruction-tuned mehrsprachiges Textgenerierungsmodell mit 70B Parametern und zielt auf den Einsatz in Conversational AI und Textgenerierung ab
Die Grundlage ist ein optimierter Transformer-autoregressiver Sprachmodellansatz; die getunte Version wurde mit SFT und RLHF auf Präferenzen für Nützlichkeit und Sicherheit ausgerichtet
Für das Pretraining wurden etwa 15T+ Token aus öffentlichen Online-Daten verwendet; die Kontextlänge beträgt 128k, der Knowledge Cutoff liegt bei Dezember 2023 und es werden 8 Sprachen unterstützt
Um auf das Modell bei Hugging Face zuzugreifen, muss der Weitergabe von Kontaktdaten zugestimmt werden; außerdem gelten die Llama 3.3 Community License und die Acceptable Use Policy
In realen Deployments sollte das Modell nicht allein eingesetzt werden, sondern als AI-System mit Safety Guardrails; zudem sind anwendungsspezifische Sicherheitstests und Feinabstimmungen erforderlich

Modellcharakter und wichtigste Spezifikationen

Llama 3.3 ist ein von Meta entwickeltes mehrsprachiges Large Language Model; die Version 70B Instruct ist ein instruction-tuned Generierungsmodell, das Texteingaben und Textausgaben unterstützt
Es ist für mehrsprachige Konversationsanwendungen optimiert und wird so bewertet, dass es in allgemeinen Industrie-Benchmarks viele Open-Source- und proprietäre Chat-Modelle übertrifft
Die Architektur ist ein autoregressives Sprachmodell auf Basis eines optimierten Transformer
- Die getunte Version verwendet supervised fine-tuning (SFT) und reinforcement learning with human feedback (RLHF)
- Alle Modellversionen nutzen Grouped-Query Attention (GQA), um die Skalierbarkeit bei der Inferenz zu verbessern
Wichtige Spezifikationen
- Parameter: 70B
- Eingabe: mehrsprachiger Text
- Ausgabe: mehrsprachiger Text und Code
- Kontextlänge: 128k
- Anzahl der Pretraining-Token: 15T+
- Knowledge Cutoff: Dezember 2023
- Veröffentlichungsdatum: 6. Dezember 2024
Unterstützte Sprachen sind Englisch, Deutsch, Französisch, Italienisch, Portugiesisch, Hindi, Spanisch und Thailändisch
Das Modell ist ein statisches Modell, das auf Offline-Datensätzen trainiert wurde; künftige getunte Modellversionen sollen unter Einbeziehung von Community-Feedback veröffentlicht werden

Zugangsbedingungen und Lizenzpflichten

Um auf diesen Modellinhalt bei Hugging Face zuzugreifen, muss der Weitergabe von Kontaktdaten zugestimmt werden
- Die bereitgestellten Informationen werden gemäß der Meta Privacy Policy erhoben, gespeichert, verarbeitet und weitergegeben
Die Lizenz ist die Llama 3.3 Community License Agreement
- Llama Materials umfasst Metas Llama 3.3, die Dokumentation und Teile davon
- Sie gewährt eine nicht exklusive, weltweite, nicht übertragbare und lizenzgebührenfreie beschränkte Lizenz zur Nutzung, Vervielfältigung, Verbreitung, Kopie, Erstellung abgeleiteter Werke und Änderung
Für Redistribution oder die Distribution von Produkten, die das Modell enthalten, gelten zusätzliche Anforderungen
- Wer Llama Materials oder abgeleitete Werke distribuiert oder Produkte bzw. Services bereitstellt, die diese enthalten, muss eine Kopie der Lizenz mitliefern
- Auf zugehörigen Websites, in der UI, in Blogposts, auf About-Seiten und in der Produktdokumentation muss „Built with Llama“ gut sichtbar angezeigt werden
- Wenn mit Llama Materials oder deren Outputs bzw. Ergebnissen ein AI-Modell erstellt, trainiert, feinabgestimmt oder verbessert und anschließend verteilt wird, muss der Modellname mit „Llama“ beginnen
- In allen verbreiteten Kopien muss der angegebene Copyright- und Lizenzhinweis in der Textdatei „Notice“ erhalten bleiben
Für großskalige kommerzielle Nutzung gelten zusätzliche Bedingungen
- Wenn im Monat vor dem Veröffentlichungsdatum von Llama 3.3 die monatlich aktiven Nutzer von Produkten oder Services des Lizenznehmers oder seiner verbundenen Unternehmen mehr als 700 Millionen betragen, muss bei Meta eine gesonderte Lizenz beantragt werden
- Bis Meta die Rechte ausdrücklich einräumt, dürfen diese Rechte nicht ausgeübt werden
Die Vereinbarung wird nach dem Recht des US-Bundesstaats Kalifornien ausgelegt; für Streitigkeiten sind die Gerichte Kaliforniens ausschließlich zuständig

Erlaubter Umfang und verbotene Nutzung

Llama 3.3 ist für kommerzielle und Forschungsnutzung in mehreren Sprachen vorgesehen
- Das instruction-tuned reine Textmodell wird für assistant-ähnliche Chats verwendet
- Das pretrained Modell kann auf verschiedene Natural-Language-Generation-Aufgaben angepasst werden
- Modellausgaben können auch zur Verbesserung anderer Modelle genutzt werden, etwa für synthetische Datengenerierung und Distillation
Außerhalb des vorgesehenen Umfangs liegen folgende Nutzungen
- Nutzung unter Verstoß gegen geltende Gesetze, Vorschriften oder Trade-Compliance-Regeln
- Nutzung in einer Weise, die von der Acceptable Use Policy oder der Llama 3.3 Community License untersagt wird
- Nutzung außerhalb der im Model Card ausdrücklich unterstützten Sprachen
Das Modell wurde zwar mit einer breiteren Sprachsammlung als nur den 8 unterstützten Sprachen trainiert, doch bei zusätzlichen Sprachen müssen Entwickler Lizenz und Richtlinien einhalten und eine sichere sowie verantwortungsvolle Nutzung gewährleisten
Die Acceptable Use Policy verbietet unter anderem folgende Nutzung
- Gewalt, Terrorismus, Ausbeutung von Kindern, Menschenhandel, sexuelle Gewalt, Verbreitung illegaler Informationen, sexuelle Anbahnung und sonstige kriminelle Aktivitäten
- Belästigung, Missbrauch, Drohungen, Mobbing
- Diskriminierung oder illegale bzw. schädliche Handlungen bei Beschäftigung, Kredit, Wohnen oder der Bereitstellung essenzieller Güter und Services
- Unbefugte berufliche Praxis
- Erhebung, Verarbeitung, Offenlegung, Erzeugung oder Ableitung sensibler oder privater Informationen von Personen ohne rechtmäßige Grundlage
- Verletzung oder missbräuchliche Nutzung von Rechten Dritter
- Erzeugung von Schadcode, Malware oder Computerviren oder Störung des Systembetriebs
- Umgehung oder Entfernung von Nutzungsbeschränkungen oder Sicherheitsmaßnahmen
Ebenfalls verboten sind Aktivitäten mit Risiko von Tod oder körperlichem Schaden
- Militär, Krieg, Nuklearindustrie oder nukleare Anwendungen, Nachrichtendienste, ITAR-relevante Aktivitäten
- Schusswaffen und illegale Waffen, illegale Drogen, regulierte Substanzen
- Kritische Infrastruktur, Transporttechnologie, Betrieb schwerer Maschinen
- Inhalte, die Selbstverletzung oder Verletzung anderer, Gewalt, Missbrauch oder körperlichen Schaden fördern
Enthalten sind auch Verbote im Zusammenhang mit Täuschung
- Erzeugung oder Förderung von Betrug oder Desinformation
- Erzeugung verleumderischer Inhalte
- Erzeugung und Verbreitung von Spam
- Identitätsvortäuschung ohne Einwilligung oder rechtliche Grundlage
- Darstellung der Nutzung von Llama 3.3 oder seiner Ausgaben als von Menschen erstellt
- Erzeugung falscher Online-Beteiligung wie Fake-Bewertungen
Für multimodale Modelle, die in Llama 3.3 enthalten sind, werden die Rechte aus Section 1(a) nicht an Personen mit Wohnsitz in der EU oder an Unternehmen mit Hauptsitz in der EU gewährt
- Diese Einschränkung gilt nicht für Endnutzer von Produkten oder Services, die solche multimodalen Modelle enthalten

Ausführung und Serving-Optionen

Dieses Repository enthält zwei Versionen von Llama-3.3-70B-Instruct: eine für transformers und eine für die ursprüngliche llama-Codebasis
Ab transformers >= 4.45.0 kann interaktive Inferenz über die Transformers-pipeline-Abstraktion oder über Auto-Klassen und die Funktion generate() ausgeführt werden
- Das Update erfolgt mit pip install --upgrade transformers
- Das Beispiel erstellt eine text-generation-Pipeline mit torch.bfloat16 und device_map="auto"
Auch Tool Use in Transformers wird unterstützt
- Es werden mehrere Formate für Tool Use unterstützt; im LLaMA prompt format docs gibt es einen Leitfaden zu Prompt-Formaten
- Über die chat templates von Transformers lässt sich Tool Use verarbeiten
- Wenn das Modell Tool-Aufrufe erzeugt, wird tool_calls zur Assistant-Nachricht hinzugefügt, das Ergebnis der Tool-Ausführung als Nachricht mit der Rolle tool ergänzt und anschließend erneut generate() aufgerufen
Mit bitsandbytes und transformers können Checkpoints auch in 8-bit und 4-bit geladen werden, um den Speicherverbrauch besser zu optimieren
- Für 8-bit-Laden wird BitsAndBytesConfig(load_in_8bit=True) verwendet
- Für 4-bit-Laden wird load_in_4bit=True übergeben
Für die ursprüngliche llama-Codebasis gelten die Anweisungen im Meta Llama repository
- Der ursprüngliche Checkpoint kann mit huggingface-cli download meta-llama/Llama-3.3-70B-Instruct --include "original/*" --local-dir Llama-3.3-70B-Instruct heruntergeladen werden
Es gibt auch lokale App- und Serving-Optionen
- vLLM startet den Server mit vllm serve "meta-llama/Llama-3.3-70B-Instruct" und wird über die OpenAI-kompatible API /v1/chat/completions aufgerufen
- SGLang startet den Server mit python3 -m sglang.launch_server --model-path "meta-llama/Llama-3.3-70B-Instruct" und wird über eine OpenAI-kompatible API aufgerufen
- Docker Model Runner verwendet docker model run hf.co/meta-llama/Llama-3.3-70B-Instruct

Trainingsdaten, Rechenaufwand und Emissionen

Die Pretraining-Daten bestehen aus etwa 15 Billionen Token aus öffentlichen Quellen
Die Fine-Tuning-Daten enthalten öffentliche Instruction-Datensätze und mehr als 25 Millionen synthetisch erzeugte Beispiele
Die Aktualität der Daten reicht beim Pretraining bis Dezember 2023
Für das Training wurden eine angepasste Trainingsbibliothek, Metas eigener GPU-Cluster und Produktionsinfrastruktur verwendet
- Fine-Tuning, Annotation und Evaluation wurden ebenfalls auf Produktionsinfrastruktur durchgeführt
Für das Training wurden auf Basis von H100-80GB-Hardware kumuliert 39.3M GPU-Stunden an Rechenleistung eingesetzt
- Auf den Eintrag Llama 3.3 70B entfallen 7.0M GPU-Stunden
- Der Stromverbrauch beim Training wird mit 700W pro GPU angegeben
Die Treibhausgasemissionen des Trainings werden je nach Berechnungsmethode getrennt ausgewiesen
- Die gesamte standortbasierte geschätzte Emission beträgt 11.390 tons CO2eq
- Für Llama 3.3 70B beträgt die standortbasierte Emission 2.040 tons CO2eq
- Da Meta seit 2020 weltweit Net-Zero-Emissionen im Betrieb aufrechterhält und 100 % des Stromverbrauchs mit erneuerbarer Energie abgleicht, betragen die marktbasierten Trainingsemissionen 0 tons CO2eq
- Die Methodik zur Berechnung von Energieverbrauch und Treibhausgasen ist im Paper beschrieben
- Da Meta das Modell öffentlich veröffentlicht, fallen der Energieverbrauch des Trainings und die Treibhausgasemissionen nicht für andere Nutzer an

Position in Benchmarks

Die englischen Text-Benchmarks vergleichen Llama 3.3 mit früheren Modellen
Wichtige Ergebnisse für Llama-3.3 70B Instruct
- MMLU(CoT): 86.0
- MMLU Pro(CoT): 68.9
- IFEval: 92.1
- GPQA Diamond(CoT): 50.5
- HumanEval: 88.4
- MBPP EvalPlus(base): 87.6
- MATH(CoT): 77.0
- BFCL v2: 77.3
- MGSM: 91.1
Einige Vergleiche mit früheren und größeren Modellen
- Bei HumanEval erreicht Llama 3.1 70B Instruct 80.5, Llama-3.3 70B Instruct 88.4 und Llama 3.1 405B Instruct 89.0
- Bei MATH erreicht Llama 3.1 70B Instruct 68.0, Llama-3.3 70B Instruct 77.0 und Llama 3.1 405B Instruct 73.8
- Bei MGSM erreicht Llama 3.1 70B Instruct 86.9, Llama-3.3 70B Instruct 91.1 und Llama 3.1 405B Instruct 91.6

Sicherheitsbewertung und Verantwortung bei der Bereitstellung

Metas Ansatz für verantwortungsvolle Releases folgt drei Strategien, um Vertrauens- und Sicherheitsrisiken zu steuern
- Entwickler dabei unterstützen, nützliche, sichere und flexible Erfahrungen passend zu Zielnutzern und von Llama unterstützten Use Cases bereitzustellen
- Entwickler vor adversarialen Nutzern schützen, die Llama-Fähigkeiten missbrauchen wollen
- Schutzmechanismen für die Community bereitstellen, um Modellmissbrauch zu verhindern
Llama 3.3 ist als Basistechnologie für verschiedene Use Cases konzipiert
- Die Modellsicherheit ist auf allgemeine Anwendungsfälle und Standardkategorien von Schäden ausgerichtet
- Entwickler müssen Richtlinien passend zu ihrem Use Case definieren und Llama-Systeme mit den nötigen Schutzmechanismen bereitstellen
- Relevante Leitlinien finden sich im Responsible Use Guide
Das Safety Fine-Tuning von Llama 3.3 Instruct soll Ressourcen für die Erforschung robuster Safety-Fine-Tuning-Verfahren bereitstellen und die Last für Entwickler reduzieren, sichere AI-Systeme auszurollen
- Die Fine-Tuning-Daten kombinieren von Anbietern erstellte menschliche Daten mit synthetischen Daten
- Zur Auswahl hochwertiger Prompts und Antworten werden LLM-basierte Klassifikatoren genutzt
- Die Sicherheitsdatenstrategie umfasst borderline- und adversarial Prompts
- Antworten in den Sicherheitsdaten wurden so angepasst, dass sie Richtlinien zum Ablehnungston folgen
Große Sprachmodelle wie Llama 3.3 sind nicht für den Standalone-Einsatz konzipiert
- Sie sollten als Teil eines vollständigen AI-Systems mit zusätzlichen Safety Guardrails bereitgestellt werden
- Beim Aufbau agentischer Systeme müssen Entwickler Systemschutzmaßnahmen implementieren
- Meta bietet mit trust and safety die Ressourcen Llama Guard 3, Prompt Guard und Code Shield an
- In den Demos der reference implementations sind diese Schutzmechanismen standardmäßig enthalten
Bei Tool-Use-Funktionen tragen Entwickler die Verantwortung für die Integration des LLM mit den ausgewählten Tools und Services
- Es müssen klare Richtlinien pro Use Case definiert werden
- Integrität sowie Sicherheits- und Schutzgrenzen von Drittservices müssen bewertet werden
Bei den mehrsprachigen Fähigkeiten können Ausgaben auch in anderen Sprachen als den 8 unterstützten Sprachen erscheinen
- Für Gespräche in Sprachen, die die Sicherheits- und Nützlichkeitsstandards nicht erfüllen, müssen Fine-Tuning und Systemkontrollen implementiert werden
- Meta rät von Konversationsnutzung in nicht unterstützten Sprachen ausdrücklich ab

Risikobewertung und Community-Ressourcen

Bewertungen werden sowohl für allgemeine Use Cases als auch für spezifische Fähigkeiten durchgeführt
- Die Bewertung allgemeiner Use Cases misst Sicherheitsrisiken in den häufigsten Anwendungen wie Chatbots, Coding Assistants und Tool Calling
- Es wurden spezielle adversariale Evaluationsdatensätze aufgebaut und Systeme aus Llama-Modellen und Llama Guard 3 bewertet
- Anwendungen sollten im Kontext bewertet werden; empfohlen wird der Aufbau eigener Evaluationsdatensätze je Use Case
Es wurden wiederholt Red-Teaming-Übungen durchgeführt
- Ziel ist es, Risiken durch adversariales Prompting aufzudecken
- Die Ergebnisse fließen in die Verbesserung von Benchmarks und Safety-Tuning-Datensätzen ein
- Die Red Teams bestehen aus Experten für Cybersecurity, adversariales Machine Learning, Responsible AI, Integrity und mehrsprachige Inhalte
Risikobereiche, auf die sich die Minderung besonders konzentriert
- CBRNE: Zur Bewertung von Risiken im Zusammenhang mit der Verbreitung chemischer und biologischer Waffen wurden Uplift-Tests durchgeführt, um zu prüfen, ob die Nutzung von Modellen der Llama-3-Familie die Fähigkeiten böswilliger Akteure signifikant erhöht
- Child Safety: Spezialistenteams bewerten die Fähigkeit, Ausgaben zu erzeugen, die Risiken für Kindersicherheit schaffen könnten, und prüfen den Bedarf an Minderung durch Fine-Tuning
- Cyber attack enablement: Untersucht wird, ob technische Kompetenz und Geschwindigkeit menschlicher Fähigkeiten bei Hacking-Aufgaben erhöht werden und ob in Ransomware-Szenarien komplexe Cyberangriffe als autonome Agenten ausgeführt werden können
Meta beteiligt sich an offenen Konsortien wie AI Alliance, Partnership on AI und MLCommons und trägt zu Sicherheitsstandardisierung und Transparenz bei
Die Purple-Llama-Tools sind für die Community als Open Source veröffentlicht; Beiträge aus der Community werden im PurpleLlama GitHub repository entgegengenommen
Die Llama Impact Grants identifizieren und fördern Llama-Anwendungen mit gesellschaftlichem Nutzen in den Bereichen Bildung, Klima und Open Innovation
Über Mechanismen zur Meldung von Outputs und das bug bounty program verbessert Meta die Llama-Technologie kontinuierlich mit Hilfe der Community

Grenzen und Hinweise für Entwickler

Die Kernwerte von Llama 3.3 werden als Offenheit, Inklusivität und Nützlichkeit beschrieben
Das Modell wurde so konzipiert, dass Menschen mit unterschiedlichen Hintergründen, Erfahrungen und Perspektiven Zugang dazu haben
Llama 3.3 ist eine neue Technologie, und ihre Nutzung birgt weiterhin Risiken
- Die bisherigen Tests decken nicht alle Szenarien ab und können dies auch nicht
- Wie bei anderen LLMs sind potenzielle Ausgaben nicht im Voraus vollständig vorhersagbar
- In einigen Fällen kann das Modell ungenaue, verzerrte oder anderweitig anstößige Antworten erzeugen
Bevor Anwendungen mit Llama-3.3-Modellen bereitgestellt werden, sollten Entwickler Sicherheitstests und Feinabstimmungen passend zur jeweiligen Anwendung durchführen
Materialien zur verantwortungsvollen Entwicklung finden sich im Responsible Use Guide, unter Trust and Safety sowie in weiteren resources

1 Kommentare

GN⁺ 2024-12-07

Meinungen auf Hacker News

Benchmarks: https://www.reddit.com/r/LocalLLaMA/comments/1h85ld5/comment...
Die Leistung scheint ähnlich oder etwas besser als bei Llama 3.2 405B zu sein; das ist wirklich beeindruckend
Laut Zuck (https://www.instagram.com/p/DDPm9gqv2cW/) ist dies der letzte Release der Llama-3-Serie, und Llama 4 soll 2025 erscheinen, was die Vorfreude erhöht
- Mit einer 24GB 4090 GPU und 64GB 7950x CPU-Speicher, wobei das Modell in lm-studio auf GPU/CPU aufgeteilt geladen wurde, kamen 2,12 tok/s heraus
  Auf der GPU lagen 40/80 Layer, und die Ausgabequalität wirkt bisher ordentlich
  Für Anfragen, die man nicht über das Netzwerk schicken möchte und bei denen man möglichst gute Antworten will, ist so eine Konfiguration brauchbar
  Wenn bessere Quantisierung oder größere GPU-Speicherkonfigurationen verfügbar werden, könnten solche großen Modelle lokal als solide Coding-Assistenten nutzbar sein
  Verwendetes Modell: lmstudio-community/Llama-3.3-70B-Instruct-GGUF/Llama-3.3-70B-Instruct-Q4_K_M.gguf
- Zur Einordnung: Wegen des Namensschemas von Llama gibt es kein Modell namens Llama 3.2 405B
  Die 8B/70B/405B-Modelle gehören zu Llama 3, 3.1 oder 3.3 (405B gab es im ersten Release nicht), während Llama 3.2 nur 1B, 3B, 11B Vision und 90B Vision enthält
  Eine ziemlich verwirrende Struktur
- Da die Leistung ziemlich nah an 405B liegt, wäre interessant, ob nicht quantisiertes 3.3-70B oder ein auf dieselbe Größe quantisiertes 405B vorne liegt
Das erinnert an Steve Jobs’ berühmte Aussage gegenüber Dropbox, Speicher sei „kein Produkt, sondern ein Feature“
Zuckerberg macht AI durch die Veröffentlichung solcher leistungsfähigen Modelle als Open Source faktisch zu einer Commodity, während Metas eigentliches Geschäftsmodell weiterhin auf Social Platforms basiert
Meta kann diese Modelle nutzen, um Facebook und Instagram zu stärken, und zugleich von Verbesserungen und Aufmerksamkeit aus der Community profitieren
Die Strategie ist nicht, AI zu verkaufen, sondern das Kerngeschäft mit AI stärker zu machen
Durch die Veröffentlichung nimmt man die Vorteile breiter Adoption und Weiterentwicklung mit, ohne das Modell selbst direkt monetarisieren zu müssen
- Der Wert, der daraus entsteht, aktiver auf die Entwickler-Community zuzugehen, sollte ebenfalls nicht unterschätzt werden
  Es mag Zufall sein, aber seit der Veröffentlichung dieser Modelle sehe ich auf HN häufiger, dass Leute „Meta“ sagen, und in letzter Zeit ist die Haltung deutlich positiver als sonst
  Sympathie ist vielleicht nicht so wertvoll wie günstige automatische Zensur/Moderation oder glänzende Features, aber sie hat eindeutig Wert
- Ich habe eine Weile darüber nachgedacht, was genau das Geschäftsmodell von Open Source ist, und mich auch gefragt, warum Google Geld in Chrome steckt
  Nach Zuckerbergs Aussagen wurde mir klar: Open Source ist für Unternehmen nützlich, wenn es Umsatz steigern oder Kosten senken kann
  Beispiele für Umsatzsteigerung sind Chrome und Visual Studio Code
  Je mehr Menschen etwa programmieren, desto größer ist die Wahrscheinlichkeit, dass sie MSFT Geld zahlen; VS Code hat also den Zweck, Programmieren so attraktiv wie möglich zu machen
  Bei Chrome ist es ähnlich
  Beispiele für Kostensenkung sind Linux und Llama
  Wie Zuckerberg selbst sagte: Man will nicht, dass eine Seite durch ein LLM-Monopol immer größer wird, also hilft man lieber dabei, dass die Open-Source-Seite ins Rollen kommt
- Komplementärprodukte zur Commodity machen: https://gwern.net/complement
- Eine kleine Beschwerde, die etwas anders ist als „Speicher ist kein Produkt, sondern ein Feature“: Ich habe kürzlich nach drei Jahren mein Smartphone gewechselt und war überrascht, dass der Speicher immer noch meist auf etwa 128GB begrenzt ist
  Ich frage mich, ob die Kapazität künstlich niedrig gehalten wird, um Cloud-Speicherdienste zu pushen
- Meta hat die Anzeigenqualität stark verbessert
  Es kommt inzwischen oft vor, dass ich über Facebook- und Instagram-Anzeigen tatsächlich kaufe, und ehrlich gesagt hatte ich in den letzten über 20 Jahren nie bewusst auf Werbung geklickt
In mehreren Benchmarks wirkt es fast auf dem Niveau von GPT-4o: https://x.com/Ahmad_Al_Dahle/status/1865071436630778109
- Außerdem ist es 25-mal günstiger, offline nutzbar, Zensur/Alignment lässt sich entfernen, und Fine-Tuning sowie Backups sind möglich
  Ein trauriger Tag für OpenAI und ein guter Tag für die Menschheit
- Dieses Jahr scheint mit derselben Stimmung zu enden, mit der es begonnen hat
  Der Großteil der AI-Entwicklung findet bei kleineren Modellen statt
  Die wirkliche Veränderung kam, als Unternehmen anfingen, den Wert von Trainingsdaten und Effizienz zu erkennen, die weit über die resultierende Modellgröße hinausgeht
- Ich frage mich, welche Version von GPT-4o in diesem Benchmark gemeint ist
  Der 08-06-Release scheint in mehreren Benchmarks etwas höher zu liegen als in diesem Material: https://github.com/openai/simple-evals?tab=readme-ov-file#be...
- Damit wirkt der Preis von 200 Dollar pro Monat noch lächerlicher
In unserem Benchmark schnitt es deutlich besser ab als erwartet: https://help.kagi.com/kagi/ai/llm-benchmark.html
Wir müssen dem noch weiter nachgehen, aber es ist beeindruckend
- Auf die Frage „Was bekommt ein Sorcerer-Charakter in D&D 5e auf Level 6?“ hat es ziemlich viel plausibel erfunden
  GPT-4 hat auch ein wenig erfunden, Claude lag genau richtig
Ich habe den Anschluss bei den Entwicklungen rund um HuggingFace-Modelle verpasst und bin neugierig.
Ich möchte wissen, was man mit solchen Modellen machen kann.
Kann man sie auf ein Notebook herunterladen und mit JupyterLab ausführen? Welche Vorteile hätte das? Kann man sie regelmäßig mit neuen Daten aus dem Internet aktualisieren? Kann man sie für bestimmte Zwecke wie Geodaten feinabstimmen? Und wie schwierig ist Fine-Tuning, wie lange dauert es?
Falls HuggingFace Antworten auf solche Fragen hat, wäre eine URL hilfreich.
Für mich wirkt HuggingFace wie GitHub in seinen Anfangstagen.
Eine kleine Gruppe nutzt es intensiv, während der Rest sich am Kopf kratzt, weil er nicht weiß, wie man es verwenden soll.
Das ist zwar eine Anfängerfrage, aber die Antwort dürfte vielen Leuten helfen.
- Ja, das geht.
  Die Community erstellt quantisierte Versionen, die auf Consumer-GPUs laufen können.
  Eine 4-Bit-Quantisierung von Llama 70B läuft auf einem MacBook Pro ziemlich gut, und auch die Neural Engine mit CPU-Unified-Memory ist für diesen Zweck recht solide.
  Mit GPUs ist es etwas schwieriger, weil der Speicher von Consumer-GPUs noch recht klein ist.
  Fine-Tuning ist ebenfalls möglich.
  Frameworks wie Unsloth machen das einfacher: https://github.com/unslothai/unsloth
  Fine-Tuning kann ziemlich knifflig sein, wenn man es richtig machen will, weil man Faktoren wie die Lernrate verstehen muss. Es gibt aber online gute Ressourcen, mit denen viele Hobbyentwickler Erfolg hatten.
  Man braucht keinen Doktortitel in Machine Learning, aber man braucht Daten, die sich als Text darstellen lassen.
  Quelle: Ich arbeite bei Databricks als Director of Model Serving Engineering.
- Ja, das geht; bei JupyterLab bin ich mir nicht sicher, und die Vorteile lasse ich mal außen vor.
  Regelmäßige Updates sind praktisch schwierig, und Fine-Tuning ist möglich, aber ziemlich nervig – man fährt besser damit, jemanden dafür zu bezahlen.
- HuggingFace ist im Grunde so etwas wie GitHub für Modelle.
  Jeder kann alles hochladen, aber es standardisiert Werkzeuge und Veröffentlichungswege bis zu einem gewissen Grad.
  Es gibt auch Teams, die bei Integrationen helfen, damit Releases leichter nutzbar werden, sowie Bibliotheken fürs Fine-Tuning.
Ich verfolge bei OpenRouter die Preise pro 1 Million Token, und es ist interessant, dass sie alle paar Refreshes sinken: https://openrouter.ai/meta-llama/llama-3.3-70b-instruct
Für Interessierte habe ich 4-Bit bitsandbytes, GGUF und die ursprünglichen 16-Bit-Gewichte unter https://huggingface.co/unsloth hochgeladen.
Mit Unsloth kann man Llama 3.3 70B mit weniger als 48 GB VRAM feinabstimmen; es ist 2-mal schneller und verbraucht 70 % weniger Speicher.
Dass Llama als Open Source veröffentlicht wurde, ist eines der besten Umsetzungsbeispiele der Strategie „Komplementärprodukte zur Commodity machen“, an das ich mich erinnern kann.
Für alle, die diese Strategie nicht kennen, hier Gwerns „Laws of Tech: Commoditize Your Complement“: https://gwern.net/complement
Meta liefert weiterhin mehr als erwartet.
Von Anfang an war das Ziel, OpenAI/Anthropic mit einer Verbrannte-Erde-Strategie durch starke offene Modelle ins Visier zu nehmen und aufzurütteln.
Die größten Gewinner sind wir Entwickler.
Ich habe heute Morgen ein paar Minuten investiert, einen H100-Modellserver hochzufahren, und ihn mit einer FP8-quantisierten Version plus KV-Cache-Quantisierung auf zwei H100s gebracht; Geschwindigkeit und Qualität wirken vielversprechend.
Ich bin gespannt, ob bessere Benchmarks beim Befolgen von Anweisungen zu Verbesserungen bei Function Calling und agentenartigen Funktionen führen.

Llama-3.3-70B-Instruct

Modellcharakter und wichtigste Spezifikationen

Zugangsbedingungen und Lizenzpflichten

Erlaubter Umfang und verbotene Nutzung

Ausführung und Serving-Optionen

Trainingsdaten, Rechenaufwand und Emissionen

Position in Benchmarks

Sicherheitsbewertung und Verantwortung bei der Bereitstellung

Risikobewertung und Community-Ressourcen

Grenzen und Hinweise für Entwickler

Verwandte Beiträge

1 Kommentare

Meinungen auf Hacker News