Llama-3.3-70B-Instruct
(huggingface.co)- Das auf Hugging Face veröffentlichte Llama-3.3-70B-Instruct ist Metas instruction-tuned mehrsprachiges Textgenerierungsmodell mit 70B Parametern und zielt auf den Einsatz in Conversational AI und Textgenerierung ab
- Die Grundlage ist ein optimierter Transformer-autoregressiver Sprachmodellansatz; die getunte Version wurde mit SFT und RLHF auf Präferenzen für Nützlichkeit und Sicherheit ausgerichtet
- Für das Pretraining wurden etwa 15T+ Token aus öffentlichen Online-Daten verwendet; die Kontextlänge beträgt 128k, der Knowledge Cutoff liegt bei Dezember 2023 und es werden 8 Sprachen unterstützt
- Um auf das Modell bei Hugging Face zuzugreifen, muss der Weitergabe von Kontaktdaten zugestimmt werden; außerdem gelten die Llama 3.3 Community License und die Acceptable Use Policy
- In realen Deployments sollte das Modell nicht allein eingesetzt werden, sondern als AI-System mit Safety Guardrails; zudem sind anwendungsspezifische Sicherheitstests und Feinabstimmungen erforderlich
Modellcharakter und wichtigste Spezifikationen
- Llama 3.3 ist ein von Meta entwickeltes mehrsprachiges Large Language Model; die Version
70B Instructist ein instruction-tuned Generierungsmodell, das Texteingaben und Textausgaben unterstützt - Es ist für mehrsprachige Konversationsanwendungen optimiert und wird so bewertet, dass es in allgemeinen Industrie-Benchmarks viele Open-Source- und proprietäre Chat-Modelle übertrifft
- Die Architektur ist ein autoregressives Sprachmodell auf Basis eines optimierten Transformer
- Die getunte Version verwendet supervised fine-tuning (SFT) und reinforcement learning with human feedback (RLHF)
- Alle Modellversionen nutzen Grouped-Query Attention (GQA), um die Skalierbarkeit bei der Inferenz zu verbessern
- Wichtige Spezifikationen
- Parameter: 70B
- Eingabe: mehrsprachiger Text
- Ausgabe: mehrsprachiger Text und Code
- Kontextlänge: 128k
- Anzahl der Pretraining-Token: 15T+
- Knowledge Cutoff: Dezember 2023
- Veröffentlichungsdatum: 6. Dezember 2024
- Unterstützte Sprachen sind Englisch, Deutsch, Französisch, Italienisch, Portugiesisch, Hindi, Spanisch und Thailändisch
- Das Modell ist ein statisches Modell, das auf Offline-Datensätzen trainiert wurde; künftige getunte Modellversionen sollen unter Einbeziehung von Community-Feedback veröffentlicht werden
Zugangsbedingungen und Lizenzpflichten
- Um auf diesen Modellinhalt bei Hugging Face zuzugreifen, muss der Weitergabe von Kontaktdaten zugestimmt werden
- Die bereitgestellten Informationen werden gemäß der Meta Privacy Policy erhoben, gespeichert, verarbeitet und weitergegeben
- Die Lizenz ist die Llama 3.3 Community License Agreement
- Llama Materials umfasst Metas Llama 3.3, die Dokumentation und Teile davon
- Sie gewährt eine nicht exklusive, weltweite, nicht übertragbare und lizenzgebührenfreie beschränkte Lizenz zur Nutzung, Vervielfältigung, Verbreitung, Kopie, Erstellung abgeleiteter Werke und Änderung
- Für Redistribution oder die Distribution von Produkten, die das Modell enthalten, gelten zusätzliche Anforderungen
- Wer Llama Materials oder abgeleitete Werke distribuiert oder Produkte bzw. Services bereitstellt, die diese enthalten, muss eine Kopie der Lizenz mitliefern
- Auf zugehörigen Websites, in der UI, in Blogposts, auf About-Seiten und in der Produktdokumentation muss „Built with Llama“ gut sichtbar angezeigt werden
- Wenn mit Llama Materials oder deren Outputs bzw. Ergebnissen ein AI-Modell erstellt, trainiert, feinabgestimmt oder verbessert und anschließend verteilt wird, muss der Modellname mit „Llama“ beginnen
- In allen verbreiteten Kopien muss der angegebene Copyright- und Lizenzhinweis in der Textdatei „Notice“ erhalten bleiben
- Für großskalige kommerzielle Nutzung gelten zusätzliche Bedingungen
- Wenn im Monat vor dem Veröffentlichungsdatum von Llama 3.3 die monatlich aktiven Nutzer von Produkten oder Services des Lizenznehmers oder seiner verbundenen Unternehmen mehr als 700 Millionen betragen, muss bei Meta eine gesonderte Lizenz beantragt werden
- Bis Meta die Rechte ausdrücklich einräumt, dürfen diese Rechte nicht ausgeübt werden
- Die Vereinbarung wird nach dem Recht des US-Bundesstaats Kalifornien ausgelegt; für Streitigkeiten sind die Gerichte Kaliforniens ausschließlich zuständig
Erlaubter Umfang und verbotene Nutzung
- Llama 3.3 ist für kommerzielle und Forschungsnutzung in mehreren Sprachen vorgesehen
- Das instruction-tuned reine Textmodell wird für assistant-ähnliche Chats verwendet
- Das pretrained Modell kann auf verschiedene Natural-Language-Generation-Aufgaben angepasst werden
- Modellausgaben können auch zur Verbesserung anderer Modelle genutzt werden, etwa für synthetische Datengenerierung und Distillation
- Außerhalb des vorgesehenen Umfangs liegen folgende Nutzungen
- Nutzung unter Verstoß gegen geltende Gesetze, Vorschriften oder Trade-Compliance-Regeln
- Nutzung in einer Weise, die von der Acceptable Use Policy oder der Llama 3.3 Community License untersagt wird
- Nutzung außerhalb der im Model Card ausdrücklich unterstützten Sprachen
- Das Modell wurde zwar mit einer breiteren Sprachsammlung als nur den 8 unterstützten Sprachen trainiert, doch bei zusätzlichen Sprachen müssen Entwickler Lizenz und Richtlinien einhalten und eine sichere sowie verantwortungsvolle Nutzung gewährleisten
- Die Acceptable Use Policy verbietet unter anderem folgende Nutzung
- Gewalt, Terrorismus, Ausbeutung von Kindern, Menschenhandel, sexuelle Gewalt, Verbreitung illegaler Informationen, sexuelle Anbahnung und sonstige kriminelle Aktivitäten
- Belästigung, Missbrauch, Drohungen, Mobbing
- Diskriminierung oder illegale bzw. schädliche Handlungen bei Beschäftigung, Kredit, Wohnen oder der Bereitstellung essenzieller Güter und Services
- Unbefugte berufliche Praxis
- Erhebung, Verarbeitung, Offenlegung, Erzeugung oder Ableitung sensibler oder privater Informationen von Personen ohne rechtmäßige Grundlage
- Verletzung oder missbräuchliche Nutzung von Rechten Dritter
- Erzeugung von Schadcode, Malware oder Computerviren oder Störung des Systembetriebs
- Umgehung oder Entfernung von Nutzungsbeschränkungen oder Sicherheitsmaßnahmen
- Ebenfalls verboten sind Aktivitäten mit Risiko von Tod oder körperlichem Schaden
- Militär, Krieg, Nuklearindustrie oder nukleare Anwendungen, Nachrichtendienste, ITAR-relevante Aktivitäten
- Schusswaffen und illegale Waffen, illegale Drogen, regulierte Substanzen
- Kritische Infrastruktur, Transporttechnologie, Betrieb schwerer Maschinen
- Inhalte, die Selbstverletzung oder Verletzung anderer, Gewalt, Missbrauch oder körperlichen Schaden fördern
- Enthalten sind auch Verbote im Zusammenhang mit Täuschung
- Erzeugung oder Förderung von Betrug oder Desinformation
- Erzeugung verleumderischer Inhalte
- Erzeugung und Verbreitung von Spam
- Identitätsvortäuschung ohne Einwilligung oder rechtliche Grundlage
- Darstellung der Nutzung von Llama 3.3 oder seiner Ausgaben als von Menschen erstellt
- Erzeugung falscher Online-Beteiligung wie Fake-Bewertungen
- Für multimodale Modelle, die in Llama 3.3 enthalten sind, werden die Rechte aus Section 1(a) nicht an Personen mit Wohnsitz in der EU oder an Unternehmen mit Hauptsitz in der EU gewährt
- Diese Einschränkung gilt nicht für Endnutzer von Produkten oder Services, die solche multimodalen Modelle enthalten
Ausführung und Serving-Optionen
- Dieses Repository enthält zwei Versionen von Llama-3.3-70B-Instruct: eine für
transformersund eine für die ursprünglichellama-Codebasis - Ab
transformers >= 4.45.0kann interaktive Inferenz über die Transformers-pipeline-Abstraktion oder über Auto-Klassen und die Funktiongenerate()ausgeführt werden- Das Update erfolgt mit
pip install --upgrade transformers - Das Beispiel erstellt eine
text-generation-Pipeline mittorch.bfloat16unddevice_map="auto"
- Das Update erfolgt mit
- Auch Tool Use in Transformers wird unterstützt
- Es werden mehrere Formate für Tool Use unterstützt; im LLaMA prompt format docs gibt es einen Leitfaden zu Prompt-Formaten
- Über die chat templates von Transformers lässt sich Tool Use verarbeiten
- Wenn das Modell Tool-Aufrufe erzeugt, wird
tool_callszur Assistant-Nachricht hinzugefügt, das Ergebnis der Tool-Ausführung als Nachricht mit der Rolletoolergänzt und anschließend erneutgenerate()aufgerufen
- Mit
bitsandbytesundtransformerskönnen Checkpoints auch in 8-bit und 4-bit geladen werden, um den Speicherverbrauch besser zu optimieren- Für 8-bit-Laden wird
BitsAndBytesConfig(load_in_8bit=True)verwendet - Für 4-bit-Laden wird
load_in_4bit=Trueübergeben
- Für 8-bit-Laden wird
- Für die ursprüngliche
llama-Codebasis gelten die Anweisungen im Meta Llama repository- Der ursprüngliche Checkpoint kann mit
huggingface-cli download meta-llama/Llama-3.3-70B-Instruct --include "original/*" --local-dir Llama-3.3-70B-Instructheruntergeladen werden
- Der ursprüngliche Checkpoint kann mit
- Es gibt auch lokale App- und Serving-Optionen
- vLLM startet den Server mit
vllm serve "meta-llama/Llama-3.3-70B-Instruct"und wird über die OpenAI-kompatible API/v1/chat/completionsaufgerufen - SGLang startet den Server mit
python3 -m sglang.launch_server --model-path "meta-llama/Llama-3.3-70B-Instruct"und wird über eine OpenAI-kompatible API aufgerufen - Docker Model Runner verwendet
docker model run hf.co/meta-llama/Llama-3.3-70B-Instruct
- vLLM startet den Server mit
Trainingsdaten, Rechenaufwand und Emissionen
- Die Pretraining-Daten bestehen aus etwa 15 Billionen Token aus öffentlichen Quellen
- Die Fine-Tuning-Daten enthalten öffentliche Instruction-Datensätze und mehr als 25 Millionen synthetisch erzeugte Beispiele
- Die Aktualität der Daten reicht beim Pretraining bis Dezember 2023
- Für das Training wurden eine angepasste Trainingsbibliothek, Metas eigener GPU-Cluster und Produktionsinfrastruktur verwendet
- Fine-Tuning, Annotation und Evaluation wurden ebenfalls auf Produktionsinfrastruktur durchgeführt
- Für das Training wurden auf Basis von H100-80GB-Hardware kumuliert 39.3M GPU-Stunden an Rechenleistung eingesetzt
- Auf den Eintrag Llama 3.3 70B entfallen 7.0M GPU-Stunden
- Der Stromverbrauch beim Training wird mit 700W pro GPU angegeben
- Die Treibhausgasemissionen des Trainings werden je nach Berechnungsmethode getrennt ausgewiesen
- Die gesamte standortbasierte geschätzte Emission beträgt 11.390 tons CO2eq
- Für Llama 3.3 70B beträgt die standortbasierte Emission 2.040 tons CO2eq
- Da Meta seit 2020 weltweit Net-Zero-Emissionen im Betrieb aufrechterhält und 100 % des Stromverbrauchs mit erneuerbarer Energie abgleicht, betragen die marktbasierten Trainingsemissionen 0 tons CO2eq
- Die Methodik zur Berechnung von Energieverbrauch und Treibhausgasen ist im Paper beschrieben
- Da Meta das Modell öffentlich veröffentlicht, fallen der Energieverbrauch des Trainings und die Treibhausgasemissionen nicht für andere Nutzer an
Position in Benchmarks
- Die englischen Text-Benchmarks vergleichen Llama 3.3 mit früheren Modellen
- Wichtige Ergebnisse für Llama-3.3 70B Instruct
- MMLU(CoT): 86.0
- MMLU Pro(CoT): 68.9
- IFEval: 92.1
- GPQA Diamond(CoT): 50.5
- HumanEval: 88.4
- MBPP EvalPlus(base): 87.6
- MATH(CoT): 77.0
- BFCL v2: 77.3
- MGSM: 91.1
- Einige Vergleiche mit früheren und größeren Modellen
- Bei HumanEval erreicht Llama 3.1 70B Instruct 80.5, Llama-3.3 70B Instruct 88.4 und Llama 3.1 405B Instruct 89.0
- Bei MATH erreicht Llama 3.1 70B Instruct 68.0, Llama-3.3 70B Instruct 77.0 und Llama 3.1 405B Instruct 73.8
- Bei MGSM erreicht Llama 3.1 70B Instruct 86.9, Llama-3.3 70B Instruct 91.1 und Llama 3.1 405B Instruct 91.6
Sicherheitsbewertung und Verantwortung bei der Bereitstellung
- Metas Ansatz für verantwortungsvolle Releases folgt drei Strategien, um Vertrauens- und Sicherheitsrisiken zu steuern
- Entwickler dabei unterstützen, nützliche, sichere und flexible Erfahrungen passend zu Zielnutzern und von Llama unterstützten Use Cases bereitzustellen
- Entwickler vor adversarialen Nutzern schützen, die Llama-Fähigkeiten missbrauchen wollen
- Schutzmechanismen für die Community bereitstellen, um Modellmissbrauch zu verhindern
- Llama 3.3 ist als Basistechnologie für verschiedene Use Cases konzipiert
- Die Modellsicherheit ist auf allgemeine Anwendungsfälle und Standardkategorien von Schäden ausgerichtet
- Entwickler müssen Richtlinien passend zu ihrem Use Case definieren und Llama-Systeme mit den nötigen Schutzmechanismen bereitstellen
- Relevante Leitlinien finden sich im Responsible Use Guide
- Das Safety Fine-Tuning von Llama 3.3 Instruct soll Ressourcen für die Erforschung robuster Safety-Fine-Tuning-Verfahren bereitstellen und die Last für Entwickler reduzieren, sichere AI-Systeme auszurollen
- Die Fine-Tuning-Daten kombinieren von Anbietern erstellte menschliche Daten mit synthetischen Daten
- Zur Auswahl hochwertiger Prompts und Antworten werden LLM-basierte Klassifikatoren genutzt
- Die Sicherheitsdatenstrategie umfasst borderline- und adversarial Prompts
- Antworten in den Sicherheitsdaten wurden so angepasst, dass sie Richtlinien zum Ablehnungston folgen
- Große Sprachmodelle wie Llama 3.3 sind nicht für den Standalone-Einsatz konzipiert
- Sie sollten als Teil eines vollständigen AI-Systems mit zusätzlichen Safety Guardrails bereitgestellt werden
- Beim Aufbau agentischer Systeme müssen Entwickler Systemschutzmaßnahmen implementieren
- Meta bietet mit trust and safety die Ressourcen Llama Guard 3, Prompt Guard und Code Shield an
- In den Demos der reference implementations sind diese Schutzmechanismen standardmäßig enthalten
- Bei Tool-Use-Funktionen tragen Entwickler die Verantwortung für die Integration des LLM mit den ausgewählten Tools und Services
- Es müssen klare Richtlinien pro Use Case definiert werden
- Integrität sowie Sicherheits- und Schutzgrenzen von Drittservices müssen bewertet werden
- Bei den mehrsprachigen Fähigkeiten können Ausgaben auch in anderen Sprachen als den 8 unterstützten Sprachen erscheinen
- Für Gespräche in Sprachen, die die Sicherheits- und Nützlichkeitsstandards nicht erfüllen, müssen Fine-Tuning und Systemkontrollen implementiert werden
- Meta rät von Konversationsnutzung in nicht unterstützten Sprachen ausdrücklich ab
Risikobewertung und Community-Ressourcen
- Bewertungen werden sowohl für allgemeine Use Cases als auch für spezifische Fähigkeiten durchgeführt
- Die Bewertung allgemeiner Use Cases misst Sicherheitsrisiken in den häufigsten Anwendungen wie Chatbots, Coding Assistants und Tool Calling
- Es wurden spezielle adversariale Evaluationsdatensätze aufgebaut und Systeme aus Llama-Modellen und Llama Guard 3 bewertet
- Anwendungen sollten im Kontext bewertet werden; empfohlen wird der Aufbau eigener Evaluationsdatensätze je Use Case
- Es wurden wiederholt Red-Teaming-Übungen durchgeführt
- Ziel ist es, Risiken durch adversariales Prompting aufzudecken
- Die Ergebnisse fließen in die Verbesserung von Benchmarks und Safety-Tuning-Datensätzen ein
- Die Red Teams bestehen aus Experten für Cybersecurity, adversariales Machine Learning, Responsible AI, Integrity und mehrsprachige Inhalte
- Risikobereiche, auf die sich die Minderung besonders konzentriert
- CBRNE: Zur Bewertung von Risiken im Zusammenhang mit der Verbreitung chemischer und biologischer Waffen wurden Uplift-Tests durchgeführt, um zu prüfen, ob die Nutzung von Modellen der Llama-3-Familie die Fähigkeiten böswilliger Akteure signifikant erhöht
- Child Safety: Spezialistenteams bewerten die Fähigkeit, Ausgaben zu erzeugen, die Risiken für Kindersicherheit schaffen könnten, und prüfen den Bedarf an Minderung durch Fine-Tuning
- Cyber attack enablement: Untersucht wird, ob technische Kompetenz und Geschwindigkeit menschlicher Fähigkeiten bei Hacking-Aufgaben erhöht werden und ob in Ransomware-Szenarien komplexe Cyberangriffe als autonome Agenten ausgeführt werden können
- Meta beteiligt sich an offenen Konsortien wie AI Alliance, Partnership on AI und MLCommons und trägt zu Sicherheitsstandardisierung und Transparenz bei
- Die Purple-Llama-Tools sind für die Community als Open Source veröffentlicht; Beiträge aus der Community werden im PurpleLlama GitHub repository entgegengenommen
- Die Llama Impact Grants identifizieren und fördern Llama-Anwendungen mit gesellschaftlichem Nutzen in den Bereichen Bildung, Klima und Open Innovation
- Über Mechanismen zur Meldung von Outputs und das bug bounty program verbessert Meta die Llama-Technologie kontinuierlich mit Hilfe der Community
Grenzen und Hinweise für Entwickler
- Die Kernwerte von Llama 3.3 werden als Offenheit, Inklusivität und Nützlichkeit beschrieben
- Das Modell wurde so konzipiert, dass Menschen mit unterschiedlichen Hintergründen, Erfahrungen und Perspektiven Zugang dazu haben
- Llama 3.3 ist eine neue Technologie, und ihre Nutzung birgt weiterhin Risiken
- Die bisherigen Tests decken nicht alle Szenarien ab und können dies auch nicht
- Wie bei anderen LLMs sind potenzielle Ausgaben nicht im Voraus vollständig vorhersagbar
- In einigen Fällen kann das Modell ungenaue, verzerrte oder anderweitig anstößige Antworten erzeugen
- Bevor Anwendungen mit Llama-3.3-Modellen bereitgestellt werden, sollten Entwickler Sicherheitstests und Feinabstimmungen passend zur jeweiligen Anwendung durchführen
- Materialien zur verantwortungsvollen Entwicklung finden sich im Responsible Use Guide, unter Trust and Safety sowie in weiteren resources
1 Kommentare
Meinungen auf Hacker News
Benchmarks: https://www.reddit.com/r/LocalLLaMA/comments/1h85ld5/comment...
Die Leistung scheint ähnlich oder etwas besser als bei Llama 3.2 405B zu sein; das ist wirklich beeindruckend
Laut Zuck (https://www.instagram.com/p/DDPm9gqv2cW/) ist dies der letzte Release der Llama-3-Serie, und Llama 4 soll 2025 erscheinen, was die Vorfreude erhöht
Auf der GPU lagen 40/80 Layer, und die Ausgabequalität wirkt bisher ordentlich
Für Anfragen, die man nicht über das Netzwerk schicken möchte und bei denen man möglichst gute Antworten will, ist so eine Konfiguration brauchbar
Wenn bessere Quantisierung oder größere GPU-Speicherkonfigurationen verfügbar werden, könnten solche großen Modelle lokal als solide Coding-Assistenten nutzbar sein
Verwendetes Modell:
lmstudio-community/Llama-3.3-70B-Instruct-GGUF/Llama-3.3-70B-Instruct-Q4_K_M.ggufDie 8B/70B/405B-Modelle gehören zu Llama 3, 3.1 oder 3.3 (405B gab es im ersten Release nicht), während Llama 3.2 nur 1B, 3B, 11B Vision und 90B Vision enthält
Eine ziemlich verwirrende Struktur
Das erinnert an Steve Jobs’ berühmte Aussage gegenüber Dropbox, Speicher sei „kein Produkt, sondern ein Feature“
Zuckerberg macht AI durch die Veröffentlichung solcher leistungsfähigen Modelle als Open Source faktisch zu einer Commodity, während Metas eigentliches Geschäftsmodell weiterhin auf Social Platforms basiert
Meta kann diese Modelle nutzen, um Facebook und Instagram zu stärken, und zugleich von Verbesserungen und Aufmerksamkeit aus der Community profitieren
Die Strategie ist nicht, AI zu verkaufen, sondern das Kerngeschäft mit AI stärker zu machen
Durch die Veröffentlichung nimmt man die Vorteile breiter Adoption und Weiterentwicklung mit, ohne das Modell selbst direkt monetarisieren zu müssen
Es mag Zufall sein, aber seit der Veröffentlichung dieser Modelle sehe ich auf HN häufiger, dass Leute „Meta“ sagen, und in letzter Zeit ist die Haltung deutlich positiver als sonst
Sympathie ist vielleicht nicht so wertvoll wie günstige automatische Zensur/Moderation oder glänzende Features, aber sie hat eindeutig Wert
Nach Zuckerbergs Aussagen wurde mir klar: Open Source ist für Unternehmen nützlich, wenn es Umsatz steigern oder Kosten senken kann
Beispiele für Umsatzsteigerung sind Chrome und Visual Studio Code
Je mehr Menschen etwa programmieren, desto größer ist die Wahrscheinlichkeit, dass sie MSFT Geld zahlen; VS Code hat also den Zweck, Programmieren so attraktiv wie möglich zu machen
Bei Chrome ist es ähnlich
Beispiele für Kostensenkung sind Linux und Llama
Wie Zuckerberg selbst sagte: Man will nicht, dass eine Seite durch ein LLM-Monopol immer größer wird, also hilft man lieber dabei, dass die Open-Source-Seite ins Rollen kommt
Ich frage mich, ob die Kapazität künstlich niedrig gehalten wird, um Cloud-Speicherdienste zu pushen
Es kommt inzwischen oft vor, dass ich über Facebook- und Instagram-Anzeigen tatsächlich kaufe, und ehrlich gesagt hatte ich in den letzten über 20 Jahren nie bewusst auf Werbung geklickt
In mehreren Benchmarks wirkt es fast auf dem Niveau von GPT-4o: https://x.com/Ahmad_Al_Dahle/status/1865071436630778109
Ein trauriger Tag für OpenAI und ein guter Tag für die Menschheit
Der Großteil der AI-Entwicklung findet bei kleineren Modellen statt
Die wirkliche Veränderung kam, als Unternehmen anfingen, den Wert von Trainingsdaten und Effizienz zu erkennen, die weit über die resultierende Modellgröße hinausgeht
Der 08-06-Release scheint in mehreren Benchmarks etwas höher zu liegen als in diesem Material: https://github.com/openai/simple-evals?tab=readme-ov-file#be...
In unserem Benchmark schnitt es deutlich besser ab als erwartet: https://help.kagi.com/kagi/ai/llm-benchmark.html
Wir müssen dem noch weiter nachgehen, aber es ist beeindruckend
GPT-4 hat auch ein wenig erfunden, Claude lag genau richtig
Ich habe den Anschluss bei den Entwicklungen rund um HuggingFace-Modelle verpasst und bin neugierig.
Ich möchte wissen, was man mit solchen Modellen machen kann.
Kann man sie auf ein Notebook herunterladen und mit JupyterLab ausführen? Welche Vorteile hätte das? Kann man sie regelmäßig mit neuen Daten aus dem Internet aktualisieren? Kann man sie für bestimmte Zwecke wie Geodaten feinabstimmen? Und wie schwierig ist Fine-Tuning, wie lange dauert es?
Falls HuggingFace Antworten auf solche Fragen hat, wäre eine URL hilfreich.
Für mich wirkt HuggingFace wie GitHub in seinen Anfangstagen.
Eine kleine Gruppe nutzt es intensiv, während der Rest sich am Kopf kratzt, weil er nicht weiß, wie man es verwenden soll.
Das ist zwar eine Anfängerfrage, aber die Antwort dürfte vielen Leuten helfen.
Die Community erstellt quantisierte Versionen, die auf Consumer-GPUs laufen können.
Eine 4-Bit-Quantisierung von Llama 70B läuft auf einem MacBook Pro ziemlich gut, und auch die Neural Engine mit CPU-Unified-Memory ist für diesen Zweck recht solide.
Mit GPUs ist es etwas schwieriger, weil der Speicher von Consumer-GPUs noch recht klein ist.
Fine-Tuning ist ebenfalls möglich.
Frameworks wie Unsloth machen das einfacher: https://github.com/unslothai/unsloth
Fine-Tuning kann ziemlich knifflig sein, wenn man es richtig machen will, weil man Faktoren wie die Lernrate verstehen muss. Es gibt aber online gute Ressourcen, mit denen viele Hobbyentwickler Erfolg hatten.
Man braucht keinen Doktortitel in Machine Learning, aber man braucht Daten, die sich als Text darstellen lassen.
Quelle: Ich arbeite bei Databricks als Director of Model Serving Engineering.
Regelmäßige Updates sind praktisch schwierig, und Fine-Tuning ist möglich, aber ziemlich nervig – man fährt besser damit, jemanden dafür zu bezahlen.
Jeder kann alles hochladen, aber es standardisiert Werkzeuge und Veröffentlichungswege bis zu einem gewissen Grad.
Es gibt auch Teams, die bei Integrationen helfen, damit Releases leichter nutzbar werden, sowie Bibliotheken fürs Fine-Tuning.
Ich verfolge bei OpenRouter die Preise pro 1 Million Token, und es ist interessant, dass sie alle paar Refreshes sinken: https://openrouter.ai/meta-llama/llama-3.3-70b-instruct
Für Interessierte habe ich 4-Bit bitsandbytes, GGUF und die ursprünglichen 16-Bit-Gewichte unter https://huggingface.co/unsloth hochgeladen.
Mit Unsloth kann man Llama 3.3 70B mit weniger als 48 GB VRAM feinabstimmen; es ist 2-mal schneller und verbraucht 70 % weniger Speicher.
Dass Llama als Open Source veröffentlicht wurde, ist eines der besten Umsetzungsbeispiele der Strategie „Komplementärprodukte zur Commodity machen“, an das ich mich erinnern kann.
Für alle, die diese Strategie nicht kennen, hier Gwerns „Laws of Tech: Commoditize Your Complement“: https://gwern.net/complement
Meta liefert weiterhin mehr als erwartet.
Von Anfang an war das Ziel, OpenAI/Anthropic mit einer Verbrannte-Erde-Strategie durch starke offene Modelle ins Visier zu nehmen und aufzurütteln.
Die größten Gewinner sind wir Entwickler.
Ich habe heute Morgen ein paar Minuten investiert, einen H100-Modellserver hochzufahren, und ihn mit einer FP8-quantisierten Version plus KV-Cache-Quantisierung auf zwei H100s gebracht; Geschwindigkeit und Qualität wirken vielversprechend.
Ich bin gespannt, ob bessere Benchmarks beim Befolgen von Anweisungen zu Verbesserungen bei Function Calling und agentenartigen Funktionen führen.