Meta veröffentlicht Llama 3.2 – Technologie, die Edge-AI und Vision mit offenen, anpassbaren Modellen revolutioniert

(ai.meta.com)

11 Punkte von GN⁺ 2024-09-26 | 1 Kommentare | Auf WhatsApp teilen

Meta veröffentlicht Llama 3.2
- Enthält kleine und mittelgroße Vision-LLMs (11B und 90B) sowie leichte reine Textmodelle (1B und 3B)
- Verfügbar auf Hardware von Qualcomm und MediaTek und für Arm-Prozessoren optimiert
- Modelle, die sich für Zusammenfassungen, das Befolgen von Anweisungen und Umschreibungsaufgaben eignen
Eigenschaften der Llama-3.2-Modelle
- Die Vision-Modelle 11B und 90B sind bei Aufgaben zum Bildverständnis besonders stark
- Feinabstimmung für angepasste Anwendungen mit torchtune möglich
- Lokale Bereitstellung mit torchchat möglich
- Über den smarten Assistenten Meta AI nutzbar
Bereitstellung von Llama Stack
- Vereinfacht die Arbeit mit Llama-Modellen in Single-Node-, On-Premises-, Cloud- und On-Device-Umgebungen
- Bereitstellung in Zusammenarbeit mit AWS, Databricks, Dell Technologies, Fireworks, Infosys und Together AI
Download der Llama-3.2-Modelle
- Download über llama.com und Hugging Face möglich
- Sofortige Entwicklung auf Partnerplattformen wie AMD, AWS, Databricks, Dell, Google Cloud, Groq, IBM, Intel, Microsoft Azure, NVIDIA, Oracle Cloud und Snowflake möglich
Leistung von Llama 3.2
- Die Modelle 11B und 90B eignen sich für Verständnis auf Dokumentenebene, Bildunterschriftenerstellung und visuell basierte Aufgaben
- Die Modelle 1B und 3B bieten mehrsprachige Textgenerierung und Tool-Calling-Funktionen
- Bei lokaler Ausführung bieten sie sofortige Reaktionen und hohe Privatsphäre
Modellevaluierung
- Leistung anhand von mehr als 150 Benchmark-Datensätzen bewertet
- Leistungsfähig auf einem Niveau, das mit Claude 3 Haiku und GPT4o-mini konkurrieren kann
Vision-Modelle
- Einführung einer neuen Modellarchitektur zur Unterstützung von Bildeingaben
- Kombiniert Bild- und Text-Prompts für tiefes Verständnis und Schlussfolgerungen, während reine Textfunktionen erhalten bleiben
Leichte Modelle
- Entwicklung der Modelle 1B und 3B mithilfe von Pruning- und Wissensdistillationsmethoden
- Effiziente lokale Ausführung möglich
Bereitstellung von Llama Stack
- Bietet eine standardisierte Schnittstelle über die Llama Stack API
- Vereinfacht die Arbeit mit Llama-Modellen in verschiedenen Umgebungen
Sicherheit auf Systemebene
- Veröffentlichung von Llama Guard 3 11B Vision
- Das Modell Llama Guard 3 1B senkt die Bereitstellungskosten erheblich
Nutzung von Llama 3.2
- Stellt Entwicklern die benötigten Tools und Ressourcen bereit
- Mit Llama 3.2 und Llama Stack können innovative Anwendungen entwickelt werden

Zusammenfassung von GN⁺

Llama 3.2 bietet verschiedene Vision- und Textmodelle, darunter leichte Modelle, die auf Edge- und Mobilgeräten ausgeführt werden können
Durch die Zusammenarbeit mit Qualcomm, MediaTek, Arm und anderen wird optimierte Leistung auf unterschiedlicher Hardware geboten
Mit der Bereitstellung von Llama Stack wird unterstützt, dass Entwickler Llama-Modelle in verschiedensten Umgebungen einfach nutzen können
Llama 3.2 eignet sich dank hoher Privatsphäre und sofortiger Reaktionen gut für die Entwicklung lokaler Anwendungen
Es bietet eine Leistung, die mit Claude 3 Haiku und GPT4o-mini konkurrieren kann, und hat in verschiedenen Benchmarks starke Ergebnisse gezeigt

1 Kommentare

GN⁺ 2024-09-26

Hacker-News-Kommentare

Überrascht von der Leistung des neuen 1B-Modells. Die Downloadgröße beträgt 1,3 GB
- Es wurde zum Zusammenfassen einer gesamten Codebasis verwendet. Nicht perfekt, aber für ein kleines Modell zeigt es eine erstaunliche Leistung
- Weitere Notizen gibt es hier
- Auch das größere Bildmodell wurde ausprobiert. Auf lmarena.ai können Bilder über "Direct Chat" hochgeladen werden
Beim Beispiel "The Llama jumped over the ______!" ist mit 1-Hot-Encoding "wall" mit 100 % Wahrscheinlichkeit die richtige Antwort
- Zu sagen, dass auch "fence" möglich sei, wäre falsch. Ich denke, das ist der Grund, warum Model Distillation so gut funktioniert
- Das ursprüngliche Modell wird über textuelle Antworten trainiert, aber das Kindmodell lernt durch das Nachahmen von Vorhersagen sinnvollere Antworten
- Jetzt verstehe ich, warum Metas Llama-3.2-Modelle klein, aber leistungsstark sind. Beeindruckend, wie sich die Modelle weiterentwickelt haben
Beeindruckt von der Offenheit des Meta-Llama-Teams. Nicht nur der Zugang zu den Modellen, sondern auch die Art ihres Aufbaus wird offengelegt
- Was zukünftige Modelle angeht, weiß man es nicht, aber ich bin für Metas offene Haltung dankbar
Anfängerfrage: Ich brauche ein Modell mit der zehnfachen Fähigkeit eines Software Engineers, aber ohne menschliches Wissen. Ich frage mich, ob es so ein Modell gibt
Habe das 3B-Modell in Ollama ausprobiert. Es antwortet schnell und verfügt über viel Wissen zu Optik, Biologie und Rust
- Ein sehr beeindruckendes Modell
Blogpost von Ollama: Link
Das Modell llama3.2:3b-instruct-q8_0 ist besser als 3.1 8b-q4. Auf einem MacBook Pro M1 ist es schneller und liefert auch bessere Ergebnisse
- Es gibt bessere Antworten auf einige Rätsel und Gedankenexperimente
- Die Installation von 3.1-8b wurde entfernt
- Aktuelle Ollama-Liste:
  - llama3.2:3b-instruct-q8_0: 3,4 GB, vor 2 Stunden geändert
  - gemma2:9b-instruct-q4_1: 6,0 GB, vor 3 Tagen geändert
  - phi3.5:3.8b-mini-instruct-q8_0: 4,1 GB, vor 3 Tagen geändert
  - mxbai-embed-large:latest: 669 MB, vor 3 Monaten geändert
Frage, ob jemand einen Web-UI-Client für Ollama empfehlen kann
Frage, ob es ein Leaderboard mit aktuellen LLM-Benchmarks gibt
- Livebench und Lmsys hängen einige Wochen hinterher und fügen wichtige Modelle nicht hinzu
- Falls es keines gibt, wäre ich bereit, selbst eines zu erstellen
Das 3B-Modell war multimodal (auf Norwegisch) ziemlich gut, gab aber manchmal viele unsinnige Antworten. Es ist empfindlicher als 8B, aber nutzbarer als Gemma 2 2B
- Für Fragen zum Sortieren von Python-Listen ist es okay
- Das 90B-Vision-Modell verweigert nützliche Aufgaben. Es scheitert daran, Bilder in HTML nachzubauen oder Bilddaten sinnvoll zu nutzen
- Bei 70B oder OpenAI gab es dieses Problem nicht. Es gibt zu viele Verweigerungen

Meta veröffentlicht Llama 3.2 – Technologie, die Edge-AI und Vision mit offenen, anpassbaren Modellen revolutioniert

Zusammenfassung von GN⁺

Verwandte Beiträge

1 Kommentare

Hacker-News-Kommentare