11 Punkte von GN⁺ 2024-09-26 | 1 Kommentare | Auf WhatsApp teilen
  • Meta veröffentlicht Llama 3.2

    • Enthält kleine und mittelgroße Vision-LLMs (11B und 90B) sowie leichte reine Textmodelle (1B und 3B)
    • Verfügbar auf Hardware von Qualcomm und MediaTek und für Arm-Prozessoren optimiert
    • Modelle, die sich für Zusammenfassungen, das Befolgen von Anweisungen und Umschreibungsaufgaben eignen
  • Eigenschaften der Llama-3.2-Modelle

    • Die Vision-Modelle 11B und 90B sind bei Aufgaben zum Bildverständnis besonders stark
    • Feinabstimmung für angepasste Anwendungen mit torchtune möglich
    • Lokale Bereitstellung mit torchchat möglich
    • Über den smarten Assistenten Meta AI nutzbar
  • Bereitstellung von Llama Stack

    • Vereinfacht die Arbeit mit Llama-Modellen in Single-Node-, On-Premises-, Cloud- und On-Device-Umgebungen
    • Bereitstellung in Zusammenarbeit mit AWS, Databricks, Dell Technologies, Fireworks, Infosys und Together AI
  • Download der Llama-3.2-Modelle

    • Download über llama.com und Hugging Face möglich
    • Sofortige Entwicklung auf Partnerplattformen wie AMD, AWS, Databricks, Dell, Google Cloud, Groq, IBM, Intel, Microsoft Azure, NVIDIA, Oracle Cloud und Snowflake möglich
  • Leistung von Llama 3.2

    • Die Modelle 11B und 90B eignen sich für Verständnis auf Dokumentenebene, Bildunterschriftenerstellung und visuell basierte Aufgaben
    • Die Modelle 1B und 3B bieten mehrsprachige Textgenerierung und Tool-Calling-Funktionen
    • Bei lokaler Ausführung bieten sie sofortige Reaktionen und hohe Privatsphäre
  • Modellevaluierung

    • Leistung anhand von mehr als 150 Benchmark-Datensätzen bewertet
    • Leistungsfähig auf einem Niveau, das mit Claude 3 Haiku und GPT4o-mini konkurrieren kann
  • Vision-Modelle

    • Einführung einer neuen Modellarchitektur zur Unterstützung von Bildeingaben
    • Kombiniert Bild- und Text-Prompts für tiefes Verständnis und Schlussfolgerungen, während reine Textfunktionen erhalten bleiben
  • Leichte Modelle

    • Entwicklung der Modelle 1B und 3B mithilfe von Pruning- und Wissensdistillationsmethoden
    • Effiziente lokale Ausführung möglich
  • Bereitstellung von Llama Stack

    • Bietet eine standardisierte Schnittstelle über die Llama Stack API
    • Vereinfacht die Arbeit mit Llama-Modellen in verschiedenen Umgebungen
  • Sicherheit auf Systemebene

    • Veröffentlichung von Llama Guard 3 11B Vision
    • Das Modell Llama Guard 3 1B senkt die Bereitstellungskosten erheblich
  • Nutzung von Llama 3.2

    • Stellt Entwicklern die benötigten Tools und Ressourcen bereit
    • Mit Llama 3.2 und Llama Stack können innovative Anwendungen entwickelt werden

Zusammenfassung von GN⁺

  • Llama 3.2 bietet verschiedene Vision- und Textmodelle, darunter leichte Modelle, die auf Edge- und Mobilgeräten ausgeführt werden können
  • Durch die Zusammenarbeit mit Qualcomm, MediaTek, Arm und anderen wird optimierte Leistung auf unterschiedlicher Hardware geboten
  • Mit der Bereitstellung von Llama Stack wird unterstützt, dass Entwickler Llama-Modelle in verschiedensten Umgebungen einfach nutzen können
  • Llama 3.2 eignet sich dank hoher Privatsphäre und sofortiger Reaktionen gut für die Entwicklung lokaler Anwendungen
  • Es bietet eine Leistung, die mit Claude 3 Haiku und GPT4o-mini konkurrieren kann, und hat in verschiedenen Benchmarks starke Ergebnisse gezeigt

1 Kommentare

 
GN⁺ 2024-09-26
Hacker-News-Kommentare
  • Überrascht von der Leistung des neuen 1B-Modells. Die Downloadgröße beträgt 1,3 GB

    • Es wurde zum Zusammenfassen einer gesamten Codebasis verwendet. Nicht perfekt, aber für ein kleines Modell zeigt es eine erstaunliche Leistung
    • Weitere Notizen gibt es hier
    • Auch das größere Bildmodell wurde ausprobiert. Auf lmarena.ai können Bilder über "Direct Chat" hochgeladen werden
  • Beim Beispiel "The Llama jumped over the ______!" ist mit 1-Hot-Encoding "wall" mit 100 % Wahrscheinlichkeit die richtige Antwort

    • Zu sagen, dass auch "fence" möglich sei, wäre falsch. Ich denke, das ist der Grund, warum Model Distillation so gut funktioniert
    • Das ursprüngliche Modell wird über textuelle Antworten trainiert, aber das Kindmodell lernt durch das Nachahmen von Vorhersagen sinnvollere Antworten
    • Jetzt verstehe ich, warum Metas Llama-3.2-Modelle klein, aber leistungsstark sind. Beeindruckend, wie sich die Modelle weiterentwickelt haben
  • Beeindruckt von der Offenheit des Meta-Llama-Teams. Nicht nur der Zugang zu den Modellen, sondern auch die Art ihres Aufbaus wird offengelegt

    • Was zukünftige Modelle angeht, weiß man es nicht, aber ich bin für Metas offene Haltung dankbar
  • Anfängerfrage: Ich brauche ein Modell mit der zehnfachen Fähigkeit eines Software Engineers, aber ohne menschliches Wissen. Ich frage mich, ob es so ein Modell gibt

  • Habe das 3B-Modell in Ollama ausprobiert. Es antwortet schnell und verfügt über viel Wissen zu Optik, Biologie und Rust

    • Ein sehr beeindruckendes Modell
  • Blogpost von Ollama: Link

  • Das Modell llama3.2:3b-instruct-q8_0 ist besser als 3.1 8b-q4. Auf einem MacBook Pro M1 ist es schneller und liefert auch bessere Ergebnisse

    • Es gibt bessere Antworten auf einige Rätsel und Gedankenexperimente
    • Die Installation von 3.1-8b wurde entfernt
    • Aktuelle Ollama-Liste:
      • llama3.2:3b-instruct-q8_0: 3,4 GB, vor 2 Stunden geändert
      • gemma2:9b-instruct-q4_1: 6,0 GB, vor 3 Tagen geändert
      • phi3.5:3.8b-mini-instruct-q8_0: 4,1 GB, vor 3 Tagen geändert
      • mxbai-embed-large:latest: 669 MB, vor 3 Monaten geändert
  • Frage, ob jemand einen Web-UI-Client für Ollama empfehlen kann

  • Frage, ob es ein Leaderboard mit aktuellen LLM-Benchmarks gibt

    • Livebench und Lmsys hängen einige Wochen hinterher und fügen wichtige Modelle nicht hinzu
    • Falls es keines gibt, wäre ich bereit, selbst eines zu erstellen
  • Das 3B-Modell war multimodal (auf Norwegisch) ziemlich gut, gab aber manchmal viele unsinnige Antworten. Es ist empfindlicher als 8B, aber nutzbarer als Gemma 2 2B

    • Für Fragen zum Sortieren von Python-Listen ist es okay
    • Das 90B-Vision-Modell verweigert nützliche Aufgaben. Es scheitert daran, Bilder in HTML nachzubauen oder Bilddaten sinnvoll zu nutzen
    • Bei 70B oder OpenAI gab es dieses Problem nicht. Es gibt zu viele Verweigerungen