6 Punkte von GN⁺ 2024-09-29 | 1 Kommentare | Auf WhatsApp teilen
  • AMD hat sein erstes Small Language Model AMD-135M vorgestellt
  • Das Modell wurde mit dem AMD Instinct™ MI250-Beschleuniger auf 670 Milliarden Token trainiert
  • Es gibt zwei Varianten: AMD-Llama-135M und AMD-Llama-135M-code
    • Das Modell AMD-Llama-135M wurde mit allgemeinen Daten über 6 Tage auf 670 Milliarden Token trainiert
    • Das Modell AMD-Llama-135M-code wurde zusätzlich mit 20 Milliarden Code-Daten-Token über 4 Tage feinabgestimmt
    • Trainingscode, Datensätze und Gewichte dieses Modells werden als Open Source bereitgestellt
  • Optimierung der Inferenzleistung mit Speculative Decoding
    • Große Sprachmodelle führen Inferenz in der Regel mit einem autoregressiven Ansatz aus
    • Die zentrale Einschränkung dieses Ansatzes besteht darin, dass pro Forward-Pass nur ein einzelnes Token erzeugt werden kann
    • Durch die Einführung von Speculative Decoding wird dieses Problem gelöst
    • Ein kleines Draft-Modell erzeugt einen Satz von Kandidaten-Token, die anschließend von einem größeren Zielmodell verifiziert werden
    • Dieser Ansatz ermöglicht die Erzeugung mehrerer Token pro Forward-Pass, reduziert den Speicherzugriffsaufwand deutlich und steigert die Geschwindigkeit erheblich
  • Beschleunigung der Inferenzleistung
    • Die Inferenzleistung wurde getestet, indem AMD-Llama-135M-code als Draft-Modell für CodeLlama-7b verwendet wurde
    • Verglichen wurden Fälle mit und ohne Speculative Decoding auf dem MI250-Beschleuniger und auf Ryzen™ AI-Prozessoren (mit NPU)
    • In bestimmten Konfigurationen wurde mit Speculative Decoding eine höhere Geschwindigkeit bestätigt
  • Nächste Schritte
    • AMD stellt eine Open-Source-Referenzimplementierung bereit, um Innovationen in der AI-Community zu fördern
    • Weitere Details zu AMD-135M sind im technischen Blog zu finden
    • Auf den Code kann im AMD-GitHub-Repository zugegriffen werden
    • Modelldateien können über die Hugging Face Model Card heruntergeladen werden
    • Über die AMD Developer Cloud kann der Zugang zu Instinct-Beschleunigerkarten beantragt werden

Zusammenfassung von GN⁺

  • AMDs erstes Small Language Model AMD-135M stellt einen wichtigen Fortschritt für die AI-Community dar
  • Mit Speculative Decoding wird die Inferenzleistung deutlich verbessert
  • Die Open-Source-Referenzimplementierung unterstützt Entwickler dabei, das Modell zu reproduzieren und andere SLMs und LLMs zu trainieren
  • Ziel ist es, Innovationen im AI-Bereich zu fördern und eine umfassendere sowie ethischere technologische Entwicklung voranzutreiben

1 Kommentare

 
comsect62 2024-09-30

Um sich zu einer allgemeinen künstlichen Intelligenz zu entwickeln, braucht es einen Anlass für einen dimensionsartigen Sprung – und dieser Anlass ist Bildung.