AMD stellt sein erstes Small Language Model AMD-135M vor

(community.amd.com)

6 Punkte von GN⁺ 2024-09-29 | 1 Kommentare | Auf WhatsApp teilen

AMD hat sein erstes Small Language Model AMD-135M vorgestellt
Das Modell wurde mit dem AMD Instinct™ MI250-Beschleuniger auf 670 Milliarden Token trainiert
Es gibt zwei Varianten: AMD-Llama-135M und AMD-Llama-135M-code
- Das Modell AMD-Llama-135M wurde mit allgemeinen Daten über 6 Tage auf 670 Milliarden Token trainiert
- Das Modell AMD-Llama-135M-code wurde zusätzlich mit 20 Milliarden Code-Daten-Token über 4 Tage feinabgestimmt
- Trainingscode, Datensätze und Gewichte dieses Modells werden als Open Source bereitgestellt
Optimierung der Inferenzleistung mit Speculative Decoding
- Große Sprachmodelle führen Inferenz in der Regel mit einem autoregressiven Ansatz aus
- Die zentrale Einschränkung dieses Ansatzes besteht darin, dass pro Forward-Pass nur ein einzelnes Token erzeugt werden kann
- Durch die Einführung von Speculative Decoding wird dieses Problem gelöst
- Ein kleines Draft-Modell erzeugt einen Satz von Kandidaten-Token, die anschließend von einem größeren Zielmodell verifiziert werden
- Dieser Ansatz ermöglicht die Erzeugung mehrerer Token pro Forward-Pass, reduziert den Speicherzugriffsaufwand deutlich und steigert die Geschwindigkeit erheblich
Beschleunigung der Inferenzleistung
- Die Inferenzleistung wurde getestet, indem AMD-Llama-135M-code als Draft-Modell für CodeLlama-7b verwendet wurde
- Verglichen wurden Fälle mit und ohne Speculative Decoding auf dem MI250-Beschleuniger und auf Ryzen™ AI-Prozessoren (mit NPU)
- In bestimmten Konfigurationen wurde mit Speculative Decoding eine höhere Geschwindigkeit bestätigt
Nächste Schritte
- AMD stellt eine Open-Source-Referenzimplementierung bereit, um Innovationen in der AI-Community zu fördern
- Weitere Details zu AMD-135M sind im technischen Blog zu finden
- Auf den Code kann im AMD-GitHub-Repository zugegriffen werden
- Modelldateien können über die Hugging Face Model Card heruntergeladen werden
- Über die AMD Developer Cloud kann der Zugang zu Instinct-Beschleunigerkarten beantragt werden

Zusammenfassung von GN⁺

AMDs erstes Small Language Model AMD-135M stellt einen wichtigen Fortschritt für die AI-Community dar
Mit Speculative Decoding wird die Inferenzleistung deutlich verbessert
Die Open-Source-Referenzimplementierung unterstützt Entwickler dabei, das Modell zu reproduzieren und andere SLMs und LLMs zu trainieren
Ziel ist es, Innovationen im AI-Bereich zu fördern und eine umfassendere sowie ethischere technologische Entwicklung voranzutreiben

1 Kommentare

comsect62 2024-09-30

Um sich zu einer allgemeinen künstlichen Intelligenz zu entwickeln, braucht es einen Anlass für einen dimensionsartigen Sprung – und dieser Anlass ist Bildung.

AMD stellt sein erstes Small Language Model AMD-135M vor

Zusammenfassung von GN⁺

Verwandte Beiträge

1 Kommentare