- AMD hat sein erstes Small Language Model AMD-135M vorgestellt
- Das Modell wurde mit dem AMD Instinct™ MI250-Beschleuniger auf 670 Milliarden Token trainiert
- Es gibt zwei Varianten: AMD-Llama-135M und AMD-Llama-135M-code
- Das Modell AMD-Llama-135M wurde mit allgemeinen Daten über 6 Tage auf 670 Milliarden Token trainiert
- Das Modell AMD-Llama-135M-code wurde zusätzlich mit 20 Milliarden Code-Daten-Token über 4 Tage feinabgestimmt
- Trainingscode, Datensätze und Gewichte dieses Modells werden als Open Source bereitgestellt
- Optimierung der Inferenzleistung mit Speculative Decoding
- Große Sprachmodelle führen Inferenz in der Regel mit einem autoregressiven Ansatz aus
- Die zentrale Einschränkung dieses Ansatzes besteht darin, dass pro Forward-Pass nur ein einzelnes Token erzeugt werden kann
- Durch die Einführung von Speculative Decoding wird dieses Problem gelöst
- Ein kleines Draft-Modell erzeugt einen Satz von Kandidaten-Token, die anschließend von einem größeren Zielmodell verifiziert werden
- Dieser Ansatz ermöglicht die Erzeugung mehrerer Token pro Forward-Pass, reduziert den Speicherzugriffsaufwand deutlich und steigert die Geschwindigkeit erheblich
- Beschleunigung der Inferenzleistung
- Die Inferenzleistung wurde getestet, indem AMD-Llama-135M-code als Draft-Modell für CodeLlama-7b verwendet wurde
- Verglichen wurden Fälle mit und ohne Speculative Decoding auf dem MI250-Beschleuniger und auf Ryzen™ AI-Prozessoren (mit NPU)
- In bestimmten Konfigurationen wurde mit Speculative Decoding eine höhere Geschwindigkeit bestätigt
- Nächste Schritte
- AMD stellt eine Open-Source-Referenzimplementierung bereit, um Innovationen in der AI-Community zu fördern
- Weitere Details zu AMD-135M sind im technischen Blog zu finden
- Auf den Code kann im AMD-GitHub-Repository zugegriffen werden
- Modelldateien können über die Hugging Face Model Card heruntergeladen werden
- Über die AMD Developer Cloud kann der Zugang zu Instinct-Beschleunigerkarten beantragt werden
Zusammenfassung von GN⁺
- AMDs erstes Small Language Model AMD-135M stellt einen wichtigen Fortschritt für die AI-Community dar
- Mit Speculative Decoding wird die Inferenzleistung deutlich verbessert
- Die Open-Source-Referenzimplementierung unterstützt Entwickler dabei, das Modell zu reproduzieren und andere SLMs und LLMs zu trainieren
- Ziel ist es, Innovationen im AI-Bereich zu fördern und eine umfassendere sowie ethischere technologische Entwicklung voranzutreiben
1 Kommentare
Um sich zu einer allgemeinen künstlichen Intelligenz zu entwickeln, braucht es einen Anlass für einen dimensionsartigen Sprung – und dieser Anlass ist Bildung.