- Taalas ist ein Startup, das das Modell Llama 3.1 8B direkt in einen ASIC-Chip eingraviert hat und damit eine Inferenzgeschwindigkeit von 17.000 Tokens pro Sekunde erreicht
- Das Unternehmen behauptet, gegenüber GPU-basierten Systemen 10-mal günstiger, mit 10-mal weniger Stromverbrauch und 10-mal schnellerer Inferenzleistung zu sein
- Die Architektur graviert die Gewichte des Modells direkt in Siliziumtransistoren ein und beseitigt damit den Speicherengpass von GPUs
- Ohne externes DRAM/HBM verarbeitet der Chip KV-Cache und LoRA-Adapter ausschließlich mit internem SRAM
- Für modellabhängige Chips wird nur die Anpassung der obersten zwei Layer vorgenommen; so wurde der Chip für Llama 3.1 in nur 2 Monaten fertiggestellt
Überblick über den Taalas-Chip
- Taalas ist ein seit 2,5 Jahren bestehendes Unternehmen, und dieser Chip ist sein erstes Produkt
- Der Chip ist ein ASIC mit fester Funktion, kann nur ein einziges Modell speichern und lässt sich nicht neu beschreiben
- Wie eine CD-ROM oder ein Spielemodul besitzt er eine Struktur für genau ein einzelnes Modell
Ineffizienz GPU-basierter LLM-Inferenz
- LLMs bestehen aus mehreren Schichten (Layern); als Beispiel hat Llama 3.1 8B 32 Schichten
- Eine GPU lädt die Gewichtsmatrizen jeder Schicht aus dem VRAM, führt die Berechnung aus und speichert sie anschließend wieder ab
- Dieser Vorgang muss bei der Erzeugung jedes Tokens 32-mal wiederholt werden
- Dieses Hin und Her mit dem Speicher verursacht Latenz und Energieverbrauch und wird als Memory-Bandwidth-Bottleneck oder Von-Neumann-Bottleneck bezeichnet
Taalas’ „hardwired“-Ansatz
- Taalas graviert die 32 Schichten von Llama 3.1 nacheinander in Silizium ein
- Die Gewichte des Modells werden als physische Transistoren implementiert
- Wenn der Eingabevektor eintrifft, wird er beim Durchlaufen der Transistoren jeder Schicht fortlaufend als elektrisches Signal verarbeitet
- Zwischenergebnisse werden nicht im VRAM gespeichert, sondern direkt über Leitungen (Pipeline-Register) an die nächste Schicht weitergegeben
- Das Unternehmen erklärt, eine Struktur namens „magic multiplier“ entwickelt zu haben, die 4-Bit-Datenspeicherung und Multiplikation in einem einzelnen Transistor ausführt
Speicherstruktur
- Externes DRAM/HBM wird nicht verwendet; stattdessen ist eine kleine Menge SRAM im Chip integriert
- Der Grund ist, dass sich DRAM und Logikgatter nur schwer gemeinsam fertigen lassen
- Dieses On-Chip-SRAM wird zum Speichern von KV-Cache (temporärer Speicher während einer Konversation) und LoRA-Adaptern verwendet
Herstellung modellabhängiger Chips
- Für jedes Modell einen neuen Chip zu fertigen ist normalerweise teuer
- Taalas entwirft daher die Grundstruktur des Chips gemeinsam und ändert für ein bestimmtes Modell nur die obersten zwei Layer (Masken)
- Das ist deutlich schneller als die Entwicklung eines vollständig neuen Chips
- Die Entwicklung des Chips für Llama 3.1 8B dauerte etwa 2 Monate
- Nach Maßstäben der AI-Branche ist das langsam, für die Geschwindigkeit kundenspezifischer Chipfertigung jedoch außergewöhnlich schnell
Erwartung für die Zukunft
- Aus Sicht von Nutzern, die lokale Modelle ohne GPU ausführen, weckt dies Erwartungen an eine Massenproduktion solcher Hardware
Noch keine Kommentare.