Taalas’ Methode, ein LLM auf einen Chip zu „drucken“
(anuragk.com)- Taalas ist ein Startup, das das Modell Llama 3.1 8B direkt in einen ASIC-Chip eingraviert hat und damit eine Inferenzgeschwindigkeit von 17.000 Tokens pro Sekunde erreicht
- Das Unternehmen behauptet, gegenüber GPU-basierten Systemen 10-mal günstiger, mit 10-mal weniger Stromverbrauch und 10-mal schnellerer Inferenzleistung zu sein
- Die Architektur graviert die Gewichte des Modells direkt in Siliziumtransistoren ein und beseitigt damit den Speicherengpass von GPUs
- Ohne externes DRAM/HBM verarbeitet der Chip KV-Cache und LoRA-Adapter ausschließlich mit internem SRAM
- Für modellabhängige Chips wird nur die Anpassung der obersten zwei Layer vorgenommen; so wurde der Chip für Llama 3.1 in nur 2 Monaten fertiggestellt
Überblick über den Taalas-Chip
- Taalas ist ein seit 2,5 Jahren bestehendes Unternehmen, und dieser Chip ist sein erstes Produkt
- Der Chip ist ein ASIC mit fester Funktion, kann nur ein einziges Modell speichern und lässt sich nicht neu beschreiben
- Wie eine CD-ROM oder ein Spielemodul besitzt er eine Struktur für genau ein einzelnes Modell
Ineffizienz GPU-basierter LLM-Inferenz
- LLMs bestehen aus mehreren Schichten (Layern); als Beispiel hat Llama 3.1 8B 32 Schichten
- Eine GPU lädt die Gewichtsmatrizen jeder Schicht aus dem VRAM, führt die Berechnung aus und speichert sie anschließend wieder ab
- Dieser Vorgang muss bei der Erzeugung jedes Tokens 32-mal wiederholt werden
- Dieses Hin und Her mit dem Speicher verursacht Latenz und Energieverbrauch und wird als Memory-Bandwidth-Bottleneck oder Von-Neumann-Bottleneck bezeichnet
Taalas’ „hardwired“-Ansatz
- Taalas graviert die 32 Schichten von Llama 3.1 nacheinander in Silizium ein
- Die Gewichte des Modells werden als physische Transistoren implementiert
- Wenn der Eingabevektor eintrifft, wird er beim Durchlaufen der Transistoren jeder Schicht fortlaufend als elektrisches Signal verarbeitet
- Zwischenergebnisse werden nicht im VRAM gespeichert, sondern direkt über Leitungen (Pipeline-Register) an die nächste Schicht weitergegeben
- Das Unternehmen erklärt, eine Struktur namens „magic multiplier“ entwickelt zu haben, die 4-Bit-Datenspeicherung und Multiplikation in einem einzelnen Transistor ausführt
Speicherstruktur
- Externes DRAM/HBM wird nicht verwendet; stattdessen ist eine kleine Menge SRAM im Chip integriert
- Der Grund ist, dass sich DRAM und Logikgatter nur schwer gemeinsam fertigen lassen
- Dieses On-Chip-SRAM wird zum Speichern von KV-Cache (temporärer Speicher während einer Konversation) und LoRA-Adaptern verwendet
Herstellung modellabhängiger Chips
- Für jedes Modell einen neuen Chip zu fertigen ist normalerweise teuer
- Taalas entwirft daher die Grundstruktur des Chips gemeinsam und ändert für ein bestimmtes Modell nur die obersten zwei Layer (Masken)
- Das ist deutlich schneller als die Entwicklung eines vollständig neuen Chips
- Die Entwicklung des Chips für Llama 3.1 8B dauerte etwa 2 Monate
- Nach Maßstäben der AI-Branche ist das langsam, für die Geschwindigkeit kundenspezifischer Chipfertigung jedoch außergewöhnlich schnell
Erwartung für die Zukunft
- Aus Sicht von Nutzern, die lokale Modelle ohne GPU ausführen, weckt dies Erwartungen an eine Massenproduktion solcher Hardware
5 Kommentare
Hacker-News-Kommentare
8B Koeffizienten (coefficients) sind in 53B Transistoren gepackt. Pro Koeffizient werden etwa 6,5 Transistoren verwendet
Es scheint Block-Quantisierung (block quantization) zu verwenden. Bei einem Block mit zum Beispiel vier 3-Bit-Koeffizienten wären nur 330 verschiedene Blöcke nötig
Die Matrizen von Llama 3.1 sind 4096x4096 groß, also aus 16 Millionen Koeffizienten aufgebaut, und man könnte sie wohl auf 330 Blöcke komprimieren
Nimmt man ein Budget von rund 250.000 Transistoren pro Block an, ergibt das etwa 5 Transistoren pro Koeffizient. Selbst auf FP4-Niveau scheint das gut machbar
model.toVHDL()bekommtDass Leute überrascht sind, dass so etwas möglich ist, überrascht mich eher
Der Grund, warum es GPUs überhaupt gibt, ist letztlich genau das: Software-Operationen in Hardware zu verlagern. LLMs haben dieselbe mathematische Struktur, daher halte ich diese Richtung für eine naheliegende Evolution
Die eigentliche Innovation ist weniger der Formfaktor als die Latenz
Bei Cloud-Inferenz liegt allein der Netzwerk-Overhead bei 50–200 ms, während ein dedizierter ASIC auf PCIe den ersten Token in Mikrosekunden liefern kann
Für Echtzeit-Videogenerierung oder Agenten, die Antworten unter 100 ms brauchen, ist das entscheidend. Die Kosten können höher sein als bei GPUs, aber es ermöglicht neue Echtzeit-Anwendungen
Die Zukunft, in der Modelle wie Gemma 5 Mini direkt auf lokaler Hardware laufen, ist spannend
So wie es H.264- oder AV1-Encoder gibt, könnte es auch „AI-Cores“ für bestimmte Modelle geben
Dank Structured ASIC Plattformen, die das Zeitalter struktureller ASICs wieder eröffnen, könnten auch die Kosten sinken
Das lässt mich an Chips denken, die wie CD-ROMs oder Spielmodule genau ein Modell enthalten. Man steckt einen Slot in den Computer und wechselt so das Modell aus
Wenn man ASICs günstig drucken könnte, würde sich die Art der Modellnutzung komplett ändern
Modelle würden als USB-Geräte verkauft, und für persönliche Assistenten wären dichte Modelle mit weniger als 20 Milliarden Parametern völlig ausreichend
Das fühlt sich an wie eine Neuauflage der Grafikkarte. Jetzt, wo es mehr Open-Weight-Modelle gibt, könnte selbst bei niedrigen Kauf- und Betriebskosten ein großer Markt entstehen
Ich frage mich, wie das bei MoE-Architekturen funktionieren würde
Bei dichten LLMs ist es vorteilhaft, alle Gewichte nah beieinander zu halten, aber bei MoE steht der Speicherzugriff im Zentrum, wodurch ein Ungleichgewicht zwischen MAC und Speicher entsteht. Wahrscheinlich landet man am Ende wieder bei einem Chiplet-Ansatz
Irgendwann werden dedizierte PCIe-Erweiterungskarten für AI wohl zum Mainstream
Wie früher Grafik- oder Soundkarten würde man beim Erscheinen neuer Modelle einfach die Karte austauschen und so die „Intelligenz“ des PCs aufrüsten
Computing hat immer wieder zwischen lokal und Server gependelt, aber die On-Premises-Nachfrage wird nie ganz verschwinden
Letztlich werden wohl Mainboards mit AI-Chip-Slots oder AI-Peripheriegeräte auftauchen, die man an Hochgeschwindigkeitsports anschließt
Ich frage mich, ob Hersteller wie Apple solche Chips innerhalb von drei Jahren direkt integrieren könnten. Ich würde lokale Höchstleistung auf dem Niveau heutiger Modelle erwarten
Das erinnert mich an den Unterschied zwischen digitaler und analoger Integral- und Differentialrechnung.
Es wäre gut, wenn man damit nicht ein LLM-Modell, sondern ein Text-Embedding-Modell bauen würde.
Stimmt, wenn man es einmal erstellt hat, nutzt man es einfach weiter.
Wenn die Entwicklung neuer Chip-Designs und das Entwicklungstempo dank KI beschleunigt werden, könnte das tatsächlich die Zukunft sein. Es erinnert mich auch an die Zeit vor etwa 25 Jahren, als sich die Hardware-Leistung in einem regelrechten Wettlauf steigerte.