Taalas’ Methode, ein LLM auf einen Chip zu „drucken“

(anuragk.com)

23 Punkte von GN⁺ 2026-02-23 | Noch keine Kommentare. | Auf WhatsApp teilen

Taalas ist ein Startup, das das Modell Llama 3.1 8B direkt in einen ASIC-Chip eingraviert hat und damit eine Inferenzgeschwindigkeit von 17.000 Tokens pro Sekunde erreicht
Das Unternehmen behauptet, gegenüber GPU-basierten Systemen 10-mal günstiger, mit 10-mal weniger Stromverbrauch und 10-mal schnellerer Inferenzleistung zu sein
Die Architektur graviert die Gewichte des Modells direkt in Siliziumtransistoren ein und beseitigt damit den Speicherengpass von GPUs
Ohne externes DRAM/HBM verarbeitet der Chip KV-Cache und LoRA-Adapter ausschließlich mit internem SRAM
Für modellabhängige Chips wird nur die Anpassung der obersten zwei Layer vorgenommen; so wurde der Chip für Llama 3.1 in nur 2 Monaten fertiggestellt

Überblick über den Taalas-Chip

Taalas ist ein seit 2,5 Jahren bestehendes Unternehmen, und dieser Chip ist sein erstes Produkt
Der Chip ist ein ASIC mit fester Funktion, kann nur ein einziges Modell speichern und lässt sich nicht neu beschreiben
- Wie eine CD-ROM oder ein Spielemodul besitzt er eine Struktur für genau ein einzelnes Modell

LLMs bestehen aus mehreren Schichten (Layern); als Beispiel hat Llama 3.1 8B 32 Schichten
Eine GPU lädt die Gewichtsmatrizen jeder Schicht aus dem VRAM, führt die Berechnung aus und speichert sie anschließend wieder ab
- Dieser Vorgang muss bei der Erzeugung jedes Tokens 32-mal wiederholt werden
Dieses Hin und Her mit dem Speicher verursacht Latenz und Energieverbrauch und wird als Memory-Bandwidth-Bottleneck oder Von-Neumann-Bottleneck bezeichnet

Taalas graviert die 32 Schichten von Llama 3.1 nacheinander in Silizium ein
- Die Gewichte des Modells werden als physische Transistoren implementiert
Wenn der Eingabevektor eintrifft, wird er beim Durchlaufen der Transistoren jeder Schicht fortlaufend als elektrisches Signal verarbeitet
- Zwischenergebnisse werden nicht im VRAM gespeichert, sondern direkt über Leitungen (Pipeline-Register) an die nächste Schicht weitergegeben
Das Unternehmen erklärt, eine Struktur namens „magic multiplier“ entwickelt zu haben, die 4-Bit-Datenspeicherung und Multiplikation in einem einzelnen Transistor ausführt

Externes DRAM/HBM wird nicht verwendet; stattdessen ist eine kleine Menge SRAM im Chip integriert
- Der Grund ist, dass sich DRAM und Logikgatter nur schwer gemeinsam fertigen lassen
Dieses On-Chip-SRAM wird zum Speichern von KV-Cache (temporärer Speicher während einer Konversation) und LoRA-Adaptern verwendet

Für jedes Modell einen neuen Chip zu fertigen ist normalerweise teuer
Taalas entwirft daher die Grundstruktur des Chips gemeinsam und ändert für ein bestimmtes Modell nur die obersten zwei Layer (Masken)
- Das ist deutlich schneller als die Entwicklung eines vollständig neuen Chips
Die Entwicklung des Chips für Llama 3.1 8B dauerte etwa 2 Monate
- Nach Maßstäben der AI-Branche ist das langsam, für die Geschwindigkeit kundenspezifischer Chipfertigung jedoch außergewöhnlich schnell

Aus Sicht von Nutzern, die lokale Modelle ohne GPU ausführen, weckt dies Erwartungen an eine Massenproduktion solcher Hardware