23 Punkte von GN⁺ 2026-02-23 | Noch keine Kommentare. | Auf WhatsApp teilen
  • Taalas ist ein Startup, das das Modell Llama 3.1 8B direkt in einen ASIC-Chip eingraviert hat und damit eine Inferenzgeschwindigkeit von 17.000 Tokens pro Sekunde erreicht
  • Das Unternehmen behauptet, gegenüber GPU-basierten Systemen 10-mal günstiger, mit 10-mal weniger Stromverbrauch und 10-mal schnellerer Inferenzleistung zu sein
  • Die Architektur graviert die Gewichte des Modells direkt in Siliziumtransistoren ein und beseitigt damit den Speicherengpass von GPUs
  • Ohne externes DRAM/HBM verarbeitet der Chip KV-Cache und LoRA-Adapter ausschließlich mit internem SRAM
  • Für modellabhängige Chips wird nur die Anpassung der obersten zwei Layer vorgenommen; so wurde der Chip für Llama 3.1 in nur 2 Monaten fertiggestellt

Überblick über den Taalas-Chip

  • Taalas ist ein seit 2,5 Jahren bestehendes Unternehmen, und dieser Chip ist sein erstes Produkt
  • Der Chip ist ein ASIC mit fester Funktion, kann nur ein einziges Modell speichern und lässt sich nicht neu beschreiben
    • Wie eine CD-ROM oder ein Spielemodul besitzt er eine Struktur für genau ein einzelnes Modell

Ineffizienz GPU-basierter LLM-Inferenz

  • LLMs bestehen aus mehreren Schichten (Layern); als Beispiel hat Llama 3.1 8B 32 Schichten
  • Eine GPU lädt die Gewichtsmatrizen jeder Schicht aus dem VRAM, führt die Berechnung aus und speichert sie anschließend wieder ab
    • Dieser Vorgang muss bei der Erzeugung jedes Tokens 32-mal wiederholt werden
  • Dieses Hin und Her mit dem Speicher verursacht Latenz und Energieverbrauch und wird als Memory-Bandwidth-Bottleneck oder Von-Neumann-Bottleneck bezeichnet

Taalas’ „hardwired“-Ansatz

  • Taalas graviert die 32 Schichten von Llama 3.1 nacheinander in Silizium ein
    • Die Gewichte des Modells werden als physische Transistoren implementiert
  • Wenn der Eingabevektor eintrifft, wird er beim Durchlaufen der Transistoren jeder Schicht fortlaufend als elektrisches Signal verarbeitet
    • Zwischenergebnisse werden nicht im VRAM gespeichert, sondern direkt über Leitungen (Pipeline-Register) an die nächste Schicht weitergegeben
  • Das Unternehmen erklärt, eine Struktur namens „magic multiplier“ entwickelt zu haben, die 4-Bit-Datenspeicherung und Multiplikation in einem einzelnen Transistor ausführt

Speicherstruktur

  • Externes DRAM/HBM wird nicht verwendet; stattdessen ist eine kleine Menge SRAM im Chip integriert
    • Der Grund ist, dass sich DRAM und Logikgatter nur schwer gemeinsam fertigen lassen
  • Dieses On-Chip-SRAM wird zum Speichern von KV-Cache (temporärer Speicher während einer Konversation) und LoRA-Adaptern verwendet

Herstellung modellabhängiger Chips

  • Für jedes Modell einen neuen Chip zu fertigen ist normalerweise teuer
  • Taalas entwirft daher die Grundstruktur des Chips gemeinsam und ändert für ein bestimmtes Modell nur die obersten zwei Layer (Masken)
    • Das ist deutlich schneller als die Entwicklung eines vollständig neuen Chips
  • Die Entwicklung des Chips für Llama 3.1 8B dauerte etwa 2 Monate
    • Nach Maßstäben der AI-Branche ist das langsam, für die Geschwindigkeit kundenspezifischer Chipfertigung jedoch außergewöhnlich schnell

Erwartung für die Zukunft

  • Aus Sicht von Nutzern, die lokale Modelle ohne GPU ausführen, weckt dies Erwartungen an eine Massenproduktion solcher Hardware

Noch keine Kommentare.

Noch keine Kommentare.