23 Punkte von GN⁺ 2026-02-23 | 5 Kommentare | Auf WhatsApp teilen
  • Taalas ist ein Startup, das das Modell Llama 3.1 8B direkt in einen ASIC-Chip eingraviert hat und damit eine Inferenzgeschwindigkeit von 17.000 Tokens pro Sekunde erreicht
  • Das Unternehmen behauptet, gegenüber GPU-basierten Systemen 10-mal günstiger, mit 10-mal weniger Stromverbrauch und 10-mal schnellerer Inferenzleistung zu sein
  • Die Architektur graviert die Gewichte des Modells direkt in Siliziumtransistoren ein und beseitigt damit den Speicherengpass von GPUs
  • Ohne externes DRAM/HBM verarbeitet der Chip KV-Cache und LoRA-Adapter ausschließlich mit internem SRAM
  • Für modellabhängige Chips wird nur die Anpassung der obersten zwei Layer vorgenommen; so wurde der Chip für Llama 3.1 in nur 2 Monaten fertiggestellt

Überblick über den Taalas-Chip

  • Taalas ist ein seit 2,5 Jahren bestehendes Unternehmen, und dieser Chip ist sein erstes Produkt
  • Der Chip ist ein ASIC mit fester Funktion, kann nur ein einziges Modell speichern und lässt sich nicht neu beschreiben
    • Wie eine CD-ROM oder ein Spielemodul besitzt er eine Struktur für genau ein einzelnes Modell

Ineffizienz GPU-basierter LLM-Inferenz

  • LLMs bestehen aus mehreren Schichten (Layern); als Beispiel hat Llama 3.1 8B 32 Schichten
  • Eine GPU lädt die Gewichtsmatrizen jeder Schicht aus dem VRAM, führt die Berechnung aus und speichert sie anschließend wieder ab
    • Dieser Vorgang muss bei der Erzeugung jedes Tokens 32-mal wiederholt werden
  • Dieses Hin und Her mit dem Speicher verursacht Latenz und Energieverbrauch und wird als Memory-Bandwidth-Bottleneck oder Von-Neumann-Bottleneck bezeichnet
Anzeige

Taalas’ „hardwired“-Ansatz

  • Taalas graviert die 32 Schichten von Llama 3.1 nacheinander in Silizium ein
    • Die Gewichte des Modells werden als physische Transistoren implementiert
  • Wenn der Eingabevektor eintrifft, wird er beim Durchlaufen der Transistoren jeder Schicht fortlaufend als elektrisches Signal verarbeitet
    • Zwischenergebnisse werden nicht im VRAM gespeichert, sondern direkt über Leitungen (Pipeline-Register) an die nächste Schicht weitergegeben
  • Das Unternehmen erklärt, eine Struktur namens „magic multiplier“ entwickelt zu haben, die 4-Bit-Datenspeicherung und Multiplikation in einem einzelnen Transistor ausführt

Speicherstruktur

  • Externes DRAM/HBM wird nicht verwendet; stattdessen ist eine kleine Menge SRAM im Chip integriert
    • Der Grund ist, dass sich DRAM und Logikgatter nur schwer gemeinsam fertigen lassen
    Anzeige
  • Dieses On-Chip-SRAM wird zum Speichern von KV-Cache (temporärer Speicher während einer Konversation) und LoRA-Adaptern verwendet

Herstellung modellabhängiger Chips

  • Für jedes Modell einen neuen Chip zu fertigen ist normalerweise teuer
  • Taalas entwirft daher die Grundstruktur des Chips gemeinsam und ändert für ein bestimmtes Modell nur die obersten zwei Layer (Masken)
    • Das ist deutlich schneller als die Entwicklung eines vollständig neuen Chips
  • Die Entwicklung des Chips für Llama 3.1 8B dauerte etwa 2 Monate
    • Nach Maßstäben der AI-Branche ist das langsam, für die Geschwindigkeit kundenspezifischer Chipfertigung jedoch außergewöhnlich schnell

Erwartung für die Zukunft

  • Aus Sicht von Nutzern, die lokale Modelle ohne GPU ausführen, weckt dies Erwartungen an eine Massenproduktion solcher Hardware

5 Kommentare

 
GN⁺ 2026-02-23
Hacker-News-Kommentare
  • 8B Koeffizienten (coefficients) sind in 53B Transistoren gepackt. Pro Koeffizient werden etwa 6,5 Transistoren verwendet
    Es scheint Block-Quantisierung (block quantization) zu verwenden. Bei einem Block mit zum Beispiel vier 3-Bit-Koeffizienten wären nur 330 verschiedene Blöcke nötig
    Die Matrizen von Llama 3.1 sind 4096x4096 groß, also aus 16 Millionen Koeffizienten aufgebaut, und man könnte sie wohl auf 330 Blöcke komprimieren
    Nimmt man ein Budget von rund 250.000 Transistoren pro Block an, ergibt das etwa 5 Transistoren pro Koeffizient. Selbst auf FP4-Niveau scheint das gut machbar

    • Ich hoffe, dass PyTorch einmal so etwas wie model.toVHDL() bekommt
  • Dass Leute überrascht sind, dass so etwas möglich ist, überrascht mich eher
    Der Grund, warum es GPUs überhaupt gibt, ist letztlich genau das: Software-Operationen in Hardware zu verlagern. LLMs haben dieselbe mathematische Struktur, daher halte ich diese Richtung für eine naheliegende Evolution

    • Der Grund für die Überraschung ist vermutlich der Zeitpunkt des ROI. Entscheidend ist, ab wann es wirtschaftlich wird, modell­spezifische Chips tape-outen zu lassen. MoE-Architekturen dürften dabei neue Herausforderungen aufwerfen
    • Ich sehe das nicht als CPU gegen GPU, sondern als CPU/GPU gegen ASIC. ASICs haben Vorteile bei Geschwindigkeit, Stromverbrauch und Kosten, sind aber schwer zu entwerfen und nicht umprogrammierbar. Für leistungssensitive Funktionen wie LLMs passen ASICs gut
    • Gewichte direkt in Gates einzubrennen ist auf jeden Fall ein neuer Ansatz. Der Ausdruck „Weights to gates“ passt gut
    • Das Problem ist aber die geringe Flexibilität. Wenn sich die Rechenzentrumsnachfrage ändert oder ein neues Modell erscheint, ist Anpassung schwierig. Für Bereiche wie Drohnen und Verteidigung, in denen Energieeffizienz und Geschwindigkeit entscheidend sind, ist das aber realistisch
    • Ich denke, Nvidia experimentiert sicher ebenfalls mit so etwas. Kommerziell ist es vielleicht noch zu früh, aber der Trend zu effizienzorientierter AI-Hardware ist eindeutig
  • Die eigentliche Innovation ist weniger der Formfaktor als die Latenz
    Bei Cloud-Inferenz liegt allein der Netzwerk-Overhead bei 50–200 ms, während ein dedizierter ASIC auf PCIe den ersten Token in Mikrosekunden liefern kann
    Für Echtzeit-Videogenerierung oder Agenten, die Antworten unter 100 ms brauchen, ist das entscheidend. Die Kosten können höher sein als bei GPUs, aber es ermöglicht neue Echtzeit-Anwendungen

    • Nicht nur die Latenz, auch Bandbreitenzuverlässigkeit und Kontrolle sind wichtig. Zentralisierte und lokale Rechenmodelle stehen schon immer in Konkurrenz. Unternehmen wollen Kontrolle, Nutzer Autonomie. Der Markt wird deshalb immer eine Nachfrage nach „Ich will meinen Computer vollständig selbst kontrollieren“ behalten
    • Ich frage mich, wo AI-Dienste tatsächlich ausgeliefert werden. Wenn ich zum Beispiel Claude in London nutze, ist schwer zu wissen, wohin die Anfrage geht. Ein Edge-Netzwerk für LLMs wäre ideal, und ASICs könnten das vielleicht ermöglichen
  • Die Zukunft, in der Modelle wie Gemma 5 Mini direkt auf lokaler Hardware laufen, ist spannend
    So wie es H.264- oder AV1-Encoder gibt, könnte es auch „AI-Cores“ für bestimmte Modelle geben
    Dank Structured ASIC Plattformen, die das Zeitalter struktureller ASICs wieder eröffnen, könnten auch die Kosten sinken

    • Ich sehe zwei Gründe, warum große Unternehmen daran wenig Interesse haben. Erstens entwickelt sich AI so schnell, dass ein Chip bei Serienfertigung schon veraltet sein könnte. Zweitens passt das Cloud-Abomodell samt datensammelnder Geschäftsstruktur schlecht zu Offline-Chips
    • Apple hätte damit meiner Meinung nach schon gestern anfangen sollen. Die Zukunft, die ich wirklich will, ist vollständig lokale AI auf meinem Smartphone oder MacBook. Cloud-basierte AI wirkt wie ein Überbleibsel aus der AOL-Ära
    • Programmierbare ASICs wie Cerebras oder Groq liefern bereits ein Mehrfaches der GPU-Geschwindigkeit, und trotzdem ist die Marktreaktion verhalten
  • Das lässt mich an Chips denken, die wie CD-ROMs oder Spielmodule genau ein Modell enthalten. Man steckt einen Slot in den Computer und wechselt so das Modell aus

    • Dieser Slot wäre praktisch sicher USB-C. Ich kann mir vorstellen, einen Inferenz-ASIC in Form einer Powerbank anzustecken
    • Ich hätte gern ein lokales Modellgerät unter dem Schreibtisch wie früher eine eGPU. Vollständig offline, mit vollständiger Wahrung der Privatsphäre
    • Solche Hardware würde Open-Weight-Modelle fördern und die Privatsphäre stärken. Auch Hardware-MoE wäre denkbar, bei dem ein Roboter je nach Aufgabe Modellmodule wechselt
    • Modell­spezifische Module hätten vermutlich eine deutlich bessere Performance-/Leistungseffizienz. Fraglich ist nur, ob sich das für den Consumer-Markt wirtschaftlich rechnet
    • Der Stromverbrauch ist die Variable. Für den Heimgebrauch wären 170 Token pro Sekunde bei 2,5 W beeindruckend. Solche Entwicklungen könnten irgendwann zu einem positronischen Gehirn führen
  • Wenn man ASICs günstig drucken könnte, würde sich die Art der Modellnutzung komplett ändern
    Modelle würden als USB-Geräte verkauft, und für persönliche Assistenten wären dichte Modelle mit weniger als 20 Milliarden Parametern völlig ausreichend
    Das fühlt sich an wie eine Neuauflage der Grafikkarte. Jetzt, wo es mehr Open-Weight-Modelle gibt, könnte selbst bei niedrigen Kauf- und Betriebskosten ein großer Markt entstehen

  • Ich frage mich, wie das bei MoE-Architekturen funktionieren würde
    Bei dichten LLMs ist es vorteilhaft, alle Gewichte nah beieinander zu halten, aber bei MoE steht der Speicherzugriff im Zentrum, wodurch ein Ungleichgewicht zwischen MAC und Speicher entsteht. Wahrscheinlich landet man am Ende wieder bei einem Chiplet-Ansatz

    • Googles TPUv4 erzeugt mit einem Optical Circuit Switch eine 3D-Torus-Struktur und verdrahtet sie dynamisch neu, passend zu den Kommunikationsmustern von MoE. 4.096 Chips werden zu einem Pod verbunden, und SparseCore verarbeitet nichtkontinuierliche Speicherzugriffe. Das ist zwar Rechenzentrumsmaßstab, aber als Beispiel für Skalierbarkeit interessant
    • Wenn man jedes Expert-Modell in Silizium eingraviert, wäre die Geschwindigkeit enorm. Die größte Einschränkung bleiben letztlich die Druckkosten für ASICs
  • Irgendwann werden dedizierte PCIe-Erweiterungskarten für AI wohl zum Mainstream
    Wie früher Grafik- oder Soundkarten würde man beim Erscheinen neuer Modelle einfach die Karte austauschen und so die „Intelligenz“ des PCs aufrüsten

    • Ich halte diese Richtung für eine fast unvermeidliche Evolution. Zuerst werden Regierungen oder Großunternehmen sie verlangen, und dann wird sie sich in den Consumer-Markt ausbreiten.
      Computing hat immer wieder zwischen lokal und Server gependelt, aber die On-Premises-Nachfrage wird nie ganz verschwinden
  • Letztlich werden wohl Mainboards mit AI-Chip-Slots oder AI-Peripheriegeräte auftauchen, die man an Hochgeschwindigkeitsports anschließt

  • Ich frage mich, ob Hersteller wie Apple solche Chips innerhalb von drei Jahren direkt integrieren könnten. Ich würde lokale Höchstleistung auf dem Niveau heutiger Modelle erwarten

    • Könnte man Modelle per modularem Memory-Diff aktualisieren? Ich frage mich, wie groß der Performance-Verlust wäre
    • Andererseits könnte es wenig Sinn ergeben, drei Jahre lang ein veraltetes Modell zu betreiben. Die Entwicklung ist einfach zu schnell
 
dolsangodkimchi 2026-03-04

Das erinnert mich an den Unterschied zwischen digitaler und analoger Integral- und Differentialrechnung.

 
chcv0313 2026-03-04

Es wäre gut, wenn man damit nicht ein LLM-Modell, sondern ein Text-Embedding-Modell bauen würde.

 
bungker 2026-03-04

Stimmt, wenn man es einmal erstellt hat, nutzt man es einfach weiter.

 
parkindani 2026-02-23

Wenn die Entwicklung neuer Chip-Designs und das Entwicklungstempo dank KI beschleunigt werden, könnte das tatsächlich die Zukunft sein. Es erinnert mich auch an die Zeit vor etwa 25 Jahren, als sich die Hardware-Leistung in einem regelrechten Wettlauf steigerte.