- Taalas entwickelt eine Plattform zur Umwandlung von AI-Modellen in maßgeschneiderte Siliziumchips, sodass ein Modell in nur zwei Monaten in Hardware umgesetzt werden kann
- Das erste Produkt, das hardverdrahtete Llama 3.1 8B-Modell, verarbeitet 17K Tokens pro Sekunde und ist damit 10-mal schneller, 20-mal günstiger und benötigt nur ein Zehntel des Stroms im Vergleich zu bestehenden Lösungen
- Es ermöglicht stromsparende, kostengünstige und schnelle Inferenz und beseitigt mit einer neuen Chip-Architektur, die Speicher und Rechenlogik integriert, die Komplexität bestehender GPU-basierter Systeme
- Mit diesem Ansatz will Taalas Echtzeit-AI und ihre breite Nutzung beschleunigen und Entwickler in die Lage versetzen, neue Anwendungen in einer Umgebung mit extrem niedriger Latenz und extrem niedrigen Kosten zu erproben
Die aktuellen Grenzen von AI und die Notwendigkeit des Wandels
- AI übertrifft den Menschen bereits in bestimmten Bereichen, doch Latenz und Kosten gelten als die größten Hürden für eine breite Nutzung
- Die Interaktion mit Sprachmodellen ist langsamer als die menschliche Denkgeschwindigkeit, und Coding-Assistenten lassen Nutzer mitunter minutenlang auf Antworten warten
- Automatisierte agentische AI benötigt Reaktionen im Millisekundenbereich, doch aktuelle Systeme erfüllen diese Anforderungen nicht
- Die Bereitstellung moderner Modelle erfordert Infrastruktur auf dem Niveau großer Supercomputer mit mehreren hundert kW Leistung sowie komplexen Kühl-, Packaging- und Speicherstrukturen
- Diese Struktur skaliert zu stadtgroßen Rechenzentren und Satellitennetzwerken und führt zu explodierenden Betriebskosten
- Taalas betont, dass sich AI wie einst der Übergang von ENIAC zum Transistor hin zu effizienteren und kostengünstigeren Strukturen entwickeln muss
Die technische Philosophie von Taalas
- Zweieinhalb Jahre nach der Gründung hat Taalas eine Plattform zur Umwandlung von AI-Modellen in kundenspezifisches Silizium fertiggestellt
- Nach Eingang eines neuen Modells ist eine Umsetzung in Hardware innerhalb von zwei Monaten möglich
- Die resultierenden Hardcore Models bieten gegenüber herkömmlichen softwarebasierten Ansätzen eine etwa 10-fache Verbesserung bei Geschwindigkeit, Kosten und Energieeffizienz
- Vorgestellt werden drei Kernprinzipien
- Vollständige Spezialisierung (Total specialization)
- Für jedes AI-Modell wird optimiertes Silizium gefertigt, um maximale Effizienz zu erreichen
- Zusammenführung von Speicher und Berechnung (Merging storage and computation)
- Engpässe durch die Trennung von DRAM und Rechenchip werden beseitigt, und es wird eine integrierte Struktur innerhalb eines einzelnen Chips auf dem Dichteniveau von DRAM umgesetzt
- Radikale Vereinfachung (Radical simplification)
- Komplexe Technologien wie HBM, 3D-Stacking und Flüssigkühlung werden entfernt, wodurch die Systemkosten auf ein einstelliges Niveau gesenkt werden
- Vollständige Spezialisierung (Total specialization)
Erstes Produkt: das hardverdrahtete Llama 3.1 8B-Modell
- Vorgestellt als die schnellste, kostengünstigste und stromsparendste Inferenzplattform der Welt
- Das Llama 3.1 8B-Modell wird direkt in Silizium implementiert und erreicht 17K Tokens pro Sekunde, bei 10-facher Geschwindigkeit, 20-fach geringeren Herstellungskosten und 10-fach niedrigerem Stromverbrauch im Vergleich zu bisherigen Lösungen
- Auf Basis eines Open-Source-Modells werden Praxistauglichkeit und einfache Entwicklung sichergestellt
- Unterstützt werden die Anpassung der Kontextfenstergröße und LoRA-basiertes Fine-Tuning
- Der Chip der ersten Generation nutzt gemischte 3-Bit-/6-Bit-Quantisierung, wodurch es gegenüber GPUs zu gewissen Qualitätseinbußen kommt
- Das Silizium der zweiten Generation (HC2) verwendet ein standardisiertes 4-Bit-Gleitkommaformat und verbessert damit Qualität und Effizienz
Künftige Modell-Roadmap
- Das zweite Modell ist ein mittelgroßes LLM für Reasoning und soll nach der Fertigstellung im Forschungslabor im Frühjahr in den Inferenzdienst integriert werden
- Das dritte Modell ist ein Frontier-LLM auf Basis der HC2-Plattform, bietet höhere Dichte und Geschwindigkeit und soll im Winter bereitgestellt werden
Zugänglichkeit für Entwickler und Teamstruktur
- Das derzeit als Beta verfügbare Llama-Modell wird in einer Form bereitgestellt, mit der sich eine Umgebung mit extrem niedriger Latenz und extrem niedrigen Kosten erleben lässt
- Verfügbar über die Demo chatjimmy.ai und den API-Service
- Taalas hat das erste Produkt mit einem 24-köpfigen Team und Kosten von 30 Millionen Dollar fertiggestellt, was als Ergebnis präziser Zielsetzung und fokussierter Umsetzungskraft dargestellt wird
- Das Team besteht aus einer kleinen Gruppe von Experten, die seit mehr als 20 Jahren zusammenarbeiten, und legt Wert auf Qualität, Präzision und Handwerkskunst
Fazit: Echtzeit-AI und breite Verfügbarkeit
- Die Technologie von Taalas liefert einen sprunghaften Fortschritt bei Leistung, Energieeffizienz und Kosten
- Sie präsentiert eine neue Architekturphilosophie für AI-Systeme, die sich von der bisherigen GPU-zentrierten Struktur unterscheidet
- Durch das Beseitigen der Barrieren aus Latenz und Kosten erhalten Entwickler eine Umgebung, in der AI in Echtzeit genutzt werden kann
- Künftig soll die Lösung auf leistungsstärkere Modelle ausgeweitet werden und sich in Richtung allgemeiner Zugänglichkeit von AI weiterentwickeln
2 Kommentare
Ich weiß nicht, wie viel Bedeutung das wirklich hat. Der Markt liebt Hype, also wird sich die Finanzierung wohl gut sichern lassen, aber wenn im Wettlauf ständig neue Modelle herausgebracht werden, fühlen sich schon zwei Monate wie eine Ewigkeit an.
Hacker-News-Kommentare
Dieser Chip ist nicht universell einsetzbar, sondern auf schnelle Inferenz mit niedriger Latenz spezialisiert
Bei 8B dense 3bit quant (Llama 3.1) verarbeitet er 15k Token pro Sekunde, mit einem 880mm²-Die im 6nm-Prozess, 53B Transistoren und rund 200W Verbrauch; die Produktionskosten seien 20-mal niedriger und der Energieverbrauch pro Token 10-mal geringer
Das Gründerteam kommt von AMD und Nvidia und hat 25 Jahre Erfahrung; es hat 200 Millionen Dollar VC-Finanzierung eingesammelt
Bei etwa 0,2 Dollar pro mm² läge man bei rund 20 Dollar pro Milliarde Parameter, wobei große Dies geringere Ausbeuten haben
Weitere Details im Interview mit dem Gründer
Geeignet für Anwendungen mit extrem niedriger Latenz unter 10k Token; beim Launch im Frühjahr könnte viel VC-Kapital hineinfließen
Eine Nvidia H200 schafft etwa 12k tok/s, aber im Batch-Betrieb, wodurch die Latenz bis zum ersten Token viel höher ist
Taalas antwortet im Millisekundenbereich und eignet sich daher für Echtzeit-Sprach- und Videoerzeugung
Allerdings wirken zwei Monate bis zur Chip-Produktion viel zu optimistisch. Trotzdem wird erwartet, dass Version v3 in der Lage sein wird, echte API-Anfragen zu bedienen
Es verbraucht zwar viele Token, aber wenn Token billig sind, könnte das für bessere Genauigkeit vorteilhaft sein
Bei dieser Größe sinkt die Ausbeute, und es wird infrage gestellt, ob ein paar Bitfehler überhaupt ein großes Problem wären
Viele Kommentare sprechen über Modellgenauigkeit, scheinen aber nicht zu verstehen, dass es hier um das Modell Llama 3.1 8B geht
Der Kern ist nicht das Modell, sondern die Leistung spezialisierter Hardware
Mit einem aktuellen Modell wie GLM-5 darauf wäre es wirklich beeindruckend
Die Antwort kommt praktisch in dem Moment, in dem man Enter drückt
Allerdings könnte sich die Marktgängigkeit darunter leiden, dass beim Modellwechsel die Hardware komplett getauscht werden muss
Das wirkt noch wie eine explorative Preisstrategie, um die Marktreaktion zu testen
Man hat sich für maximale Geschwindigkeit statt Flexibilität entschieden, unterstützt laut Aussage aber LoRA-basiertes Fine-Tuning
Für einfaches Data-Tagging oder massiv parallele Verarbeitung dürfte das sehr nützlich sein
Das ChatJimmy-Demo wurde ausprobiert, und die Antworten kamen verblüffend schnell
chatjimmy.ai
Der Inhalt war überraschend konkret und nützlich
Das könnte eine völlig neue Art der Entwicklung eröffnen
Viele sind skeptisch, aber auch für Nicht-Frontier-Modelle gibt es genug Nachfrage
Schon das Llama-3.1-Aktivitätsdiagramm zeigt 22% wöchentliches Wachstum
Wenn die Latenz sinkt, lassen sich LLMs sogar auf dem Niveau von Webseiten-Ladezeiten einsetzen
Dieser Chip macht aus einem LLM eine Echtzeit-Schnittstelle
Ein Witz lautete, man habe noch nie so schnell falsche Antworten gesehen, aber die Technik wirkt sehr vielversprechend
Das 8B-Modell ist klein, dürfte langfristig aber ein großer Markt werden
Im Moment noch nicht nützlich, aber technisch ein völlig neues Gefühl
Für echte Arbeitsaufgaben braucht man nicht zwingend ein Frontier-Modell
Ab 80B werde der Unterschied gering
Es wird darüber nachgedacht, ob man eine solche Karte in einen privaten PC stecken und damit Claude Code ersetzen könnte
Mit 17k Token pro Sekunde ließen sich mehrere Agent-Pipelines gleichzeitig betreiben
Jeder Agent könnte Änderungen am Code und deren Verifikation übernehmen und so schnelle iterative Verbesserungen ermöglichen
Es wird gefragt, ob man auch ohne Spitzenmodell bessere Resultate erzielen könnte, indem man ein Mittelklassemodell mehrfach im Kreis laufen lässt
Wenn schnelle Token-Ausgabe und gutes Tooling zusammenkommen, könnte sich der Abstand zu Frontier-Modellen verringern
Nach korrigierten Informationen handelt es sich tatsächlich um einen Single-Chip-Aufbau mit in Silizium geätztem Modell
Offenbar ist ein Llama-8B-q3-Modell mit 1k Kontext eingebrannt, und es werden 10 Chips benötigt (insgesamt 2,4kW)
Da das Modell nicht ausgetauscht werden kann, eignet es sich nur für langfristig stabile Aufgaben
17k Token pro Sekunde sind nicht nur effizientere Auslieferung, sondern eine Geschwindigkeit, die die Bewertungsmethodik selbst verändert
Bestehende statische Benchmarks wie MMLU orientieren sich an menschlicher Geschwindigkeit; bei diesem Durchsatz werden Zehntausende Interaktionstests möglich
Je höher die Geschwindigkeit, desto ungeeigneter erscheinen die bisherigen Bewertungsansätze
Jemand probierte den Chatbot aus und war schockiert, wie bei 15k tok/s lange Antworten sofort erschienen
Für lokales Coding hätte man gern eine Frontier-Modell-Version davon
Es gibt auch negative Reaktionen, aber Anwendungen, die Modelle mit niedriger Latenz brauchen, gibt es sehr viele
Zum Beispiel war die Umwandlung freier Suchanfragen in strukturierte Queries wegen der Latenz bisheriger Modelle kaum praktikabel
Solche Chips ermöglichen ein unmittelbar wirkendes AI-Verhalten, das Nutzer direkt spüren