Der Weg zur allgemeinen Verfügbarkeit von AI (17K Tokens pro Sekunde)

(taalas.com)

5 Punkte von GN⁺ 2026-02-21 | Noch keine Kommentare. | Auf WhatsApp teilen

Taalas entwickelt eine Plattform zur Umwandlung von AI-Modellen in maßgeschneiderte Siliziumchips, sodass ein Modell in nur zwei Monaten in Hardware umgesetzt werden kann
Das erste Produkt, das hardverdrahtete Llama 3.1 8B-Modell, verarbeitet 17K Tokens pro Sekunde und ist damit 10-mal schneller, 20-mal günstiger und benötigt nur ein Zehntel des Stroms im Vergleich zu bestehenden Lösungen
Es ermöglicht stromsparende, kostengünstige und schnelle Inferenz und beseitigt mit einer neuen Chip-Architektur, die Speicher und Rechenlogik integriert, die Komplexität bestehender GPU-basierter Systeme
Mit diesem Ansatz will Taalas Echtzeit-AI und ihre breite Nutzung beschleunigen und Entwickler in die Lage versetzen, neue Anwendungen in einer Umgebung mit extrem niedriger Latenz und extrem niedrigen Kosten zu erproben

Die aktuellen Grenzen von AI und die Notwendigkeit des Wandels

AI übertrifft den Menschen bereits in bestimmten Bereichen, doch Latenz und Kosten gelten als die größten Hürden für eine breite Nutzung
- Die Interaktion mit Sprachmodellen ist langsamer als die menschliche Denkgeschwindigkeit, und Coding-Assistenten lassen Nutzer mitunter minutenlang auf Antworten warten
- Automatisierte agentische AI benötigt Reaktionen im Millisekundenbereich, doch aktuelle Systeme erfüllen diese Anforderungen nicht
Die Bereitstellung moderner Modelle erfordert Infrastruktur auf dem Niveau großer Supercomputer mit mehreren hundert kW Leistung sowie komplexen Kühl-, Packaging- und Speicherstrukturen
- Diese Struktur skaliert zu stadtgroßen Rechenzentren und Satellitennetzwerken und führt zu explodierenden Betriebskosten
Taalas betont, dass sich AI wie einst der Übergang von ENIAC zum Transistor hin zu effizienteren und kostengünstigeren Strukturen entwickeln muss

Zweieinhalb Jahre nach der Gründung hat Taalas eine Plattform zur Umwandlung von AI-Modellen in kundenspezifisches Silizium fertiggestellt
- Nach Eingang eines neuen Modells ist eine Umsetzung in Hardware innerhalb von zwei Monaten möglich
- Die resultierenden Hardcore Models bieten gegenüber herkömmlichen softwarebasierten Ansätzen eine etwa 10-fache Verbesserung bei Geschwindigkeit, Kosten und Energieeffizienz
Vorgestellt werden drei Kernprinzipien
1. Vollständige Spezialisierung (Total specialization)
  - Für jedes AI-Modell wird optimiertes Silizium gefertigt, um maximale Effizienz zu erreichen
2. Zusammenführung von Speicher und Berechnung (Merging storage and computation)
  - Engpässe durch die Trennung von DRAM und Rechenchip werden beseitigt, und es wird eine integrierte Struktur innerhalb eines einzelnen Chips auf dem Dichteniveau von DRAM umgesetzt
3. Radikale Vereinfachung (Radical simplification)
  - Komplexe Technologien wie HBM, 3D-Stacking und Flüssigkühlung werden entfernt, wodurch die Systemkosten auf ein einstelliges Niveau gesenkt werden

Vorgestellt als die schnellste, kostengünstigste und stromsparendste Inferenzplattform der Welt
- Das Llama 3.1 8B-Modell wird direkt in Silizium implementiert und erreicht 17K Tokens pro Sekunde, bei 10-facher Geschwindigkeit, 20-fach geringeren Herstellungskosten und 10-fach niedrigerem Stromverbrauch im Vergleich zu bisherigen Lösungen
Auf Basis eines Open-Source-Modells werden Praxistauglichkeit und einfache Entwicklung sichergestellt
- Unterstützt werden die Anpassung der Kontextfenstergröße und LoRA-basiertes Fine-Tuning
Der Chip der ersten Generation nutzt gemischte 3-Bit-/6-Bit-Quantisierung, wodurch es gegenüber GPUs zu gewissen Qualitätseinbußen kommt
- Das Silizium der zweiten Generation (HC2) verwendet ein standardisiertes 4-Bit-Gleitkommaformat und verbessert damit Qualität und Effizienz

Das zweite Modell ist ein mittelgroßes LLM für Reasoning und soll nach der Fertigstellung im Forschungslabor im Frühjahr in den Inferenzdienst integriert werden
Das dritte Modell ist ein Frontier-LLM auf Basis der HC2-Plattform, bietet höhere Dichte und Geschwindigkeit und soll im Winter bereitgestellt werden

Das derzeit als Beta verfügbare Llama-Modell wird in einer Form bereitgestellt, mit der sich eine Umgebung mit extrem niedriger Latenz und extrem niedrigen Kosten erleben lässt
- Verfügbar über die Demo chatjimmy.ai und den API-Service
Taalas hat das erste Produkt mit einem 24-köpfigen Team und Kosten von 30 Millionen Dollar fertiggestellt, was als Ergebnis präziser Zielsetzung und fokussierter Umsetzungskraft dargestellt wird
Das Team besteht aus einer kleinen Gruppe von Experten, die seit mehr als 20 Jahren zusammenarbeiten, und legt Wert auf Qualität, Präzision und Handwerkskunst

Die Technologie von Taalas liefert einen sprunghaften Fortschritt bei Leistung, Energieeffizienz und Kosten
Sie präsentiert eine neue Architekturphilosophie für AI-Systeme, die sich von der bisherigen GPU-zentrierten Struktur unterscheidet
Durch das Beseitigen der Barrieren aus Latenz und Kosten erhalten Entwickler eine Umgebung, in der AI in Echtzeit genutzt werden kann
Künftig soll die Lösung auf leistungsstärkere Modelle ausgeweitet werden und sich in Richtung allgemeiner Zugänglichkeit von AI weiterentwickeln