5 Punkte von GN⁺ 2026-02-21 | 2 Kommentare | Auf WhatsApp teilen
  • Taalas entwickelt eine Plattform zur Umwandlung von AI-Modellen in maßgeschneiderte Siliziumchips, sodass ein Modell in nur zwei Monaten in Hardware umgesetzt werden kann
  • Das erste Produkt, das hardverdrahtete Llama 3.1 8B-Modell, verarbeitet 17K Tokens pro Sekunde und ist damit 10-mal schneller, 20-mal günstiger und benötigt nur ein Zehntel des Stroms im Vergleich zu bestehenden Lösungen
  • Es ermöglicht stromsparende, kostengünstige und schnelle Inferenz und beseitigt mit einer neuen Chip-Architektur, die Speicher und Rechenlogik integriert, die Komplexität bestehender GPU-basierter Systeme
  • Mit diesem Ansatz will Taalas Echtzeit-AI und ihre breite Nutzung beschleunigen und Entwickler in die Lage versetzen, neue Anwendungen in einer Umgebung mit extrem niedriger Latenz und extrem niedrigen Kosten zu erproben

Die aktuellen Grenzen von AI und die Notwendigkeit des Wandels

  • AI übertrifft den Menschen bereits in bestimmten Bereichen, doch Latenz und Kosten gelten als die größten Hürden für eine breite Nutzung
    • Die Interaktion mit Sprachmodellen ist langsamer als die menschliche Denkgeschwindigkeit, und Coding-Assistenten lassen Nutzer mitunter minutenlang auf Antworten warten
    • Automatisierte agentische AI benötigt Reaktionen im Millisekundenbereich, doch aktuelle Systeme erfüllen diese Anforderungen nicht
  • Die Bereitstellung moderner Modelle erfordert Infrastruktur auf dem Niveau großer Supercomputer mit mehreren hundert kW Leistung sowie komplexen Kühl-, Packaging- und Speicherstrukturen
    • Diese Struktur skaliert zu stadtgroßen Rechenzentren und Satellitennetzwerken und führt zu explodierenden Betriebskosten
  • Taalas betont, dass sich AI wie einst der Übergang von ENIAC zum Transistor hin zu effizienteren und kostengünstigeren Strukturen entwickeln muss

Die technische Philosophie von Taalas

  • Zweieinhalb Jahre nach der Gründung hat Taalas eine Plattform zur Umwandlung von AI-Modellen in kundenspezifisches Silizium fertiggestellt
    • Nach Eingang eines neuen Modells ist eine Umsetzung in Hardware innerhalb von zwei Monaten möglich
    • Die resultierenden Hardcore Models bieten gegenüber herkömmlichen softwarebasierten Ansätzen eine etwa 10-fache Verbesserung bei Geschwindigkeit, Kosten und Energieeffizienz
  • Vorgestellt werden drei Kernprinzipien
    1. Vollständige Spezialisierung (Total specialization)
      • Für jedes AI-Modell wird optimiertes Silizium gefertigt, um maximale Effizienz zu erreichen
    2. Zusammenführung von Speicher und Berechnung (Merging storage and computation)
      • Engpässe durch die Trennung von DRAM und Rechenchip werden beseitigt, und es wird eine integrierte Struktur innerhalb eines einzelnen Chips auf dem Dichteniveau von DRAM umgesetzt
    3. Radikale Vereinfachung (Radical simplification)
      • Komplexe Technologien wie HBM, 3D-Stacking und Flüssigkühlung werden entfernt, wodurch die Systemkosten auf ein einstelliges Niveau gesenkt werden

Erstes Produkt: das hardverdrahtete Llama 3.1 8B-Modell

  • Vorgestellt als die schnellste, kostengünstigste und stromsparendste Inferenzplattform der Welt
    • Das Llama 3.1 8B-Modell wird direkt in Silizium implementiert und erreicht 17K Tokens pro Sekunde, bei 10-facher Geschwindigkeit, 20-fach geringeren Herstellungskosten und 10-fach niedrigerem Stromverbrauch im Vergleich zu bisherigen Lösungen
  • Auf Basis eines Open-Source-Modells werden Praxistauglichkeit und einfache Entwicklung sichergestellt
    • Unterstützt werden die Anpassung der Kontextfenstergröße und LoRA-basiertes Fine-Tuning
  • Der Chip der ersten Generation nutzt gemischte 3-Bit-/6-Bit-Quantisierung, wodurch es gegenüber GPUs zu gewissen Qualitätseinbußen kommt
    • Das Silizium der zweiten Generation (HC2) verwendet ein standardisiertes 4-Bit-Gleitkommaformat und verbessert damit Qualität und Effizienz

Künftige Modell-Roadmap

  • Das zweite Modell ist ein mittelgroßes LLM für Reasoning und soll nach der Fertigstellung im Forschungslabor im Frühjahr in den Inferenzdienst integriert werden
  • Das dritte Modell ist ein Frontier-LLM auf Basis der HC2-Plattform, bietet höhere Dichte und Geschwindigkeit und soll im Winter bereitgestellt werden

Zugänglichkeit für Entwickler und Teamstruktur

  • Das derzeit als Beta verfügbare Llama-Modell wird in einer Form bereitgestellt, mit der sich eine Umgebung mit extrem niedriger Latenz und extrem niedrigen Kosten erleben lässt
  • Taalas hat das erste Produkt mit einem 24-köpfigen Team und Kosten von 30 Millionen Dollar fertiggestellt, was als Ergebnis präziser Zielsetzung und fokussierter Umsetzungskraft dargestellt wird
  • Das Team besteht aus einer kleinen Gruppe von Experten, die seit mehr als 20 Jahren zusammenarbeiten, und legt Wert auf Qualität, Präzision und Handwerkskunst

Fazit: Echtzeit-AI und breite Verfügbarkeit

  • Die Technologie von Taalas liefert einen sprunghaften Fortschritt bei Leistung, Energieeffizienz und Kosten
  • Sie präsentiert eine neue Architekturphilosophie für AI-Systeme, die sich von der bisherigen GPU-zentrierten Struktur unterscheidet
  • Durch das Beseitigen der Barrieren aus Latenz und Kosten erhalten Entwickler eine Umgebung, in der AI in Echtzeit genutzt werden kann
  • Künftig soll die Lösung auf leistungsstärkere Modelle ausgeweitet werden und sich in Richtung allgemeiner Zugänglichkeit von AI weiterentwickeln

2 Kommentare

 
colus001 2026-02-21

Ich weiß nicht, wie viel Bedeutung das wirklich hat. Der Markt liebt Hype, also wird sich die Finanzierung wohl gut sichern lassen, aber wenn im Wettlauf ständig neue Modelle herausgebracht werden, fühlen sich schon zwei Monate wie eine Ewigkeit an.

 
GN⁺ 2026-02-21
Hacker-News-Kommentare
  • Dieser Chip ist nicht universell einsetzbar, sondern auf schnelle Inferenz mit niedriger Latenz spezialisiert
    Bei 8B dense 3bit quant (Llama 3.1) verarbeitet er 15k Token pro Sekunde, mit einem 880mm²-Die im 6nm-Prozess, 53B Transistoren und rund 200W Verbrauch; die Produktionskosten seien 20-mal niedriger und der Energieverbrauch pro Token 10-mal geringer
    Das Gründerteam kommt von AMD und Nvidia und hat 25 Jahre Erfahrung; es hat 200 Millionen Dollar VC-Finanzierung eingesammelt
    Bei etwa 0,2 Dollar pro mm² läge man bei rund 20 Dollar pro Milliarde Parameter, wobei große Dies geringere Ausbeuten haben
    Weitere Details im Interview mit dem Gründer
    Geeignet für Anwendungen mit extrem niedriger Latenz unter 10k Token; beim Launch im Frühjahr könnte viel VC-Kapital hineinfließen

    • Die Mathematik dahinter ist nützlich. 16k Token pro Sekunde ist eine erstaunliche Geschwindigkeit und könnte als neue Produktkategorie gelten
      Eine Nvidia H200 schafft etwa 12k tok/s, aber im Batch-Betrieb, wodurch die Latenz bis zum ersten Token viel höher ist
      Taalas antwortet im Millisekundenbereich und eignet sich daher für Echtzeit-Sprach- und Videoerzeugung
      Allerdings wirken zwei Monate bis zur Chip-Produktion viel zu optimistisch. Trotzdem wird erwartet, dass Version v3 in der Lage sein wird, echte API-Anfragen zu bedienen
    • Als Witz wurde angemerkt, dass man einen 20-Dollar-Die vielleicht wie eine Game-Boy-Cartridge pro Modell verkaufen könnte
    • Es wird gefragt, ob sich mit einem Recursive Language Model (Paper-Link) die Kontextgrenzen abmildern ließen
      Es verbraucht zwar viele Token, aber wenn Token billig sind, könnte das für bessere Genauigkeit vorteilhaft sein
    • 880mm² ist größer als ein M1 Ultra und sogar größer als ein H100
      Bei dieser Größe sinkt die Ausbeute, und es wird infrage gestellt, ob ein paar Bitfehler überhaupt ein großes Problem wären
    • Es ist spannend, wie sich mit solchen Chips intelligente Robotik weiterentwickeln könnte
  • Viele Kommentare sprechen über Modellgenauigkeit, scheinen aber nicht zu verstehen, dass es hier um das Modell Llama 3.1 8B geht
    Der Kern ist nicht das Modell, sondern die Leistung spezialisierter Hardware
    Mit einem aktuellen Modell wie GLM-5 darauf wäre es wirklich beeindruckend
    Die Antwort kommt praktisch in dem Moment, in dem man Enter drückt
    Allerdings könnte sich die Marktgängigkeit darunter leiden, dass beim Modellwechsel die Hardware komplett getauscht werden muss

    • Preisinformationen stehen in diesem Bild
      Das wirkt noch wie eine explorative Preisstrategie, um die Marktreaktion zu testen
      Man hat sich für maximale Geschwindigkeit statt Flexibilität entschieden, unterstützt laut Aussage aber LoRA-basiertes Fine-Tuning
      Für einfaches Data-Tagging oder massiv parallele Verarbeitung dürfte das sehr nützlich sein
    • Persönlich wird Cerebras als deutlich weiter vorne gesehen; ein Vergleich über tok/s sei unpassend
  • Das ChatJimmy-Demo wurde ausprobiert, und die Antworten kamen verblüffend schnell
    chatjimmy.ai

    • Auf die Bitte, ein U-Boot für Katzen zu entwerfen, kam sofort eine Antwort
      Der Inhalt war überraschend konkret und nützlich
    • Bei dieser Geschwindigkeit wäre automatisches iteratives Code-Generieren möglich, bis Tests bestehen
      Das könnte eine völlig neue Art der Entwicklung eröffnen
    • Als Investor müsste man vielleicht eher in ChatJimmy als in OpenAI investieren
    • Die Dateianhang-Funktion funktionierte allerdings nicht, und das Kontextverständnis lag leicht daneben
    • Jemand war beeindruckt und sagte, er habe die 16.000 Token pro Sekunde selbst bestätigt
  • Viele sind skeptisch, aber auch für Nicht-Frontier-Modelle gibt es genug Nachfrage
    Schon das Llama-3.1-Aktivitätsdiagramm zeigt 22% wöchentliches Wachstum
    Wenn die Latenz sinkt, lassen sich LLMs sogar auf dem Niveau von Webseiten-Ladezeiten einsetzen

    • Auch für Frontier-Modelle könnte es einen Markt geben. Wenn Anthropic zum Beispiel Opus 4.6 in einen Chip ätzt, ließen sich die Inferenzkosten senken
    • Ältere Modelle sind weiterhin stark bei kreativer Arbeit. Neuere Modelle wurden stärker auf Code und Reasoning getrimmt und verlieren dadurch an Kreativität
    • Ideal für Aufgaben wie strukturierte Inhaltsextraktion oder Markdown-Konvertierung
      Dieser Chip macht aus einem LLM eine Echtzeit-Schnittstelle
    • Auch für Bereiche wie Robotik mit niedriger Latenz und engem Aufgabenpfad ist er geeignet
  • Ein Witz lautete, man habe noch nie so schnell falsche Antworten gesehen, aber die Technik wirkt sehr vielversprechend
    Das 8B-Modell ist klein, dürfte langfristig aber ein großer Markt werden

    • Es hieß, die Frage habe das Modell zwar nicht beantworten können, aber es habe sie unglaublich schnell nicht beantworten können
      Im Moment noch nicht nützlich, aber technisch ein völlig neues Gefühl
    • Für Qwen 2.5 würde man es sofort kaufen
      Für echte Arbeitsaufgaben braucht man nicht zwingend ein Frontier-Modell
    • Auch 7- bis 9B-Modelle sind gut genug. Wichtig sei, mehrere Modelle parallel abzufragen und die konsensbasierte Genauigkeit zu erhöhen
      Ab 80B werde der Unterschied gering
    • Auf Rechtschreibfehler wurde mit Humor reagiert
  • Es wird darüber nachgedacht, ob man eine solche Karte in einen privaten PC stecken und damit Claude Code ersetzen könnte
    Mit 17k Token pro Sekunde ließen sich mehrere Agent-Pipelines gleichzeitig betreiben
    Jeder Agent könnte Änderungen am Code und deren Verifikation übernehmen und so schnelle iterative Verbesserungen ermöglichen
    Es wird gefragt, ob man auch ohne Spitzenmodell bessere Resultate erzielen könnte, indem man ein Mittelklassemodell mehrfach im Kreis laufen lässt

    • Nicht das Modell selbst, sondern Tools und Harnesses bestimmen die Ergebnisqualität
      Wenn schnelle Token-Ausgabe und gutes Tooling zusammenkommen, könnte sich der Abstand zu Frontier-Modellen verringern
    • Allerdings könne sich ein Modell nicht selbst auf Basis seiner eigenen Ausgaben verbessern. Dafür sei Lernen an der Realität nötig
  • Nach korrigierten Informationen handelt es sich tatsächlich um einen Single-Chip-Aufbau mit in Silizium geätztem Modell
    Offenbar ist ein Llama-8B-q3-Modell mit 1k Kontext eingebrannt, und es werden 10 Chips benötigt (insgesamt 2,4kW)
    Da das Modell nicht ausgetauscht werden kann, eignet es sich nur für langfristig stabile Aufgaben

    • Ideal für kurze Probleme unter 100 Token wie Data-Tagging
    • Denkbar wären auch Modellarchitekturen, die stärker auf RAG oder agentische Suche setzen
    • In einer Zeit schneller Modellwechsel ist eine Chip-Produktion von mehr als 6 Monaten realistisch schwer umsetzbar
    • Auf NLP-Aufgaben insgesamt anwendbar
    • Könnte sich auch als Chip für NPCs in Videospielen eignen
  • 17k Token pro Sekunde sind nicht nur effizientere Auslieferung, sondern eine Geschwindigkeit, die die Bewertungsmethodik selbst verändert
    Bestehende statische Benchmarks wie MMLU orientieren sich an menschlicher Geschwindigkeit; bei diesem Durchsatz werden Zehntausende Interaktionstests möglich
    Je höher die Geschwindigkeit, desto ungeeigneter erscheinen die bisherigen Bewertungsansätze

  • Jemand probierte den Chatbot aus und war schockiert, wie bei 15k tok/s lange Antworten sofort erschienen
    Für lokales Coding hätte man gern eine Frontier-Modell-Version davon

    • Einen Text, für dessen Lesen man zwei Minuten braucht, in unter einer Sekunde generiert zu sehen, war ein absurdes Schauspiel
    • Das erinnerte an den Witz, dass wir außerirdische Zivilisationen vielleicht deshalb nicht finden, weil sie auf einer anderen Zeitskala arbeiten
    • Wenn man diese Geschwindigkeit auf Reasoning-Loops oder Code-Generation-Harnesses anwendet, könnte das einen AI-Durchbruch auslösen
  • Es gibt auch negative Reaktionen, aber Anwendungen, die Modelle mit niedriger Latenz brauchen, gibt es sehr viele
    Zum Beispiel war die Umwandlung freier Suchanfragen in strukturierte Queries wegen der Latenz bisheriger Modelle kaum praktikabel
    Solche Chips ermöglichen ein unmittelbar wirkendes AI-Verhalten, das Nutzer direkt spüren