Tinybox – Offline-AI-Maschine mit Unterstützung für 120B Parameter

(tinygrad.org)

6 Punkte von GN⁺ 2026-03-22 | 1 Kommentare | Auf WhatsApp teilen

tinygrad ist ein Framework für neuronale Netze, das Einfachheit und Leistung kombiniert und komplexe Modelle mit einer minimalen Operationsstruktur umsetzt
Die darauf basierende tinybox ist ein leistungsstarker Offline-AI-Computer für Deep-Learning-Training und Inferenz und wird in drei Modellen angeboten: red, green und exa
Das Spitzenmodell green v2 blackwell erreicht mit 4 RTX PRO 6000 GPUs eine Leistung von 3086 TFLOPS und ist für $65,000 sofort lieferbar
Die Topvariante exabox zielt auf eine Leistung von rund 1 EXAFLOP ab, soll 2027 erscheinen und liegt in einer Preisklasse von rund 10 Millionen Dollar
Der Hersteller tiny corp verfolgt das Ziel der Kommerzialisierung von Petaflop-Leistung und der Verwirklichung von AI für alle

Überblick über tinygrad

tinygrad ist ein Framework für neuronale Netze, das Einfachheit und Leistung in den Mittelpunkt stellt, und ist ein schnell wachsendes Projekt
Komplexe Netzwerke werden mit nur 3 OpType aufgebaut: ElementwiseOps, ReduceOps, MovementOps
- ElementwiseOps führen elementweise Operationen auf 1 bis 3 Tensoren aus, darunter SQRT, LOG2, ADD, MUL und WHERE
- ReduceOps nehmen einen Tensor als Eingabe und geben einen kleineren Tensor zurück, darunter SUM und MAX
- MovementOps sind virtuelle Operationen, die Daten ohne Kopieren verschieben, und führen mit ShapeTracker RESHAPE, PERMUTE, EXPAND usw. aus
Die Implementierung von CONV- oder MATMUL-Operationen kann direkt im Code eingesehen werden

tinybox-Produktlinie

tinybox ist ein Hochleistungscomputer für Deep Learning und besteht aus drei Modellen: red, green und exa
Die wichtigsten Spezifikationen der einzelnen Modelle sind wie folgt
- red v2
  - GPU: 4x 9070XT
  - FP16(FP32 acc)-Leistung: 778 TFLOPS
  - GPU-RAM: 64GB, Bandbreite 2560 GB/s
  - CPU: 32-Kern AMD EPYC
  - System-RAM: 128GB, Bandbreite 204.8 GB/s
  - Speicher: 2TB NVMe, Lesegeschwindigkeit 7.3 GB/s
  - Networking: 2x 1GbE + OCP3.0
  - Stromversorgung: 1600W
  - Geräuschpegel: unter 50dB
  - Preis: $12,000, sofort lieferbar
- green v2 blackwell
  - GPU: 4x RTX PRO 6000 Blackwell
  - FP16(FP32 acc)-Leistung: 3086 TFLOPS
  - GPU-RAM: 384GB, Bandbreite 7168 GB/s
  - CPU: 32-Kern AMD GENOA
  - System-RAM: 192GB, Bandbreite 460.8 GB/s
  - Speicher: 4TB RAID + 1TB für Boot, Lesegeschwindigkeit 59.3 GB/s
  - Networking: 2x 10GbE + OCP3.0
  - Stromversorgung: 2x 1600W
  - Geräuschpegel: 65dB (aus 10m Entfernung)
  - Preis: $65,000, sofort lieferbar
- exabox
  - GPU: 720x RDNA5 AT0 XL
  - FP16(FP32 acc)-Leistung: rund 1 EXAFLOP
  - GPU-RAM: 25,920GB, Bandbreite 1244 TB/s
  - CPU: 120x 32-Kern AMD GENOA
  - System-RAM: 23,040GB, Bandbreite 55.2 TB/s
  - Speicher: 480TB RAID, Lesegeschwindigkeit 7.1 TB/s
  - Networking: Unterstützung für PCIe5-3.2-TB/s-Erweiterung
  - Stromversorgung: 600kW
  - Größe: 20x8x8.5 ft, Gewicht 20,000 lbs
  - Geplante Veröffentlichung: 2027, erwarteter Preis rund $10M
  - Alle Modelle verwenden das Betriebssystem Ubuntu 24.04 und können standalone oder als Rack-Mount-System installiert werden
  - Produkt- und Lagerbestands-Updates werden über eine Mailingliste bereitgestellt

FAQ

Überblick über tinybox
- Ein leistungsstarker Computer für Deep Learning mit sehr hohem Preis-Leistungs-Verhältnis
  - Im MLPerf Training 4.0 Benchmark wurde es mit Systemen verglichen, die zehnmal teurer sind
  - Nicht nur Training, sondern auch Inferenz (inference) ist möglich
Bestellung und Lieferung
- Bestellung über die Website möglich, Versand innerhalb von 1 Woche nach Zahlungseingang
- Abholung vor Ort in San Diego oder weltweiter Versand unterstützt
Anpassung und Zahlung
- Keine Anpassungen möglich, um Preis und Qualität zu gewährleisten
  - Zahlung nur per Banküberweisung (wire transfer) möglich
  - Das W-9-Formular ist über den Download-Link verfügbar
Einsatzgebiete von tinygrad
- Wird in openpilot verwendet, um Fahrmodelle auf Basis der Snapdragon 845 GPU auszuführen
- Ersetzt Qualcomm SNPE und bietet höhere Geschwindigkeit sowie ONNX-Laden, Trainingsunterstützung und Attention-Funktionen
Funktionen und Leistung
- Nicht nur für Inferenz, sondern unterstützt sowohl forward/backward-Pässe auf Basis von autodiff
- Bietet eine API ähnlich wie PyTorch, ist strukturell aber einfacher
- Als Alpha-Version ist die Stabilität gering, zuletzt aber vergleichsweise gut
- Die Alpha-Phase soll enden, wenn Paper-Reproduktionen doppelt so schnell wie mit PyTorch möglich sind
- Gründe für die Geschwindigkeitssteigerung
  - Formoptimierung durch Kompilierung maßgeschneiderter Kernel für jede Operation
  - Aggressive Fusion von Operationen durch eine lazy tensor-Struktur
  - Durch ein kompaktes Backend verbessert Kernel-Optimierung die Gesamtleistung
Entwicklung und Community
- Die Entwicklung findet auf GitHub und Discord statt
- Beiträge (PRs) zu tinygrad gelten als wichtiger Weg für Recruiting und Beteiligung an Investments
- Das Ziel von tiny corp ist die Kommerzialisierung von Petaflop-Leistung und die Verwirklichung von AI für alle

1 Kommentare

GN⁺ 2026-03-22

Hacker-News-Kommentare

Ich fand es ironisch, dass diese Website stark den Eindruck macht, von menschlicher Hand statt von KI gemacht zu sein
Das Design und der Ton der Texte wirken sehr menschlich
Trotzdem ist die Idee großartig, und ich denke, solche lokal trainierbaren Modelle könnten in Zukunft die Abhängigkeit von Modellen großer Konzerne verringern
Es wäre allerdings schön, wenn man das Gerät direkt an einen 240V-Stromkreis anschließen könnte. Zwei 120V-Stromkreise finden zu müssen, ist ziemlich umständlich
- Die wirklich respektierten Texte über KI haben meistens kaum Spuren davon, dass sie von KI geschrieben wurden
  Ich denke, das liegt daran, dass Leute aus der Branche sehr sensibel darin sind, Signal und Rauschen zu unterscheiden
- Ich fand es seltsam, dass öffentlich mit „Invest with your PRs“ um Code-Beiträge geworben wird, es aber keine Richtlinie zu KI-generiertem Code gibt
  Vermutlich ist das Volumen so gering, dass man PRs mit schlechter Qualität einfach höflich ignorieren kann, sodass die Art der Erzeugung keine große Rolle spielt
- Für jemanden, der ein Gerät für 65.000 Dollar kauft, dürften zwei Stromkreise zu finden nur ein kleines Problem sein
- Tatsächlich sind 240V-Stromkreise in den USA im Grunde zwei zusammengelegte 120V-Leitungen, daher ist eine Neuverkabelung nicht schwer
Dass das Basismodell 12.000 Dollar kostet, ist viel zu teuer
Ich betreibe ein 120B-Parameter-Modell auf einem Apple M3 Max (128GB RAM) mit 80W Leistungsaufnahme bei 15–20 Token pro Sekunde
Es ist nicht perfekt, aber ich finde es besser als ein Gerät für 12.000 Dollar
- Die TFLOPS-Leistung des M3 Max ist im Vergleich zur 12k-Box verschwindend gering
- Solche Geräte sind für Idioten. Ich habe letztes Jahr 160GB VRAM für 1.000 Dollar gekauft, und 96GB P40-VRAM bekommt man für unter 1.000 Dollar
  Damit kann man gpt-oss-120b Q8 mit ungefähr 30 Token pro Sekunde betreiben
red v2 kann unmöglich ein 120B-Modell vernünftig betreiben
Ich habe selbst ein Dual-A100-AI-Homelab gebaut und 80GB VRAM per NVLink gekoppelt
Ein 120B-Modell ist ohne starke Quantisierung unmöglich, und auf diesem Niveau wird das Modell instabil
Es gibt auch nicht genug Platz für den KV-Cache, sodass man bei etwa 4k Kontext ein OOM bekommt
Selbst beim Betrieb eines 70B-Modells ist es aktuell knapp. Mein Setup hat 16GB mehr VRAM als red v2
Außerdem verstehe ich nicht, warum das 12U sein soll. Mein Rig ist 4U
green v2 hat zwar die besseren GPUs, aber für 65.000 Dollar sollten CPU und RAM ebenfalls deutlich besser sein
Ich freue mich, dass es so etwas überhaupt gibt, aber ehrlich gesagt verstehe ich das Verhältnis der Komponenten nicht
- Die Leistung ist okay, aber nicht verrückt gut
  Ich betreibe gpt-oss-120b Q4 auf einer Epyc-Milan-Box, aufgeteilt auf RAM und GPU, und komme auf etwa 30–50 Token pro Sekunde
  Eine Konfiguration mit 64G VRAM/128G RAM ist ineffizient. Selbst bei MoE-Modellen braucht der Router nur etwa 20B, und der restliche VRAM ist verschwendet
- Der Grund für 12U ist wahrscheinlich, dass eine einzelne Gehäuse-SKU verwendet wird
  Die Antwort wäre wohl so etwas wie: „Um die Preise niedrig zu halten und die Qualität hoch, bieten wir keine Anpassung der Servergröße an.“
- Ehrlich gesagt hätten zwei RTX 8000 gegenüber red v2 wohl den besseren ROI
  Ich nutze einen 8-GPU-Server (5 RTX 8000, 3 RTX 6000 Ada), und für grundlegende Inferenz reichen die 8000er aus
  Das green-Modell wäre zwar schneller, aber die zusätzlichen 25.000 Dollar erscheinen mir nicht gerechtfertigt
- Ich frage mich, ob das günstiger war als Blackwell 6000
  Vier Blackwell 6000 kosten 32.000 bis 36.000 Dollar, und ich weiß nicht, wo die restlichen 30.000 Dollar hingegangen sind
- Ich frage mich, ob man längere Kontexte nutzen könnte, wenn man den KV-Cache in den System-RAM oder auf Storage auslagert
  Einige lokale KI-Frameworks unterstützen eine LRU-Policy, bei der nur ein Teil des VRAM als Cache genutzt wird, sodass der Overhead beherrschbar bleibt
exabox ist interessant
Ich frage mich, wer die Kunden sein sollen. Nachdem ich das Vera-Rubin-Launch-Video gesehen habe, kann ich mir kaum vorstellen, mit NVIDIA im Hyperscaler-Markt zu konkurrieren
Vermutlich zielt man auf ML-Startups, denen Preis-Leistung wichtig ist
Wenn man sich die Preise ansieht, kostet Vera Rubin tatsächlich nur etwa die Hälfte bei ähnlicher GPU-RAM-Größe
An die Qualität der NV-Interconnects kommt es aber wohl nicht heran
Ich weiß nicht, wer das kaufen würde. NV liefert ja bereits aus
- Die Infrastruktur großer Unternehmen ist oft über fünf Jahre alt, und wegen der enorm hohen Upgrade-Kosten lässt sie sich nicht leicht austauschen
  Wenn man genau diese Nische angreift, ist Wettbewerb möglich. Bei weniger als 0,01 % Marktanteil würden die Großen das vermutlich gar nicht beachten
- Als Witz auf „exabox ist interessant“ kam die Reaktion: „Kann das Crysis ausführen?“
Ich frage mich, ob das so etwas wie ein neuer Krypto-Miner ist
Früher wurden Mining-Geräte verkauft, jetzt fühlt es sich an, als würden dieselben Dinge für KI verkauft
- Es ist ähnlich, aber der Unterschied ist, dass es keine Reward-Blöcke gibt
Tinybox ist cool, aber der Markt will wahrscheinlich eher Produkte mit expliziten Leistungsgarantien wie „kann Kimi 2.5 mit 50 Token pro Sekunde ausführen“
Das erinnert mich an das Konzept des Decoy effect
Ich frage mich, wie bei diesem Gerät die Kühlung gelöst wird
Zur Bedingung von tinygrad, „Alpha zu verlassen, wenn es 2x schneller als pytorch ist“
Es braucht eine konkrete Erklärung, bei welchen Workloads pytorch mehr als doppelt so langsam wie die Hardware ist
Die meisten Papers verwenden Standardkomponenten, und pytorch holt bereits mehr als 50 % der GPU-Leistung heraus
Falls die Leistung nur in Sonderfällen erreicht wird, in denen man Custom Kernel schreiben muss, dann ist das ein anderes Problem
Ich verstehe nicht, warum die 6-GPU-Konfiguration eingestellt wurde
4 GPUs (9070, RTX6000) sind 2-Slot-Designs und lassen sich auch mit gewöhnlichen Mainboards aufbauen
6 GPUs sind komplizierter, weil man Riser, PCIe-Retimer, Dual-PSU und ein Custom-Gehäuse braucht
Trotzdem denke ich, dass sie ein besseres Preis-Leistungs-Verhältnis hatten

Tinybox – Offline-AI-Maschine mit Unterstützung für 120B Parameter

Überblick über tinygrad

tinybox-Produktlinie

red v2

green v2 blackwell

exabox

FAQ

Überblick über tinybox

Ein leistungsstarker Computer für Deep Learning mit sehr hohem Preis-Leistungs-Verhältnis

Bestellung und Lieferung

Anpassung und Zahlung

Keine Anpassungen möglich, um Preis und Qualität zu gewährleisten

Einsatzgebiete von tinygrad

Funktionen und Leistung

Entwicklung und Community

Verwandte Beiträge

1 Kommentare

Hacker-News-Kommentare