- tinygrad ist ein Framework für neuronale Netze, das Einfachheit und Leistung kombiniert und komplexe Modelle mit einer minimalen Operationsstruktur umsetzt
- Die darauf basierende tinybox ist ein leistungsstarker Offline-AI-Computer für Deep-Learning-Training und Inferenz und wird in drei Modellen angeboten: red, green und exa
- Das Spitzenmodell green v2 blackwell erreicht mit 4 RTX PRO 6000 GPUs eine Leistung von 3086 TFLOPS und ist für $65,000 sofort lieferbar
- Die Topvariante exabox zielt auf eine Leistung von rund 1 EXAFLOP ab, soll 2027 erscheinen und liegt in einer Preisklasse von rund 10 Millionen Dollar
- Der Hersteller tiny corp verfolgt das Ziel der Kommerzialisierung von Petaflop-Leistung und der Verwirklichung von AI für alle
Überblick über tinygrad
- tinygrad ist ein Framework für neuronale Netze, das Einfachheit und Leistung in den Mittelpunkt stellt, und ist ein schnell wachsendes Projekt
- Komplexe Netzwerke werden mit nur 3 OpType aufgebaut: ElementwiseOps, ReduceOps, MovementOps
- ElementwiseOps führen elementweise Operationen auf 1 bis 3 Tensoren aus, darunter SQRT, LOG2, ADD, MUL und WHERE
- ReduceOps nehmen einen Tensor als Eingabe und geben einen kleineren Tensor zurück, darunter SUM und MAX
- MovementOps sind virtuelle Operationen, die Daten ohne Kopieren verschieben, und führen mit ShapeTracker RESHAPE, PERMUTE, EXPAND usw. aus
- Die Implementierung von CONV- oder MATMUL-Operationen kann direkt im Code eingesehen werden
tinybox-Produktlinie
- tinybox ist ein Hochleistungscomputer für Deep Learning und besteht aus drei Modellen: red, green und exa
- Die wichtigsten Spezifikationen der einzelnen Modelle sind wie folgt
-
red v2
- GPU: 4x 9070XT
- FP16(FP32 acc)-Leistung: 778 TFLOPS
- GPU-RAM: 64GB, Bandbreite 2560 GB/s
- CPU: 32-Kern AMD EPYC
- System-RAM: 128GB, Bandbreite 204.8 GB/s
- Speicher: 2TB NVMe, Lesegeschwindigkeit 7.3 GB/s
- Networking: 2x 1GbE + OCP3.0
- Stromversorgung: 1600W
- Geräuschpegel: unter 50dB
- Preis: $12,000, sofort lieferbar
-
green v2 blackwell
- GPU: 4x RTX PRO 6000 Blackwell
- FP16(FP32 acc)-Leistung: 3086 TFLOPS
- GPU-RAM: 384GB, Bandbreite 7168 GB/s
- CPU: 32-Kern AMD GENOA
- System-RAM: 192GB, Bandbreite 460.8 GB/s
- Speicher: 4TB RAID + 1TB für Boot, Lesegeschwindigkeit 59.3 GB/s
- Networking: 2x 10GbE + OCP3.0
- Stromversorgung: 2x 1600W
- Geräuschpegel: 65dB (aus 10m Entfernung)
- Preis: $65,000, sofort lieferbar
-
exabox
- GPU: 720x RDNA5 AT0 XL
- FP16(FP32 acc)-Leistung: rund 1 EXAFLOP
- GPU-RAM: 25,920GB, Bandbreite 1244 TB/s
- CPU: 120x 32-Kern AMD GENOA
- System-RAM: 23,040GB, Bandbreite 55.2 TB/s
- Speicher: 480TB RAID, Lesegeschwindigkeit 7.1 TB/s
- Networking: Unterstützung für PCIe5-3.2-TB/s-Erweiterung
- Stromversorgung: 600kW
- Größe: 20x8x8.5 ft, Gewicht 20,000 lbs
- Geplante Veröffentlichung: 2027, erwarteter Preis rund $10M
- Alle Modelle verwenden das Betriebssystem Ubuntu 24.04 und können standalone oder als Rack-Mount-System installiert werden
- Produkt- und Lagerbestands-Updates werden über eine Mailingliste bereitgestellt
FAQ
-
Überblick über tinybox
-
Ein leistungsstarker Computer für Deep Learning mit sehr hohem Preis-Leistungs-Verhältnis
- Im MLPerf Training 4.0 Benchmark wurde es mit Systemen verglichen, die zehnmal teurer sind
- Nicht nur Training, sondern auch Inferenz (inference) ist möglich
-
Bestellung und Lieferung
- Bestellung über die Website möglich, Versand innerhalb von 1 Woche nach Zahlungseingang
- Abholung vor Ort in San Diego oder weltweiter Versand unterstützt
-
Anpassung und Zahlung
-
Keine Anpassungen möglich, um Preis und Qualität zu gewährleisten
- Zahlung nur per Banküberweisung (wire transfer) möglich
- Das W-9-Formular ist über den Download-Link verfügbar
-
Einsatzgebiete von tinygrad
- Wird in openpilot verwendet, um Fahrmodelle auf Basis der Snapdragon 845 GPU auszuführen
- Ersetzt Qualcomm SNPE und bietet höhere Geschwindigkeit sowie ONNX-Laden, Trainingsunterstützung und Attention-Funktionen
-
Funktionen und Leistung
- Nicht nur für Inferenz, sondern unterstützt sowohl forward/backward-Pässe auf Basis von autodiff
- Bietet eine API ähnlich wie PyTorch, ist strukturell aber einfacher
- Als Alpha-Version ist die Stabilität gering, zuletzt aber vergleichsweise gut
- Die Alpha-Phase soll enden, wenn Paper-Reproduktionen doppelt so schnell wie mit PyTorch möglich sind
- Gründe für die Geschwindigkeitssteigerung
- Formoptimierung durch Kompilierung maßgeschneiderter Kernel für jede Operation
- Aggressive Fusion von Operationen durch eine lazy tensor-Struktur
- Durch ein kompaktes Backend verbessert Kernel-Optimierung die Gesamtleistung
-
Entwicklung und Community
- Die Entwicklung findet auf GitHub und Discord statt
- Beiträge (PRs) zu tinygrad gelten als wichtiger Weg für Recruiting und Beteiligung an Investments
- Das Ziel von tiny corp ist die Kommerzialisierung von Petaflop-Leistung und die Verwirklichung von AI für alle
1 Kommentare
Hacker-News-Kommentare
Ich fand es ironisch, dass diese Website stark den Eindruck macht, von menschlicher Hand statt von KI gemacht zu sein
Das Design und der Ton der Texte wirken sehr menschlich
Trotzdem ist die Idee großartig, und ich denke, solche lokal trainierbaren Modelle könnten in Zukunft die Abhängigkeit von Modellen großer Konzerne verringern
Es wäre allerdings schön, wenn man das Gerät direkt an einen 240V-Stromkreis anschließen könnte. Zwei 120V-Stromkreise finden zu müssen, ist ziemlich umständlich
Ich denke, das liegt daran, dass Leute aus der Branche sehr sensibel darin sind, Signal und Rauschen zu unterscheiden
Vermutlich ist das Volumen so gering, dass man PRs mit schlechter Qualität einfach höflich ignorieren kann, sodass die Art der Erzeugung keine große Rolle spielt
Dass das Basismodell 12.000 Dollar kostet, ist viel zu teuer
Ich betreibe ein 120B-Parameter-Modell auf einem Apple M3 Max (128GB RAM) mit 80W Leistungsaufnahme bei 15–20 Token pro Sekunde
Es ist nicht perfekt, aber ich finde es besser als ein Gerät für 12.000 Dollar
Damit kann man gpt-oss-120b Q8 mit ungefähr 30 Token pro Sekunde betreiben
red v2 kann unmöglich ein 120B-Modell vernünftig betreiben
Ich habe selbst ein Dual-A100-AI-Homelab gebaut und 80GB VRAM per NVLink gekoppelt
Ein 120B-Modell ist ohne starke Quantisierung unmöglich, und auf diesem Niveau wird das Modell instabil
Es gibt auch nicht genug Platz für den KV-Cache, sodass man bei etwa 4k Kontext ein OOM bekommt
Selbst beim Betrieb eines 70B-Modells ist es aktuell knapp. Mein Setup hat 16GB mehr VRAM als red v2
Außerdem verstehe ich nicht, warum das 12U sein soll. Mein Rig ist 4U
green v2 hat zwar die besseren GPUs, aber für 65.000 Dollar sollten CPU und RAM ebenfalls deutlich besser sein
Ich freue mich, dass es so etwas überhaupt gibt, aber ehrlich gesagt verstehe ich das Verhältnis der Komponenten nicht
Ich betreibe gpt-oss-120b Q4 auf einer Epyc-Milan-Box, aufgeteilt auf RAM und GPU, und komme auf etwa 30–50 Token pro Sekunde
Eine Konfiguration mit 64G VRAM/128G RAM ist ineffizient. Selbst bei MoE-Modellen braucht der Router nur etwa 20B, und der restliche VRAM ist verschwendet
Die Antwort wäre wohl so etwas wie: „Um die Preise niedrig zu halten und die Qualität hoch, bieten wir keine Anpassung der Servergröße an.“
Ich nutze einen 8-GPU-Server (5 RTX 8000, 3 RTX 6000 Ada), und für grundlegende Inferenz reichen die 8000er aus
Das green-Modell wäre zwar schneller, aber die zusätzlichen 25.000 Dollar erscheinen mir nicht gerechtfertigt
Vier Blackwell 6000 kosten 32.000 bis 36.000 Dollar, und ich weiß nicht, wo die restlichen 30.000 Dollar hingegangen sind
Einige lokale KI-Frameworks unterstützen eine LRU-Policy, bei der nur ein Teil des VRAM als Cache genutzt wird, sodass der Overhead beherrschbar bleibt
exabox ist interessant
Ich frage mich, wer die Kunden sein sollen. Nachdem ich das Vera-Rubin-Launch-Video gesehen habe, kann ich mir kaum vorstellen, mit NVIDIA im Hyperscaler-Markt zu konkurrieren
Vermutlich zielt man auf ML-Startups, denen Preis-Leistung wichtig ist
Wenn man sich die Preise ansieht, kostet Vera Rubin tatsächlich nur etwa die Hälfte bei ähnlicher GPU-RAM-Größe
An die Qualität der NV-Interconnects kommt es aber wohl nicht heran
Ich weiß nicht, wer das kaufen würde. NV liefert ja bereits aus
Wenn man genau diese Nische angreift, ist Wettbewerb möglich. Bei weniger als 0,01 % Marktanteil würden die Großen das vermutlich gar nicht beachten
Ich frage mich, ob das so etwas wie ein neuer Krypto-Miner ist
Früher wurden Mining-Geräte verkauft, jetzt fühlt es sich an, als würden dieselben Dinge für KI verkauft
Tinybox ist cool, aber der Markt will wahrscheinlich eher Produkte mit expliziten Leistungsgarantien wie „kann Kimi 2.5 mit 50 Token pro Sekunde ausführen“
Das erinnert mich an das Konzept des Decoy effect
Ich frage mich, wie bei diesem Gerät die Kühlung gelöst wird
Zur Bedingung von tinygrad, „Alpha zu verlassen, wenn es 2x schneller als pytorch ist“
Es braucht eine konkrete Erklärung, bei welchen Workloads pytorch mehr als doppelt so langsam wie die Hardware ist
Die meisten Papers verwenden Standardkomponenten, und pytorch holt bereits mehr als 50 % der GPU-Leistung heraus
Falls die Leistung nur in Sonderfällen erreicht wird, in denen man Custom Kernel schreiben muss, dann ist das ein anderes Problem
Ich verstehe nicht, warum die 6-GPU-Konfiguration eingestellt wurde
4 GPUs (9070, RTX6000) sind 2-Slot-Designs und lassen sich auch mit gewöhnlichen Mainboards aufbauen
6 GPUs sind komplizierter, weil man Riser, PCIe-Retimer, Dual-PSU und ein Custom-Gehäuse braucht
Trotzdem denke ich, dass sie ein besseres Preis-Leistungs-Verhältnis hatten