OpenAI stellt mit Broadcom entwickelten ersten eigenen Inferenz-Chip Jalapeño vor

(techcrunch.com)

3 Punkte von GN⁺ 3 시간 전 | 1 Kommentare | Auf WhatsApp teilen

Jalapeño ist ein auf LLM-Inferenz spezialisierter Beschleuniger und das erste Ergebnis einer gemeinsam mit Broadcom entwickelten mehrgenerationenfähigen Computing-Plattform
Von Designbeginn bis zum Tape-out der Fertigung vergingen nur 9 Monate; damit gilt es vermutlich als der schnellste ASIC-Entwicklungszyklus in der Geschichte leistungsstarker moderner Halbleiter
In ersten Tests rund 50 % Kostenersparnis gegenüber gewöhnlichen AI-GPUs, auch die Performance pro Watt liegt deutlich über dem aktuellen Stand der Technik
Teil einer Full-Stack-Strategie, bei der OpenAI von der Chip-Architektur bis zu Kernel, Speicher und Networking alles selbst entwirft, um die Abhängigkeit von Nvidia-GPUs zu verringern und sich über ein Software-Unternehmen hinaus zu einem AI-Infrastruktur-Anbieter zu entwickeln
Ab Ende 2026 zusammen mit Partnern wie Microsoft für Gigawatt-Rechenzentren vorgesehen; gewinnt an Bedeutung angesichts des Drucks, vor einem IPO in Höhe von 1 Billion US-Dollar Profitabilität zu belegen

Vorstellung des Jalapeño-Chips

Am Mittwoch haben OpenAI und Broadcom (NASDAQ: AVGO) OpenAIs ersten Intelligence Processor Jalapeño vorgestellt
Der Beschleuniger wurde mit Blick auf die Zukunft der LLM-Inferenz entwickelt und ist der erste AI-Beschleuniger einer mehrgenerationenfähigen Computing-Plattform, die beide Unternehmen gemeinsam aufbauen
Broadcom-Chairman und CEO Hock Tan sowie Präsident Charlie Kawwas überreichten Chip-Samples persönlich an OpenAI-CEO Sam Altman und Präsident Greg Brockman
Ein wichtiger Schritt in OpenAIs Strategie, über Consumer-Produkte hinaus zu einem AI-Infrastruktur-Anbieter zu werden

Chip-Struktur und Leistung

Jalapeño ist kein universeller Chip, der aus bestehenden Beschleunigern für AI-Workloads umgebaut wurde, sondern ein Blank-Slate-Design speziell für moderne LLM-Inferenz
Als ASIC kann er gezielt für bestimmte AI-Aufgaben entworfen werden, ist aber weniger flexibel als Nvidia-GPUs und dafür günstiger
Leistung und Effizienz
- In ersten Tests rund 50 % Kostenersparnis gegenüber gewöhnlichen AI-GPUs (Interview mit Hock Tan)
- Die endgültige Leistung wird noch gemessen, die Performance pro Watt liegt jedoch deutlich über dem aktuellen Stand der Technik
- Durch die Reduktion von Datenbewegungen und die Balance von Rechen-, Speicher- und Networking-Ressourcen wird die tatsächliche Auslastung nahe an die theoretische Maximalleistung gebracht
- Auf dem veröffentlichten Chipbild sind 8 HBM-Standorte und ein zentraler Compute-Die zu erkennen
Funktionsnachweis
- Engineering-Samples betreiben ML-Workloads bereits mit den für die Serienproduktion vorgesehenen Frequenz- und Leistungswerten, darunter GPT‑5.3‑Codex‑Spark
- Ein detaillierter technischer Bericht soll in den kommenden Monaten veröffentlicht werden
- Broadcoms Silizium-Implementierung und Tomahawk-Networking-Silizium unterstützen die Massenproduktion in großem Maßstab

9 Monate bis zum Tape-out, beschleunigt durch OpenAI-Modelle

Von den ersten Entwürfen bis zum Tape-out der Fertigung wurde der Chip in nur 9 Monaten gemeinsam entwickelt; damit vermutlich der schnellste ASIC-Entwicklungszyklus in der Geschichte leistungsstarker moderner Halbleiter
Teile des Design- und Optimierungsprozesses nutzten OpenAIs eigene Modelle; Brockman sagte, es sei „erstaunlich“, wie stark die Modelle die Entwicklung beschleunigt hätten
Dieselben Modelle, die Nutzern bereitgestellt werden, tragen künftig auch zur Verbesserung der Infrastruktur bei, auf der sie laufen
Wenn AI Ingenieuren hilft, schneller Chips zu entwerfen, könnte das branchenweit zu niedrigeren Computing-Kosten und breiterem Zugang zu fortschrittlicher AI führen

Mehrgenerationen-Plattform und Partner

Jalapeño ist der erste Schritt einer mehrgenerationenfähigen Computing-Plattform, deren erste Einsätze für Ende 2026 geplant sind und die in den darauffolgenden Jahren skaliert werden soll
Kooperationsstruktur
- OpenAI — Beschleunigerdesign auf Basis eines tiefen Verständnisses der LLM-Grundlagen
- Broadcom — Chip-Implementierung sowie Networking- und Konnektivitätstechnologien
- Celestica — Expertise bei Boards, Racks und Systemintegration
Im vergangenen Jahr kündigten OpenAI und Broadcom Pläne für maßgeschneiderte Chips für 10 Gigawatt Computing-Leistung an; nun wurde der erste Chip daraus vorgestellt
Explodierende Nachfrage
- Broadcom-CEO Hock Tan sagte, dass ab 2026 gemeinsam mit Partnern wie Microsoft Gigawatt-Rechenzentren ermöglicht würden; nach kleinen Prototypen Ende 2026 sei eine Skalierung geplant
- Brockman sagte: „Wir können Computing nicht schnell genug bekommen“, und Tan erklärte, die Nachfrage von sechs Kunden liege auf einem Niveau, das „buchstäblich nicht zu stillen“ sei, und werde 2027 bis 2028 gleich hoch oder noch höher sein
- OpenAIs Hardware-Programmleiter Richard Ho erläuterte, dass die Architektur rund um die für Frontier-AI-Modelle wichtigsten Kernel, Speicherbewegungen, Networking- und Serving-Muster optimiert wurde

Full-Stack-Strategie und Wettbewerb

OpenAI entwickelt nicht nur Frontier-Modelle und Produkte, sondern entwirft auch die darunterliegende Infrastruktur selbst — einschließlich Chip-Architektur, Kernel, Speichersystem, Networking, Scheduling, Deployment-Systeme und Produkterfahrung
Damit reiht sich das Unternehmen neben Google (TPU), Amazon (Trainium) und Microsoft (Azure Maia 100) in die Gruppe der Full-Stack-AI-Anbieter mit eigener Siliziumentwicklung ein
Weniger Abhängigkeit von Nvidia
- „Niemand will von Nvidia abhängig sein“ (Ben Barringer, Leiter Technology Research bei Quilter Cheviot); der Trend geht zu stärker diversifizierten Chip-Lieferketten
- OpenAI ist zwar einer der größten Nvidia-Kunden, hat aber auch Lieferverträge mit AMD (Instinct MI450-Serie), Cerebras und anderen abgeschlossen
Geschäftliche Bedeutung
- Während Nvidia durch die Lieferung zentraler Komponenten für AI-Rechenzentren zum wertvollsten Unternehmen der Welt aufgestiegen ist, unterstreicht dies das Gewinnpotenzial des AI-Infrastrukturmarkts
- Für OpenAI, dem ein IPO mit einer Bewertung von 1 Billion US-Dollar nachgesagt wird, ist die Senkung der Inferenzkosten entscheidend, um enorme Trainingskosten wieder hereinzuholen und Profitabilität zu belegen
- Die Broadcom-Aktie ist seit Anfang 2026 gestiegen und liegt etwa siebenmal so hoch wie Ende 2022, was die positiven Effekte der Zusammenarbeit widerspiegelt

Demokratisierung fortschrittlicher AI

Inferenz ist der Punkt, an dem AI auf Menschen trifft; Verbesserungen bei Kosten, Geschwindigkeit und Stabilität bedeuten schnellere ChatGPT-Antworten, Codex-Aufgaben ohne Wartezeit, günstigere API-Produkte und stabileren Zugang bei sprunghaft steigender Nachfrage
Der Schlüssel zur Demokratisierung von AI liegt darin, fortschrittliche Modelle für mehr Menschen im Alltag verfügbar, stabil und bezahlbar zu machen
Für Studierende, Entwickler, kleine Unternehmen, Forschende und Firmen — also alle, die lernen, bauen und schwierige Probleme lösen wollen — trägt dies dazu bei, Infrastruktur in nützliche Intelligenz zu verwandeln

1 Kommentare

GN⁺ 3 시간 전

Hacker-News-Kommentare

Ich würde gern mehr Details zu der Aussage sehen, man habe „mit OpenAI-Modellen das Design und die Optimierung beschleunigt“.
So wie es jetzt formuliert ist, wirkt es wie ein Marketing-Slogan, als würde man sagen, die Entwicklung sei dank Microsoft Office oder eines 40-Zoll-5K-LG-Ultrafine-Monitors schneller geworden.
Wenn es wirklich so bedeutend wäre, wie angedeutet, hätte OpenAI das wohl viel stärker hervorgehoben.
- Aus Sicht eines Chip-CEOs hängt alles daran, was mit „Design“ und „Produktion“ gemeint ist.
  Es ist unklar, ob „Design“ den Abschluss des Designs bedeutet und ob „Produktion“ den Produktionsstart, also den Tape-out, meint.
  Wenn es vom RTL-Freeze bis zum Tape-out 9 Monate gedauert hat, ist das für einen großen, komplexen 3-nm-Chip ziemlich normal und unter Berücksichtigung unerwarteter Probleme nicht einmal leicht beeindruckend.
  Wenn es dagegen vom Konzeptstadium, also von einer Architektur-Blockgrafik ohne RTL, bis zum Tape-out ging, wäre das ein erstaunlicher Zeitplan, und wahrscheinlich liegt die Realität irgendwo dazwischen.
  In einer konkreteren Ankündigung müsste man die tatsächlichen technischen Meilensteine und Gates nennen.
- Die bei der Chipentwicklung verwendete Hardwarebeschreibungssprache (HDL) ähnelt einer Programmiersprache, und bestehende Modelle verstehen sie bereits und können damit ziemlich viel anfangen.
  Um große Sprachmodelle im Chip-Design-Workflow einzusetzen, braucht man nicht zwingend ein separat spezialisiertes Modell.
  Auch in der Designverifikation steckt viel traditionelle Programmierung, sodass große Sprachmodelle dabei helfen können.
  Es ist also nicht völlig bedeutungslos, und wenn man heute Open-Source-Software für Chipdesign herunterlädt, kann ein großes Sprachmodell sogar dabei helfen, direkt mit einem kleinen Chip anzufangen.
- Broadcom verfügt bereits über viel IP für AI-SoCs.
  Die schwierigen Teile dieses Inferenz-Chips hat Broadcom wahrscheinlich schon entworfen, und OpenAI dürfte Broadcom nur die gewünschten Spezifikationen übermittelt haben.
  Wahrscheinlich ist er auch ziemlich ähnlich zum Google TPU.
  Es heißt, der „Beschleuniger der ersten Generation werde die Performance pro Watt gegenüber dem aktuellen Stand der Technik deutlich steigern“, und ich frage mich, was „deutlich“ hier konkret bedeutet.
  Vera Rubin soll Ende dieses Jahres in Massenstückzahlen ausgeliefert werden und voraussichtlich eine 10-fach höhere Energieeffizienz für Inferenz als Blackwell bieten [0].
  Selbst wenn bereits Tape-out erfolgt ist, dürften Bugfixes, Chipfertigung, HBM-Zuteilung, Rack-Design, Interconnect und die Bereitstellung im Rechenzentrum mindestens 12 Monate dauern, wahrscheinlich eher länger.
  Wenn dieser Chip in großem Umfang in Rechenzentren eingesetzt wird, könnte er bereits mit Vera Rubin Ultra oder Feynman konkurrieren müssen.
  Ich persönlich finde, OpenAI hätte nicht in dieses Projekt investieren sollen.
  Es ist noch zu früh; wie Anthropic hätte man sich erst auf Modelle konzentrieren und gewinnen sollen und solche Projekte erst angehen, wenn Profitabilität absehbar ist.
  In der KI gibt es mit Energie eine harte Obergrenze, und das ist ein Risiko für OpenAI.
  Wenn man 1 GW hat, sollte man nur die besten Chips installieren, und wenn Nvidia-Chips besser sind, dann hat dieses Projekt Milliarden von Dollar verschwendet.
  [0]https://developer.nvidia.com/blog/scaling-token-factory-reve...
- Es gibt im Wesentlichen zwei mögliche Bedeutungen, plus Witze irgendwo dazwischen.
  1. OpenAI verfügt tatsächlich über KI-Technik, die Chipdesign verbessern kann — eine gewagte und wenig wahrscheinliche Behauptung, die Belege bräuchte.
  2. OpenAI hat Test- und Verifikationsmodelle sowie Kernel entworfen, um die Performance auf Simulationshardware zu testen.
    Das Problem ist, dass der Satz auch nur Letzteres bedeuten könnte, aber so formuliert wurde, dass es wie Ersteres klingt, und deshalb ist er schwer vertrauenswürdig.
- Verilog ist bereits in großem Umfang öffentlich verfügbar, daher ist es gut möglich, dass man mit KI-Unterstützung mehr Verilog geschrieben und so den Chip entworfen hat.
  Es muss nicht unbedingt revolutionär sein; vielleicht hat KI-gestütztes Design einfach gut genug funktioniert, dass sich ein maßgeschneiderter ASIC gelohnt hat.
Im OpenAI-Beitrag fehlt zwar der Hinweis, aber es scheint fast sicher, dass der Chip von TSMC gefertigt wird [1].
Ich war mir nicht sicher, ob Intel damit beauftragt wurde.
1. https://www.investing.com/news/stock-market-news/openai-unve...
- Einer Behauptung zufolge, die ich auf Twitter gesehen habe, nutzen Unternehmen wie Google, Amazon und OpenAI Broadcom nicht nur wegen dessen Designkompetenz, sondern auch, weil Broadcom über Zuteilungsverträge mit TSMC und Speicherherstellern verfügt.
- Erst vor Kurzem hat sich das Puzzle für mich zusammengesetzt.
  Broadcom hat viel Geld verdient, indem es Hardware-Partner für Googles TPU wurde und TSMC-Fertigungskapazität mit Google teilte, und nun scheint es für OpenAI dasselbe zu tun.
  Das ist eine wirklich clevere Art, vom KI-Goldrausch zu profitieren.
  Ich hoffe nur, dass das damit verdiente Geld nicht dafür verwendet wird, der Softwarebranche wie bei VMWare und Bitnami Geld aus der Tasche zu ziehen.
Ich würde gern einen Inferenz-Chip sehen, bei dem die Gewichte Teil des ROM des Chips sind
Für jedes Gewicht gäbe es einen Multiplikator, und weil es konstant ist, würde das Ganze zu einem einfachen Bündel von Addierern werden; der vollständig pipelineisierte Durchsatz könnte bei einem Token pro Takt liegen
Dann könnte ein Stück Silizium Millionen Nutzer gleichzeitig bedienen, und über den Output-Bus könnten vielleicht 500 Millionen Token pro Sekunde herauskommen
Der Nachteil wäre, dass der Chip enorm groß würde und wohl einen ganzen Wafer einnehmen würde
Defekte auf Wafer-Ebene müssen kein großes Problem sein. Neuronale Netze verkraften es oft, wenn einzelne Gewichte fehlen oder falsch sind
Wegen des hohen Tempos in der Branche würde man vermutlich sehr schnell von Modellgewichten zur Produktion sprinten, 50 Wafer herstellen, sie ein Jahr lang nutzen und sie wegwerfen, wenn das Modell veraltet ist
- Genauer gesagt zielt das weniger darauf ab, Gewichte in ROM zu packen, als auf Compute-in-Memory (CIM)
  Dabei wird das Datum, hier der Multiplikationswert, Teil des Prozessors, hier eines Teils der Multiplikationsschaltung
  Das Problem „holen und verarbeiten“ wird architektonisch vollständig umgangen
  Da die Daten dort sind, wo die Berechnung stattfindet, werden sie nicht bewegt, und es gibt auch keine Latenz
- Früher gab es schon https://taalas.com/, und vermutlich gibt es noch weitere mit ähnlichen Ideen
  Dieser Ansatz scheint eher für kleine Modelle geeignet zu sein als für Frontier-Modelle. Modelle an der Spitze verändern sich zu schnell
- Ich frage mich, ob du dir Cerebras angesehen hast
  So weit, wie beschrieben, gehen sie nicht; sie haben sehr viele Kerne und sehr viel RAM, aber die Gewichte müssen weiterhin per Software geladen werden und bei großen Modellen in den Chip gestreamt werden
  Trotzdem ist es ein Wafer-Scale-Chip
- Über die Idee, Gewichte in ROM zu packen, denke ich schon seit einer Weile nach
  Für viele Aufgaben könnte das Einbetten der Gewichte in ROM gut funktionieren
  Ich bin mir nur nicht sicher, ob ein Multiplikator pro Gewicht eine gute Idee ist
  Bei einer Quantisierung auf etwa 2 Bit könnte es gehen, ansonsten wäre es womöglich besser, kleine ROMs neben jeden Multiplikator oder jede Zeile zu setzen, damit keine Daten von weit her bewegt werden müssen und N verschiedene Matrixoperationen verarbeitet werden können
  Eine andere interessante Idee wäre, DRAM um Zeilen von MAC-Einheiten zu ergänzen und DRAM-Zeilen als Vektoren zu verwenden
  Bei einer Zeilengröße von 64 Kbit wären das bei 8-Bit-Gewichten 8K Stück, und man könnte Gewichte und Berechnung auf demselben Chip halten
  Ich weiß allerdings nicht, ob man genug Multiplikatoren auf einen Chip bekommt
  Systolische Arrays können Zehn- bis Hunderttausende Einheiten haben, die jeweils eine Operation pro Takt ausführen
- Manche sagen, Memristoren seien dafür ideal und auch neu programmierbar, aber Memristoren wirken auf mich wie die Carbon Nanotubes der Computerwelt
Es ist spannend, weil es auf Chip-Ebene offenbar noch enorm viel Spielraum für Effizienzverbesserungen gibt
Ich frage mich, wie Taalas zu bewerten ist
Dort heißt es, LLM-Modelle würden buchstäblich in Silizium eingebrannt, mit etwas Onboard-Speicher für Fine-Tuning
Es werden große Vorteile bei Kosten und Latenz beansprucht
Eine sehr schnelle Demo gibt es auf https://chatjimmy.ai/
https://taalas.com/
https://www.reddit.com/r/singularity/comments/1r9frzk/taalas...
- Wenn man ausschließlich auf allgemeine GPUs setzt, lässt man natürlich viel Effizienz liegen
  Deshalb hat Google schon vor mehr als zehn Jahren mit der Entwicklung von TPUs begonnen
  Ich erinnere mich an die Kontroverse, dass Google Gebru entlassen habe wegen einer Arbeit, in der Timnit Gebru die Umweltfolgen von LLMs auf Basis von GPUs berechnete und die TPU-Effizienz ignorierte
  Wegen dieser großen Effizienzlücke soll Jeff Dean ziemlich wütend gewesen sein
- Es wäre cool, mehr davon zu sehen, aber die Fähigkeit, bei jedem neuen Modell auf ein vollständig neues Modell zu aktualisieren, scheint begrenzt zu sein
  Damit dürfte es extrem schwer zu verkaufen sein
- Technisch ist es interessant, aber es scheint viel zu wenig Details zu geben
  Die Idee, ein einzelnes Modell in den Chip zu packen, das sich nie ändert, gefällt mir nicht
  Ich frage mich, wie viel teurer das Silizium würde, wenn man wiederbeschreibbares ROM für die Gewichte verwenden würde
  Damit könnte man Fine-Tuning des Zielmodells ermöglichen und die Sorge mindern, dass das Modell veraltet
- 17k Token/s bei einem Chatbot sind eindrucksvoll, aber fast eine nutzlose Vorführung
  Für Coding-Agenten wäre das eine sinnvolle Verbesserung, und in der Robotik könnte es eine vollständige Revolution sein
  Ein 8B-Modell ist für allgemeine Zwecke nicht besonders nützlich, kann für bestimmte Einsatzzwecke aber enorme Intelligenz liefern
  Der Tesla/Waymo-Konkurrent von Nvidia ist ein 7B-LLM und ein 2B-Diffusionsmodell; wenn man so etwas mit dieser Geschwindigkeit laufen lassen könnte, könnten die Kosten gegenüber bestehenden Lösungen um eine Größenordnung sinken
- Sobald die Modellfortschritte deutlich langsamer werden, dürfte solche Hardware die Zukunft der LLM-Anbieter sein
  Man könnte sogar argumentieren, dass wir diesem Punkt schon nahe sind
  Hyperscaler wie AWS würden solche Chips gut nutzen, um Modelle anzubieten, die über Jahre relevant bleiben
  Im Moment springen die Modellqualitäten jedoch gerade bei Open-Weight-Modellen wie Deepseek/Kimi/GLM alle paar Monate stark nach vorn
  Bis dahin ist schwer zu erkennen, wie dieser Ansatz im Vergleich zu allgemeiner Hardware kosteneffizient sein soll
  Außerdem dürften kleine Versionen davon in mobile Hardware eingebaut werden und dort sehr schnelle und effiziente On-Device-LLMs ermöglichen
Ziemlich große Bewegung
Google scheint mit den TPUs etwa bei der 7. Generation angekommen zu sein, und wenn man sogar abgeleitete Versuche wie LPUs oder die Wafer Scale Engine von Cerebras mitdenkt, wirkt es so, als hätte man dort deutlich mehr Weitsicht gehabt
Der erste Eindruck ist allerdings, dass dieser Chip nicht auf Training, sondern auf Inferenz abzielt, und das ist ebenfalls eine interessante Entscheidung
- Training ist fast ein einmaliger Kostenpunkt, und durch Architekturverbesserungen sinkt die Effizienzlast bereits
  Inferenz dagegen verursacht fortlaufend Kosten und verbraucht mit der Zeit weitaus mehr Ressourcen, daher ist es langfristig vorteilhafter, sich darauf zu konzentrieren, sie deutlich effizienter zu machen
- Ich denke inzwischen, dass die Inferenzkosten höher sind als die Trainingskosten
  Nvidia ist der König allgemeiner Trainingschips, aber Inferenz kann man spezialisieren
- Cerebras’ Codex Spark 5.3 war ein großer Fehlschlag
  Das Kontextfenster ist klein und das Modell veraltet
  Trotzdem wäre es schön, wenn das weiter verbessert würde, sodass man GPT 5.5 mit 1000 Token pro Sekunde nutzen könnte
- Es heißt, „in ersten Tests werde Jalapeño die Leistung pro Watt gegenüber dem aktuellen Stand der Technik deutlich steigern“, und hier wird langsam sichtbar, worauf es wirklich ankommt
  Die Formulierung ist vage, aber TPU erhebt ähnliche Ansprüche
  Das Memo von Google „We have no moat“ halte ich weiterhin für zutreffend. Falls nicht bekannt, siehe https://newsletter.semianalysis.com/p/google-we-have-no-moat...
  Der aktuelle Verlauf ähnelt zunehmend eher dem Hardware-Wettbewerb von IBM, DEC, Cray und Sun in den 60er bis 90er Jahren
  Geschichte wiederholt sich nicht, aber sie reimt sich, und auch diese Bemühungen scheinen einer ähnlichen Spur zu folgen
Wenn man das Tempo der AI-Entwicklung und die Tatsache betrachtet, dass AI dabei hilft, schnellere und bessere AI zu bauen, frage ich mich weiterhin, ob solche Hardware vor einer nennenswerten Amortisierung schon veraltet sein wird
Schon jetzt lassen sich riesige AI-Modelle durch Quantisierung und Offloading mit weniger Ressourcen betreiben, aber das ist erst der Anfang
Irgendwann, vielleicht gar nicht in allzu ferner Zukunft, könnte es einen Durchbruch geben, der es ermöglicht, ein riesiges LLM der 200B-Klasse auf einem fünf Jahre alten Dell-Desktop gut laufen zu lassen
Das klingt verrückt, aber man sollte sich die Größe früher Festplatten ansehen
Das IBM 350 speicherte 3,5 MB auf einer Festplatte mit 50 Plattern von 24 Zoll Durchmesser und wurde zu heutigen Preisen für 35.000 Dollar vermietet
https://www.computerhistory.org/storageengine/first-commerci...
Vergleiche das mit einer Multi-Terabyte-SSD und übertrage dieselbe Verbesserung auf aktuelle LLM-Architekturen und ihre Ausführung
Mit zusätzlicher Hilfe durch AI könnte es bald einen Sprung geben, und Rechenzentren voller aktueller Nvidia-Karten könnten fast über Nacht veraltet wirken
- Wenn es einen solchen Durchbruch gibt, könnte man mit derselben Methode dann nicht auch heute schon 200T-Modelle in Rechenzentren betreiben?
- Ein interessanter Gedanke, aber der Vergleich mit Festplatten ist wahrscheinlich nicht ganz fair
  Das IBM 350 wurde vor 70 Jahren kommerzialisiert, und es hat 70 Jahre gedauert, bis man es sinnvoll mit einer Multi-TB-SSD vergleichen kann
  Außerdem ist nicht garantiert, dass Moores Gesetz in den kommenden Jahrzehnten auch bei LLMs gilt
- Wegen Jevons Paradoxon und Skalierungsgesetzen glaube ich eher nicht daran
  Wenn größere Modelle immer besser sind, und genau so scheint es zu sein, wird man immer leistungsstarke Hardware brauchen
- Durchbrüche im Computing führen normalerweise nicht zu weniger, sondern zu mehr Computing-Nutzung
- Irgendwann wird es neben GPUs wohl dedizierte Hardware geben, die auf LLMs zugeschnitten ist
  TPUs gibt es zwar, aber sie sind vor allem für Rechenzentren gedacht, und GPUs wurden ursprünglich aus Grafik-Anwendungen adaptiert
  Wenn die Nachfrage aus Rechenzentren nachlässt, könnte die Innovation richtig Fahrt aufnehmen
Hier gibt es einen Aspekt, der nicht viel diskutiert wird
Broadcom-CEO Hock Tan sagte im Interview, dass dieser Beschleuniger im Vergleich zu derzeit üblichen AI-Grafikprozessoren bisher rund 50 % Kostenersparnis zeige [0]
Das Bild verändert sich so schnell und es gibt noch so viele niedrig hängende Früchte, dass Diskussionen darüber, welcher Anbieter einen Burggraben hat oder ob sich Investitionen amortisieren lassen, wenig sinnvoll wirken
[0] - https://www.bloomberg.com/news/articles/2026-06-24/openai-an...
- Wenn die GPU-Margen bei 75 % liegen, ist 50 % günstiger nicht überraschend
- Das Wort „üblich“ leistet hier viel Arbeit
  Es könnte auch Chips meinen, die deutlich älter sind als das, was Nvidia derzeit verkauft
Wenn das Ziel „erste Auslieferung Ende 2026 und danach Skalierung über die folgenden Jahre“ lautet, dann wird das nach dem IPO vermutlich als Versprechen für die Zukunft groß in die IPO-Vertriebsunterlagen geschrieben werden
Ankündigungen vor einem IPO betrachte ich grundsätzlich skeptisch
- Die Erzählung wirkt vor dem IPO wie ein Spielchen, und das Ding sieht aus wie ein Deckel für einen Wäschekorb
  Selbst bei Betrug wäre ich nicht überrascht
- Ich weiß nicht, wessen IPO gemeint ist
  Broadcom und Google sind natürlich bereits börsennotiert
Microsoft, Google und Amazon machen so etwas ebenfalls, aber sie besitzen auch die Hyperscale-Rechenzentrumsinfrastruktur, um solche Chips zu hosten
Einen Chip zu entwerfen und Tape-out zu machen ist ein völlig anderer Stack als Packaging, Kühlung, Bereitstellung, Stromversorgung und Flottenmanagement
Ich frage mich, woher dieser Teil kommen soll
- Stargate darf man nicht vergessen
  Update: Jemand auf Twitter sagte, das werde zu 50:50 von Microsoft und Oracle gehostet
Ich habe früher Opus 4.5 ein auf Verilog basierendes LLM-Inferenz-Engine entwerfen lassen, einschließlich Firmware und automatischer Verifikation: https://github.com/cpldcpu/smollm.c
Natürlich ist das weit von optimal entfernt, aber es hat gezeigt, wie mächtig es ist, von einer höheren Abstraktionsebene bis hinunter zur Implementierung zu gehen
- Ich würde gern wissen, ob jemand ein Tutorial empfehlen kann, mit dem man Verilog und FPGA allgemein lernen kann
  Ich habe noch ein Tang Nano 9k herumliegen, aber ich traue mich nicht, Claude einfach blind per Vibecoding eine Lösung bauen zu lassen, und möchte zumindest ein grundlegendes Verständnis haben

OpenAI stellt mit Broadcom entwickelten ersten eigenen Inferenz-Chip Jalapeño vor

Vorstellung des Jalapeño-Chips

Chip-Struktur und Leistung

Leistung und Effizienz

Funktionsnachweis

9 Monate bis zum Tape-out, beschleunigt durch OpenAI-Modelle

Mehrgenerationen-Plattform und Partner

Kooperationsstruktur

Explodierende Nachfrage

Full-Stack-Strategie und Wettbewerb

Weniger Abhängigkeit von Nvidia

Geschäftliche Bedeutung

Demokratisierung fortschrittlicher AI

Verwandte Beiträge

1 Kommentare

Hacker-News-Kommentare