- Jalapeño ist ein auf LLM-Inferenz spezialisierter Beschleuniger und das erste Ergebnis einer gemeinsam mit Broadcom entwickelten mehrgenerationenfähigen Computing-Plattform
- Von Designbeginn bis zum Tape-out der Fertigung vergingen nur 9 Monate; damit gilt es vermutlich als der schnellste ASIC-Entwicklungszyklus in der Geschichte leistungsstarker moderner Halbleiter
- In ersten Tests rund 50 % Kostenersparnis gegenüber gewöhnlichen AI-GPUs, auch die Performance pro Watt liegt deutlich über dem aktuellen Stand der Technik
- Teil einer Full-Stack-Strategie, bei der OpenAI von der Chip-Architektur bis zu Kernel, Speicher und Networking alles selbst entwirft, um die Abhängigkeit von Nvidia-GPUs zu verringern und sich über ein Software-Unternehmen hinaus zu einem AI-Infrastruktur-Anbieter zu entwickeln
- Ab Ende 2026 zusammen mit Partnern wie Microsoft für Gigawatt-Rechenzentren vorgesehen; gewinnt an Bedeutung angesichts des Drucks, vor einem IPO in Höhe von 1 Billion US-Dollar Profitabilität zu belegen
Vorstellung des Jalapeño-Chips
- Am Mittwoch haben OpenAI und Broadcom (NASDAQ: AVGO) OpenAIs ersten Intelligence Processor Jalapeño vorgestellt
- Der Beschleuniger wurde mit Blick auf die Zukunft der LLM-Inferenz entwickelt und ist der erste AI-Beschleuniger einer mehrgenerationenfähigen Computing-Plattform, die beide Unternehmen gemeinsam aufbauen
- Broadcom-Chairman und CEO Hock Tan sowie Präsident Charlie Kawwas überreichten Chip-Samples persönlich an OpenAI-CEO Sam Altman und Präsident Greg Brockman
- Ein wichtiger Schritt in OpenAIs Strategie, über Consumer-Produkte hinaus zu einem AI-Infrastruktur-Anbieter zu werden
Chip-Struktur und Leistung
- Jalapeño ist kein universeller Chip, der aus bestehenden Beschleunigern für AI-Workloads umgebaut wurde, sondern ein Blank-Slate-Design speziell für moderne LLM-Inferenz
- Als ASIC kann er gezielt für bestimmte AI-Aufgaben entworfen werden, ist aber weniger flexibel als Nvidia-GPUs und dafür günstiger
-
Leistung und Effizienz
- In ersten Tests rund 50 % Kostenersparnis gegenüber gewöhnlichen AI-GPUs (Interview mit Hock Tan)
- Die endgültige Leistung wird noch gemessen, die Performance pro Watt liegt jedoch deutlich über dem aktuellen Stand der Technik
- Durch die Reduktion von Datenbewegungen und die Balance von Rechen-, Speicher- und Networking-Ressourcen wird die tatsächliche Auslastung nahe an die theoretische Maximalleistung gebracht
- Auf dem veröffentlichten Chipbild sind 8 HBM-Standorte und ein zentraler Compute-Die zu erkennen
-
Funktionsnachweis
- Engineering-Samples betreiben ML-Workloads bereits mit den für die Serienproduktion vorgesehenen Frequenz- und Leistungswerten, darunter GPT‑5.3‑Codex‑Spark
- Ein detaillierter technischer Bericht soll in den kommenden Monaten veröffentlicht werden
- Broadcoms Silizium-Implementierung und Tomahawk-Networking-Silizium unterstützen die Massenproduktion in großem Maßstab
9 Monate bis zum Tape-out, beschleunigt durch OpenAI-Modelle
- Von den ersten Entwürfen bis zum Tape-out der Fertigung wurde der Chip in nur 9 Monaten gemeinsam entwickelt; damit vermutlich der schnellste ASIC-Entwicklungszyklus in der Geschichte leistungsstarker moderner Halbleiter
- Teile des Design- und Optimierungsprozesses nutzten OpenAIs eigene Modelle; Brockman sagte, es sei „erstaunlich“, wie stark die Modelle die Entwicklung beschleunigt hätten
- Dieselben Modelle, die Nutzern bereitgestellt werden, tragen künftig auch zur Verbesserung der Infrastruktur bei, auf der sie laufen
- Wenn AI Ingenieuren hilft, schneller Chips zu entwerfen, könnte das branchenweit zu niedrigeren Computing-Kosten und breiterem Zugang zu fortschrittlicher AI führen
Mehrgenerationen-Plattform und Partner
- Jalapeño ist der erste Schritt einer mehrgenerationenfähigen Computing-Plattform, deren erste Einsätze für Ende 2026 geplant sind und die in den darauffolgenden Jahren skaliert werden soll
-
Kooperationsstruktur
- OpenAI — Beschleunigerdesign auf Basis eines tiefen Verständnisses der LLM-Grundlagen
- Broadcom — Chip-Implementierung sowie Networking- und Konnektivitätstechnologien
- Celestica — Expertise bei Boards, Racks und Systemintegration
- Im vergangenen Jahr kündigten OpenAI und Broadcom Pläne für maßgeschneiderte Chips für 10 Gigawatt Computing-Leistung an; nun wurde der erste Chip daraus vorgestellt
-
Explodierende Nachfrage
- Broadcom-CEO Hock Tan sagte, dass ab 2026 gemeinsam mit Partnern wie Microsoft Gigawatt-Rechenzentren ermöglicht würden; nach kleinen Prototypen Ende 2026 sei eine Skalierung geplant
- Brockman sagte: „Wir können Computing nicht schnell genug bekommen“, und Tan erklärte, die Nachfrage von sechs Kunden liege auf einem Niveau, das „buchstäblich nicht zu stillen“ sei, und werde 2027 bis 2028 gleich hoch oder noch höher sein
- OpenAIs Hardware-Programmleiter Richard Ho erläuterte, dass die Architektur rund um die für Frontier-AI-Modelle wichtigsten Kernel, Speicherbewegungen, Networking- und Serving-Muster optimiert wurde
Full-Stack-Strategie und Wettbewerb
- OpenAI entwickelt nicht nur Frontier-Modelle und Produkte, sondern entwirft auch die darunterliegende Infrastruktur selbst — einschließlich Chip-Architektur, Kernel, Speichersystem, Networking, Scheduling, Deployment-Systeme und Produkterfahrung
- Damit reiht sich das Unternehmen neben Google (TPU), Amazon (Trainium) und Microsoft (Azure Maia 100) in die Gruppe der Full-Stack-AI-Anbieter mit eigener Siliziumentwicklung ein
-
Weniger Abhängigkeit von Nvidia
- „Niemand will von Nvidia abhängig sein“ (Ben Barringer, Leiter Technology Research bei Quilter Cheviot); der Trend geht zu stärker diversifizierten Chip-Lieferketten
- OpenAI ist zwar einer der größten Nvidia-Kunden, hat aber auch Lieferverträge mit AMD (Instinct MI450-Serie), Cerebras und anderen abgeschlossen
-
Geschäftliche Bedeutung
- Während Nvidia durch die Lieferung zentraler Komponenten für AI-Rechenzentren zum wertvollsten Unternehmen der Welt aufgestiegen ist, unterstreicht dies das Gewinnpotenzial des AI-Infrastrukturmarkts
- Für OpenAI, dem ein IPO mit einer Bewertung von 1 Billion US-Dollar nachgesagt wird, ist die Senkung der Inferenzkosten entscheidend, um enorme Trainingskosten wieder hereinzuholen und Profitabilität zu belegen
- Die Broadcom-Aktie ist seit Anfang 2026 gestiegen und liegt etwa siebenmal so hoch wie Ende 2022, was die positiven Effekte der Zusammenarbeit widerspiegelt
Demokratisierung fortschrittlicher AI
- Inferenz ist der Punkt, an dem AI auf Menschen trifft; Verbesserungen bei Kosten, Geschwindigkeit und Stabilität bedeuten schnellere ChatGPT-Antworten, Codex-Aufgaben ohne Wartezeit, günstigere API-Produkte und stabileren Zugang bei sprunghaft steigender Nachfrage
- Der Schlüssel zur Demokratisierung von AI liegt darin, fortschrittliche Modelle für mehr Menschen im Alltag verfügbar, stabil und bezahlbar zu machen
- Für Studierende, Entwickler, kleine Unternehmen, Forschende und Firmen — also alle, die lernen, bauen und schwierige Probleme lösen wollen — trägt dies dazu bei, Infrastruktur in nützliche Intelligenz zu verwandeln
1 Kommentare
Hacker-News-Kommentare
Ich würde gern mehr Details zu der Aussage sehen, man habe „mit OpenAI-Modellen das Design und die Optimierung beschleunigt“.
So wie es jetzt formuliert ist, wirkt es wie ein Marketing-Slogan, als würde man sagen, die Entwicklung sei dank Microsoft Office oder eines 40-Zoll-5K-LG-Ultrafine-Monitors schneller geworden.
Wenn es wirklich so bedeutend wäre, wie angedeutet, hätte OpenAI das wohl viel stärker hervorgehoben.
Es ist unklar, ob „Design“ den Abschluss des Designs bedeutet und ob „Produktion“ den Produktionsstart, also den Tape-out, meint.
Wenn es vom RTL-Freeze bis zum Tape-out 9 Monate gedauert hat, ist das für einen großen, komplexen 3-nm-Chip ziemlich normal und unter Berücksichtigung unerwarteter Probleme nicht einmal leicht beeindruckend.
Wenn es dagegen vom Konzeptstadium, also von einer Architektur-Blockgrafik ohne RTL, bis zum Tape-out ging, wäre das ein erstaunlicher Zeitplan, und wahrscheinlich liegt die Realität irgendwo dazwischen.
In einer konkreteren Ankündigung müsste man die tatsächlichen technischen Meilensteine und Gates nennen.
Um große Sprachmodelle im Chip-Design-Workflow einzusetzen, braucht man nicht zwingend ein separat spezialisiertes Modell.
Auch in der Designverifikation steckt viel traditionelle Programmierung, sodass große Sprachmodelle dabei helfen können.
Es ist also nicht völlig bedeutungslos, und wenn man heute Open-Source-Software für Chipdesign herunterlädt, kann ein großes Sprachmodell sogar dabei helfen, direkt mit einem kleinen Chip anzufangen.
Die schwierigen Teile dieses Inferenz-Chips hat Broadcom wahrscheinlich schon entworfen, und OpenAI dürfte Broadcom nur die gewünschten Spezifikationen übermittelt haben.
Wahrscheinlich ist er auch ziemlich ähnlich zum Google TPU.
Es heißt, der „Beschleuniger der ersten Generation werde die Performance pro Watt gegenüber dem aktuellen Stand der Technik deutlich steigern“, und ich frage mich, was „deutlich“ hier konkret bedeutet.
Vera Rubin soll Ende dieses Jahres in Massenstückzahlen ausgeliefert werden und voraussichtlich eine 10-fach höhere Energieeffizienz für Inferenz als Blackwell bieten [0].
Selbst wenn bereits Tape-out erfolgt ist, dürften Bugfixes, Chipfertigung, HBM-Zuteilung, Rack-Design, Interconnect und die Bereitstellung im Rechenzentrum mindestens 12 Monate dauern, wahrscheinlich eher länger.
Wenn dieser Chip in großem Umfang in Rechenzentren eingesetzt wird, könnte er bereits mit Vera Rubin Ultra oder Feynman konkurrieren müssen.
Ich persönlich finde, OpenAI hätte nicht in dieses Projekt investieren sollen.
Es ist noch zu früh; wie Anthropic hätte man sich erst auf Modelle konzentrieren und gewinnen sollen und solche Projekte erst angehen, wenn Profitabilität absehbar ist.
In der KI gibt es mit Energie eine harte Obergrenze, und das ist ein Risiko für OpenAI.
Wenn man 1 GW hat, sollte man nur die besten Chips installieren, und wenn Nvidia-Chips besser sind, dann hat dieses Projekt Milliarden von Dollar verschwendet.
[0]https://developer.nvidia.com/blog/scaling-token-factory-reve...
Das Problem ist, dass der Satz auch nur Letzteres bedeuten könnte, aber so formuliert wurde, dass es wie Ersteres klingt, und deshalb ist er schwer vertrauenswürdig.
Es muss nicht unbedingt revolutionär sein; vielleicht hat KI-gestütztes Design einfach gut genug funktioniert, dass sich ein maßgeschneiderter ASIC gelohnt hat.
Im OpenAI-Beitrag fehlt zwar der Hinweis, aber es scheint fast sicher, dass der Chip von TSMC gefertigt wird [1].
Ich war mir nicht sicher, ob Intel damit beauftragt wurde.
Broadcom hat viel Geld verdient, indem es Hardware-Partner für Googles TPU wurde und TSMC-Fertigungskapazität mit Google teilte, und nun scheint es für OpenAI dasselbe zu tun.
Das ist eine wirklich clevere Art, vom KI-Goldrausch zu profitieren.
Ich hoffe nur, dass das damit verdiente Geld nicht dafür verwendet wird, der Softwarebranche wie bei VMWare und Bitnami Geld aus der Tasche zu ziehen.
Ich würde gern einen Inferenz-Chip sehen, bei dem die Gewichte Teil des ROM des Chips sind
Für jedes Gewicht gäbe es einen Multiplikator, und weil es konstant ist, würde das Ganze zu einem einfachen Bündel von Addierern werden; der vollständig pipelineisierte Durchsatz könnte bei einem Token pro Takt liegen
Dann könnte ein Stück Silizium Millionen Nutzer gleichzeitig bedienen, und über den Output-Bus könnten vielleicht 500 Millionen Token pro Sekunde herauskommen
Der Nachteil wäre, dass der Chip enorm groß würde und wohl einen ganzen Wafer einnehmen würde
Defekte auf Wafer-Ebene müssen kein großes Problem sein. Neuronale Netze verkraften es oft, wenn einzelne Gewichte fehlen oder falsch sind
Wegen des hohen Tempos in der Branche würde man vermutlich sehr schnell von Modellgewichten zur Produktion sprinten, 50 Wafer herstellen, sie ein Jahr lang nutzen und sie wegwerfen, wenn das Modell veraltet ist
Dabei wird das Datum, hier der Multiplikationswert, Teil des Prozessors, hier eines Teils der Multiplikationsschaltung
Das Problem „holen und verarbeiten“ wird architektonisch vollständig umgangen
Da die Daten dort sind, wo die Berechnung stattfindet, werden sie nicht bewegt, und es gibt auch keine Latenz
Dieser Ansatz scheint eher für kleine Modelle geeignet zu sein als für Frontier-Modelle. Modelle an der Spitze verändern sich zu schnell
So weit, wie beschrieben, gehen sie nicht; sie haben sehr viele Kerne und sehr viel RAM, aber die Gewichte müssen weiterhin per Software geladen werden und bei großen Modellen in den Chip gestreamt werden
Trotzdem ist es ein Wafer-Scale-Chip
Für viele Aufgaben könnte das Einbetten der Gewichte in ROM gut funktionieren
Ich bin mir nur nicht sicher, ob ein Multiplikator pro Gewicht eine gute Idee ist
Bei einer Quantisierung auf etwa 2 Bit könnte es gehen, ansonsten wäre es womöglich besser, kleine ROMs neben jeden Multiplikator oder jede Zeile zu setzen, damit keine Daten von weit her bewegt werden müssen und N verschiedene Matrixoperationen verarbeitet werden können
Eine andere interessante Idee wäre, DRAM um Zeilen von MAC-Einheiten zu ergänzen und DRAM-Zeilen als Vektoren zu verwenden
Bei einer Zeilengröße von 64 Kbit wären das bei 8-Bit-Gewichten 8K Stück, und man könnte Gewichte und Berechnung auf demselben Chip halten
Ich weiß allerdings nicht, ob man genug Multiplikatoren auf einen Chip bekommt
Systolische Arrays können Zehn- bis Hunderttausende Einheiten haben, die jeweils eine Operation pro Takt ausführen
Es ist spannend, weil es auf Chip-Ebene offenbar noch enorm viel Spielraum für Effizienzverbesserungen gibt
Ich frage mich, wie Taalas zu bewerten ist
Dort heißt es, LLM-Modelle würden buchstäblich in Silizium eingebrannt, mit etwas Onboard-Speicher für Fine-Tuning
Es werden große Vorteile bei Kosten und Latenz beansprucht
Eine sehr schnelle Demo gibt es auf https://chatjimmy.ai/
https://taalas.com/
https://www.reddit.com/r/singularity/comments/1r9frzk/taalas...
Deshalb hat Google schon vor mehr als zehn Jahren mit der Entwicklung von TPUs begonnen
Ich erinnere mich an die Kontroverse, dass Google Gebru entlassen habe wegen einer Arbeit, in der Timnit Gebru die Umweltfolgen von LLMs auf Basis von GPUs berechnete und die TPU-Effizienz ignorierte
Wegen dieser großen Effizienzlücke soll Jeff Dean ziemlich wütend gewesen sein
Damit dürfte es extrem schwer zu verkaufen sein
Die Idee, ein einzelnes Modell in den Chip zu packen, das sich nie ändert, gefällt mir nicht
Ich frage mich, wie viel teurer das Silizium würde, wenn man wiederbeschreibbares ROM für die Gewichte verwenden würde
Damit könnte man Fine-Tuning des Zielmodells ermöglichen und die Sorge mindern, dass das Modell veraltet
Für Coding-Agenten wäre das eine sinnvolle Verbesserung, und in der Robotik könnte es eine vollständige Revolution sein
Ein 8B-Modell ist für allgemeine Zwecke nicht besonders nützlich, kann für bestimmte Einsatzzwecke aber enorme Intelligenz liefern
Der Tesla/Waymo-Konkurrent von Nvidia ist ein 7B-LLM und ein 2B-Diffusionsmodell; wenn man so etwas mit dieser Geschwindigkeit laufen lassen könnte, könnten die Kosten gegenüber bestehenden Lösungen um eine Größenordnung sinken
Man könnte sogar argumentieren, dass wir diesem Punkt schon nahe sind
Hyperscaler wie AWS würden solche Chips gut nutzen, um Modelle anzubieten, die über Jahre relevant bleiben
Im Moment springen die Modellqualitäten jedoch gerade bei Open-Weight-Modellen wie Deepseek/Kimi/GLM alle paar Monate stark nach vorn
Bis dahin ist schwer zu erkennen, wie dieser Ansatz im Vergleich zu allgemeiner Hardware kosteneffizient sein soll
Außerdem dürften kleine Versionen davon in mobile Hardware eingebaut werden und dort sehr schnelle und effiziente On-Device-LLMs ermöglichen
Ziemlich große Bewegung
Google scheint mit den TPUs etwa bei der 7. Generation angekommen zu sein, und wenn man sogar abgeleitete Versuche wie LPUs oder die Wafer Scale Engine von Cerebras mitdenkt, wirkt es so, als hätte man dort deutlich mehr Weitsicht gehabt
Der erste Eindruck ist allerdings, dass dieser Chip nicht auf Training, sondern auf Inferenz abzielt, und das ist ebenfalls eine interessante Entscheidung
Inferenz dagegen verursacht fortlaufend Kosten und verbraucht mit der Zeit weitaus mehr Ressourcen, daher ist es langfristig vorteilhafter, sich darauf zu konzentrieren, sie deutlich effizienter zu machen
Nvidia ist der König allgemeiner Trainingschips, aber Inferenz kann man spezialisieren
Das Kontextfenster ist klein und das Modell veraltet
Trotzdem wäre es schön, wenn das weiter verbessert würde, sodass man GPT 5.5 mit 1000 Token pro Sekunde nutzen könnte
Die Formulierung ist vage, aber TPU erhebt ähnliche Ansprüche
Das Memo von Google „We have no moat“ halte ich weiterhin für zutreffend. Falls nicht bekannt, siehe https://newsletter.semianalysis.com/p/google-we-have-no-moat...
Der aktuelle Verlauf ähnelt zunehmend eher dem Hardware-Wettbewerb von IBM, DEC, Cray und Sun in den 60er bis 90er Jahren
Geschichte wiederholt sich nicht, aber sie reimt sich, und auch diese Bemühungen scheinen einer ähnlichen Spur zu folgen
Wenn man das Tempo der AI-Entwicklung und die Tatsache betrachtet, dass AI dabei hilft, schnellere und bessere AI zu bauen, frage ich mich weiterhin, ob solche Hardware vor einer nennenswerten Amortisierung schon veraltet sein wird
Schon jetzt lassen sich riesige AI-Modelle durch Quantisierung und Offloading mit weniger Ressourcen betreiben, aber das ist erst der Anfang
Irgendwann, vielleicht gar nicht in allzu ferner Zukunft, könnte es einen Durchbruch geben, der es ermöglicht, ein riesiges LLM der 200B-Klasse auf einem fünf Jahre alten Dell-Desktop gut laufen zu lassen
Das klingt verrückt, aber man sollte sich die Größe früher Festplatten ansehen
Das IBM 350 speicherte 3,5 MB auf einer Festplatte mit 50 Plattern von 24 Zoll Durchmesser und wurde zu heutigen Preisen für 35.000 Dollar vermietet
https://www.computerhistory.org/storageengine/first-commerci...
Vergleiche das mit einer Multi-Terabyte-SSD und übertrage dieselbe Verbesserung auf aktuelle LLM-Architekturen und ihre Ausführung
Mit zusätzlicher Hilfe durch AI könnte es bald einen Sprung geben, und Rechenzentren voller aktueller Nvidia-Karten könnten fast über Nacht veraltet wirken
Das IBM 350 wurde vor 70 Jahren kommerzialisiert, und es hat 70 Jahre gedauert, bis man es sinnvoll mit einer Multi-TB-SSD vergleichen kann
Außerdem ist nicht garantiert, dass Moores Gesetz in den kommenden Jahrzehnten auch bei LLMs gilt
Wenn größere Modelle immer besser sind, und genau so scheint es zu sein, wird man immer leistungsstarke Hardware brauchen
TPUs gibt es zwar, aber sie sind vor allem für Rechenzentren gedacht, und GPUs wurden ursprünglich aus Grafik-Anwendungen adaptiert
Wenn die Nachfrage aus Rechenzentren nachlässt, könnte die Innovation richtig Fahrt aufnehmen
Hier gibt es einen Aspekt, der nicht viel diskutiert wird
Broadcom-CEO Hock Tan sagte im Interview, dass dieser Beschleuniger im Vergleich zu derzeit üblichen AI-Grafikprozessoren bisher rund 50 % Kostenersparnis zeige [0]
Das Bild verändert sich so schnell und es gibt noch so viele niedrig hängende Früchte, dass Diskussionen darüber, welcher Anbieter einen Burggraben hat oder ob sich Investitionen amortisieren lassen, wenig sinnvoll wirken
[0] - https://www.bloomberg.com/news/articles/2026-06-24/openai-an...
Es könnte auch Chips meinen, die deutlich älter sind als das, was Nvidia derzeit verkauft
Wenn das Ziel „erste Auslieferung Ende 2026 und danach Skalierung über die folgenden Jahre“ lautet, dann wird das nach dem IPO vermutlich als Versprechen für die Zukunft groß in die IPO-Vertriebsunterlagen geschrieben werden
Ankündigungen vor einem IPO betrachte ich grundsätzlich skeptisch
Selbst bei Betrug wäre ich nicht überrascht
Broadcom und Google sind natürlich bereits börsennotiert
Microsoft, Google und Amazon machen so etwas ebenfalls, aber sie besitzen auch die Hyperscale-Rechenzentrumsinfrastruktur, um solche Chips zu hosten
Einen Chip zu entwerfen und Tape-out zu machen ist ein völlig anderer Stack als Packaging, Kühlung, Bereitstellung, Stromversorgung und Flottenmanagement
Ich frage mich, woher dieser Teil kommen soll
Update: Jemand auf Twitter sagte, das werde zu 50:50 von Microsoft und Oracle gehostet
Ich habe früher Opus 4.5 ein auf Verilog basierendes LLM-Inferenz-Engine entwerfen lassen, einschließlich Firmware und automatischer Verifikation: https://github.com/cpldcpu/smollm.c
Natürlich ist das weit von optimal entfernt, aber es hat gezeigt, wie mächtig es ist, von einer höheren Abstraktionsebene bis hinunter zur Implementierung zu gehen
Ich habe noch ein Tang Nano 9k herumliegen, aber ich traue mich nicht, Claude einfach blind per Vibecoding eine Lösung bauen zu lassen, und möchte zumindest ein grundlegendes Verständnis haben