CERN filtert LHC-Daten in Echtzeit mit in FPGAs eingebetteten Tiny-AI-Modellen

(theopenreader.org)

8 Punkte von GN⁺ 2026-03-30 | 1 Kommentare | Auf WhatsApp teilen

Im Large Hadron Collider anfallende gewaltige Datenmengen werden in Echtzeit mit ultrakleinen AI-Modellen, die direkt in Siliziumchips implementiert sind, gefiltert, sodass nur wissenschaftlich relevante Ereignisse ausgewählt werden
Zur Verarbeitung von Datenströmen von mehreren hundert Terabyte pro Sekunde wird FPGA- und ASIC-basierte Hardware statt GPU oder TPU eingesetzt; Entscheidungen fallen dabei mit Latenzen im Nanosekundenbereich
Mit dem HLS4ML-Tool werden PyTorch- oder TensorFlow-Modelle in synthetisierbaren C++-Code umgewandelt und direkt auf Chips ausgerollt; eine Lookup-Table-basierte Struktur erzeugt Ausgaben sofort und ohne Gleitkommaoperationen
Der Level-1 Trigger des LHC besteht aus rund 1.000 FPGAs und bewertet Daten in weniger als 50 Nanosekunden; in nachgelagerten Stufen übernehmen 25.600 CPUs und 400 GPUs weitere Filterungen
CERN entwickelt mit Blick auf das High-Luminosity-LHC-Upgrade im Jahr 2031 AI-Modelle der nächsten Generation; der Ansatz könnte auch auf autonome Systeme, medizinische Bildgebung und andere Anwendungen mit extrem niedriger Latenz ausgeweitet werden

Überblick

CERN implementiert ultrakleine AI-Modelle direkt in Siliziumchips, um die gewaltigen Datenmengen aus dem Large Hadron Collider (LHC) in Echtzeit zu filtern
- Aus den Kollisionsdaten werden nur wissenschaftlich bedeutende Ereignisse ausgewählt, der Rest wird sofort verworfen
- Um Datenströme von mehreren hundert Terabyte pro Sekunde zu verarbeiten, kommt maßgeschneiderte Hardware auf Basis von FPGA und ASIC statt GPU oder TPU zum Einsatz
Diese in Hardware eingebetteten AI-Modelle treffen Entscheidungen bereits auf Detektorebene mit Latenzen im Mikrosekunden- bis Nanosekundenbereich
- Der Echtzeit-Auswahlprozess gilt als eine der rechnerisch anspruchsvollsten Aufgaben der modernen Wissenschaft

Herausforderung der Datenverarbeitung

Der LHC erzeugt pro Jahr rund 40.000 Exabyte an Rohdaten, was etwa einem Viertel des heutigen gesamten Internets entspricht
- Protonenbündel bewegen sich in dem 27 km langen Ring nahezu mit Lichtgeschwindigkeit und kreuzen sich alle 25 Nanosekunden
- Tatsächliche Kollisionen sind selten, doch bei jeder einzelnen entstehen mehrere Megabyte an Daten
Da es unmöglich ist, alle Daten zu speichern oder zu verarbeiten, werden nur etwa 0,02 % der Ereignisse aufbewahrt
- Die erste Filterstufe, der Level-1 Trigger, besteht aus rund 1.000 FPGAs und bewertet die Daten in weniger als 50 Nanosekunden
- Der AXOL1TL-Algorithmus läuft direkt auf diesen Chips, identifiziert wissenschaftlich vielversprechende Ereignisse und verwirft den Rest sofort

AI-Ansatz und Technologie-Stack

Die AI-Modelle von CERN sind als ultrakleine, hocheffiziente Strukturen konzipiert und im Gegensatz zu großen Industriemodellen für Inference mit extrem niedriger Latenz auf Detektorebene optimiert
- Über das Open-Source-Tool HLS4ML werden auf PyTorch oder TensorFlow basierende Modelle in synthetisierbaren C++-Code umgewandelt
- Der umgewandelte Code wird direkt auf FPGA, SoC und ASIC ausgerollt und benötigt deutlich weniger Energie und Siliziumfläche als GPU oder TPU
Ein erheblicher Teil der Chip-Ressourcen wird nicht für neuronale Netzwerkschichten, sondern für vorab berechnete Lookup Tables genutzt
- Diese Tabellen speichern Ergebnisse typischer Eingabemuster im Voraus und erzeugen für die meisten Detektorsignale sofortige Ausgaben ohne Gleitkommaoperationen
- Diese Hardware-first-Designphilosophie macht Latenzen im Nanosekundenbereich möglich
Die zweite Filterstufe, der High-Level Trigger, läuft in einer Computing-Farm mit 25.600 CPUs und 400 GPUs
- Selbst nach dem Level-1 Trigger werden weiterhin mehrere Terabyte pro Sekunde verarbeitet und auf etwa 1 Petabyte wissenschaftlicher Daten pro Tag verdichtet

Weitere Pläne

Der LHC bereitet sich auf das Upgrade zum High-Luminosity LHC (HL-LHC) vor, dessen Inbetriebnahme 2031 geplant ist
- Die Datenmenge pro Kollision soll gegenüber heute um etwa das Zehnfache steigen, auch die Ereignisgrößen werden deutlich wachsen
CERN arbeitet dafür bereits an Tiny-AI-Modellen der nächsten Generation sowie an der Optimierung der Implementierung auf FPGA und ASIC
- Das gesamte Echtzeit-Trigger-System soll so ausgebaut werden, dass es auch bei deutlich höheren Datenraten ultraniedrige Latenz beibehält
Diese Vorbereitungen gelten als zentrale Grundlage, um in den kommenden Jahrzehnten weitere neue Entdeckungen in der Teilchenphysik zu ermöglichen

Bedeutung und Auswirkungen

Während sich die weltweite AI-Industrie auf die Skalierung großer Modelle konzentriert, entwickelt CERN die kleinsten, schnellsten und effizientesten AI-Modelle überhaupt
- Diese Modelle werden direkt auf FPGA und ASIC implementiert und gelten als praktisches Beispiel für „Tiny AI“
Im Trigger-System des LHC erreichen diese Modelle ein Leistungsniveau, das mit gewöhnlichen AI-Beschleunigern nicht möglich wäre
- In extremen Umgebungen, die Entscheidungen im Nanosekundenbereich erfordern, wird mit minimalen Ressourcen maximale Effizienz erzielt
Dieser Ansatz könnte über die Teilchenphysik hinaus auch in Bereichen wie autonomen Systemen, Hochfrequenzhandel, medizinischer Bildgebung und Luft- und Raumfahrt Anwendung finden, in denen Echtzeit-Inference mit extrem niedriger Latenz benötigt wird
- In einer Zeit, in der Energieeffizienz und Einsparung von Rechenressourcen immer wichtiger werden, zeigen die Modelle von CERN eine Alternative zu immer größeren Modellen: extreme Spezialisierung und Optimierung auf Hardware-Ebene

1 Kommentare

GN⁺ 2026-03-30

Hacker-News-Kommentare

Ich bin Autor eines der beiden Modelle in diesem Paper
Zur Klarstellung wegen eines Missverständnisses: Diese Modelle sind nicht direkt in Silizium eingraviert, sondern auf einem FPGA implementiert
Bei axol1tl sind die Gewichte zwar in die Fabric hart verdrahtet, aber es bleibt weiterhin neu programmierbar
Projekte wie CERNs smartpixel oder das HG-Cal-readout laufen tatsächlich auf echtes Silizium als Ziel hinaus
Zugehörige Folien: CERN-Präsentation
Der Freigabeprozess für Papers dauert lange, aber in einigen Monaten soll eine umfassendere Version erscheinen
Das Modell war anfangs ein einfaches VAE-basiertes MLP, und ab v5 wurde ein VICREG-Block hinzugefügt, sodass es bei 40MHz innerhalb von 2 Takten arbeitet
Anschließend wurde es über hls4ml-da4ml und dieses Paper auf FPGA implementiert
Das CICADA-Modell basiert auf einem VAE und destilliert den Score zur Anomalieerkennung per überwachtem Lernen in einer Teacher-Student-Architektur
Referenzfolien: CICADA-Präsentation
Meine Forschung konzentriert sich auf QAT (Quantization-Aware Training) und die Bereitstellung von NNs auf Basis verteilter Arithmetik
Verwandte Papers: arXiv:2405.00645, arXiv:2507.04535
- Wirklich spannende Arbeit
  Ich habe in meiner frühen Promotionszeit selbst einmal einen GNN-Beschleuniger auf FPGA umgesetzt und dabei mit Leuten von CERN/Fermilab zusammengearbeitet
  Inzwischen habe ich meinen Fokus auf Forschung zu HLS und EDA verlagert, und mich würde interessieren, was derzeit die größten Einschränkungen bei der Umsetzung von Trigger-Systemen in Hardware sind
  Bugs in kommerziellen HLS-Tools, die Schwierigkeit beim Debugging und lange Build-Zeiten wirken auf mich wie große Hürden
  Ich würde gern wissen, ob EDA-Tooling aus diesen Gründen der Engpass ist oder ob andere technische Faktoren stärker ins Gewicht fallen
Sie verwendeten ein Autoencoder-basiertes neuronales Netz mit Convolution-Layern und trainierten es mit früheren Experimentdaten
Zugehöriges Paper
Der Artikel wäre viel besser gewesen, wenn klarer erklärt worden wäre, welcher AI-Algorithmus verwendet wurde
- Inzwischen bedeutet „AI-Modell“ oft faktisch schon lineare Regression
- Da der Großteil der Implementierung FPGA-basiert ist, wirkt die Formulierung „in Silizium eingraviert“ übertrieben
- Wenn es kein LLM ist, bekommt es offenbar keine Aufmerksamkeit, daher ist es schade, dass das Wort „AI“ als Marketingmittel verwendet wird
- In technischen Artikeln den Kernalgorithmus auszulassen, ist wirklich frustrierend
- Als ich verstanden hatte, dass es letztlich um Anomalieerkennung (anomaly detection) ging, war der Zusammenhang viel leichter nachzuvollziehen
Tatsächlich verwendet auch der Branch Predictor moderner CPUs Perzeptrons
- Als Beispiele kann man diesen Artikel über ein NN im Samsung-Galaxy-S7-Chip und dieses IEEE-Paper ansehen
- Mir war nicht klar, dass es solche Strukturen gibt; ich würde gern mehr darüber erfahren, wie sie entworfen und trainiert werden
- Schade, dass „AI“ heute oft so verwendet wird, als bedeute es: „Wir kannten das Problem nicht, also haben wir einfach eine Black Box darauf geworfen“
- Ein Perzeptron ist letztlich nur ein linearer Prädiktor und damit recht einfach
- Im HEP-Bereich werden seit Jahrzehnten bereits FPGAs für L0-Trigger eingesetzt
  Schon zu Delphi-Zeiten gab es Papers über ANNs zur Higgs-Selektion, und solche Ansätze führten schließlich weiter zum LHC
Hier ein paar passende Videos
Big Data and AI at the CERN LHC
Nanosecond AI at the Large Hadron Collider
ScyllaDB Tech Talk-Seite
Dieses Projekt läuft bei 40MHz, aber mein Tool CflexHDL erreicht Echtzeit-Raytracing bei 148MHz
Demo-Video
Das Tool wird von der NLnet Foundation unterstützt, und auch eine Integration mit CERN-AI-Tools ist geplant
Ich möchte die Bedeutung von Open-Source-Toolchains betonen
Der Artikel enthält etwas AI-Hype
Im Grunde kann man das als einen Chip mit durch Machine Learning gewonnener hartcodierter Logik sehen
- ML ist schon immer ein Teil von AI gewesen und kein Konzept, das erst nach ChatGPT entstanden ist
- Auch die Gewichte eines LLM enthalten letztlich gelernte Logik
- Die Bezeichnung „AI“ klingt nach Marketing
  Tatsächlich kommt es eher einer reinen Inferenz-Zustandsmaschine nahe, und wenn sich die Umgebung ändert, braucht es kein Retraining, sondern einen Hardware-Respin
  In so einer Situation merkt man deutlich, dass das Wort „AI“ nicht bloß ein schmückendes Etikett ist
Interessant ist, dass hier im Gegensatz zu gewöhnlicher AI das Modell seine Existenzberechtigung erst dadurch beweisen muss, dass es Hardware-Beschränkungen standhält
In einer solchen Umgebung sind nicht nur Latenz, sondern auch Determinismus, Leistungsbudget und Stabilität unter extremer Last noch wichtiger
Die Formulierung „FPGAs wurden in Silizium eingraviert“ klingt seltsam
Falls CERN wirklich ein ASIC tape-outet, wäre das bemerkenswert
- Tatsächlich entwirft CERN kundenspezifische ASICs für andere Zwecke
  Zugehörige Präsentationsfolien
- Vielleicht wurde die Fertigung auch an einen externen Anbieter ausgelagert
- Am Ende wurde der Titel des Artikels offenbar korrigiert
Das ist kein LLM im heutigen Sinn, sondern ein auf FPGA implementiertes neuronales Netz
- Das Marketing der LLM-Firmen ist inzwischen so stark, dass ich zuerst auch in diese Richtung gedacht habe
- Bei einem FPGA ist die Formulierung „in Silizium eingraviert“ ungenau
  Ob ein ASIC hier passend wäre, ist fraglich
Danke für das Feedback
Ich habe den Artikel auf die VAE-basierte AXOL1TL-Architektur korrigiert und das zugehörige arXiv-Paper sowie Thea Aarrestads Präsentationsvideo ergänzt
- Der Satz „CERN hat GPU-/TPU-basierte AI aufgegeben“ entspricht allerdings nicht den Fakten
  CERN verwendet weiterhin umfangreich GPUs und setzt je nach Situation aktiv auf COTS-GPUs/CPUs

CERN filtert LHC-Daten in Echtzeit mit in FPGAs eingebetteten Tiny-AI-Modellen

Überblick

Herausforderung der Datenverarbeitung

AI-Ansatz und Technologie-Stack

Weitere Pläne

Bedeutung und Auswirkungen

Verwandte Beiträge

1 Kommentare

Hacker-News-Kommentare