- Im Large Hadron Collider anfallende gewaltige Datenmengen werden in Echtzeit mit ultrakleinen AI-Modellen, die direkt in Siliziumchips implementiert sind, gefiltert, sodass nur wissenschaftlich relevante Ereignisse ausgewählt werden
- Zur Verarbeitung von Datenströmen von mehreren hundert Terabyte pro Sekunde wird FPGA- und ASIC-basierte Hardware statt GPU oder TPU eingesetzt; Entscheidungen fallen dabei mit Latenzen im Nanosekundenbereich
- Mit dem HLS4ML-Tool werden PyTorch- oder TensorFlow-Modelle in synthetisierbaren C++-Code umgewandelt und direkt auf Chips ausgerollt; eine Lookup-Table-basierte Struktur erzeugt Ausgaben sofort und ohne Gleitkommaoperationen
- Der Level-1 Trigger des LHC besteht aus rund 1.000 FPGAs und bewertet Daten in weniger als 50 Nanosekunden; in nachgelagerten Stufen übernehmen 25.600 CPUs und 400 GPUs weitere Filterungen
- CERN entwickelt mit Blick auf das High-Luminosity-LHC-Upgrade im Jahr 2031 AI-Modelle der nächsten Generation; der Ansatz könnte auch auf autonome Systeme, medizinische Bildgebung und andere Anwendungen mit extrem niedriger Latenz ausgeweitet werden
Überblick
- CERN implementiert ultrakleine AI-Modelle direkt in Siliziumchips, um die gewaltigen Datenmengen aus dem Large Hadron Collider (LHC) in Echtzeit zu filtern
- Aus den Kollisionsdaten werden nur wissenschaftlich bedeutende Ereignisse ausgewählt, der Rest wird sofort verworfen
- Um Datenströme von mehreren hundert Terabyte pro Sekunde zu verarbeiten, kommt maßgeschneiderte Hardware auf Basis von FPGA und ASIC statt GPU oder TPU zum Einsatz
- Diese in Hardware eingebetteten AI-Modelle treffen Entscheidungen bereits auf Detektorebene mit Latenzen im Mikrosekunden- bis Nanosekundenbereich
- Der Echtzeit-Auswahlprozess gilt als eine der rechnerisch anspruchsvollsten Aufgaben der modernen Wissenschaft
Herausforderung der Datenverarbeitung
- Der LHC erzeugt pro Jahr rund 40.000 Exabyte an Rohdaten, was etwa einem Viertel des heutigen gesamten Internets entspricht
- Protonenbündel bewegen sich in dem 27 km langen Ring nahezu mit Lichtgeschwindigkeit und kreuzen sich alle 25 Nanosekunden
- Tatsächliche Kollisionen sind selten, doch bei jeder einzelnen entstehen mehrere Megabyte an Daten
- Da es unmöglich ist, alle Daten zu speichern oder zu verarbeiten, werden nur etwa 0,02 % der Ereignisse aufbewahrt
- Die erste Filterstufe, der Level-1 Trigger, besteht aus rund 1.000 FPGAs und bewertet die Daten in weniger als 50 Nanosekunden
- Der AXOL1TL-Algorithmus läuft direkt auf diesen Chips, identifiziert wissenschaftlich vielversprechende Ereignisse und verwirft den Rest sofort
AI-Ansatz und Technologie-Stack
- Die AI-Modelle von CERN sind als ultrakleine, hocheffiziente Strukturen konzipiert und im Gegensatz zu großen Industriemodellen für Inference mit extrem niedriger Latenz auf Detektorebene optimiert
- Über das Open-Source-Tool HLS4ML werden auf PyTorch oder TensorFlow basierende Modelle in synthetisierbaren C++-Code umgewandelt
- Der umgewandelte Code wird direkt auf FPGA, SoC und ASIC ausgerollt und benötigt deutlich weniger Energie und Siliziumfläche als GPU oder TPU
- Ein erheblicher Teil der Chip-Ressourcen wird nicht für neuronale Netzwerkschichten, sondern für vorab berechnete Lookup Tables genutzt
- Diese Tabellen speichern Ergebnisse typischer Eingabemuster im Voraus und erzeugen für die meisten Detektorsignale sofortige Ausgaben ohne Gleitkommaoperationen
- Diese Hardware-first-Designphilosophie macht Latenzen im Nanosekundenbereich möglich
- Die zweite Filterstufe, der High-Level Trigger, läuft in einer Computing-Farm mit 25.600 CPUs und 400 GPUs
- Selbst nach dem Level-1 Trigger werden weiterhin mehrere Terabyte pro Sekunde verarbeitet und auf etwa 1 Petabyte wissenschaftlicher Daten pro Tag verdichtet
Weitere Pläne
- Der LHC bereitet sich auf das Upgrade zum High-Luminosity LHC (HL-LHC) vor, dessen Inbetriebnahme 2031 geplant ist
- Die Datenmenge pro Kollision soll gegenüber heute um etwa das Zehnfache steigen, auch die Ereignisgrößen werden deutlich wachsen
- CERN arbeitet dafür bereits an Tiny-AI-Modellen der nächsten Generation sowie an der Optimierung der Implementierung auf FPGA und ASIC
- Das gesamte Echtzeit-Trigger-System soll so ausgebaut werden, dass es auch bei deutlich höheren Datenraten ultraniedrige Latenz beibehält
- Diese Vorbereitungen gelten als zentrale Grundlage, um in den kommenden Jahrzehnten weitere neue Entdeckungen in der Teilchenphysik zu ermöglichen
Bedeutung und Auswirkungen
- Während sich die weltweite AI-Industrie auf die Skalierung großer Modelle konzentriert, entwickelt CERN die kleinsten, schnellsten und effizientesten AI-Modelle überhaupt
- Diese Modelle werden direkt auf FPGA und ASIC implementiert und gelten als praktisches Beispiel für „Tiny AI“
- Im Trigger-System des LHC erreichen diese Modelle ein Leistungsniveau, das mit gewöhnlichen AI-Beschleunigern nicht möglich wäre
- In extremen Umgebungen, die Entscheidungen im Nanosekundenbereich erfordern, wird mit minimalen Ressourcen maximale Effizienz erzielt
- Dieser Ansatz könnte über die Teilchenphysik hinaus auch in Bereichen wie autonomen Systemen, Hochfrequenzhandel, medizinischer Bildgebung und Luft- und Raumfahrt Anwendung finden, in denen Echtzeit-Inference mit extrem niedriger Latenz benötigt wird
- In einer Zeit, in der Energieeffizienz und Einsparung von Rechenressourcen immer wichtiger werden, zeigen die Modelle von CERN eine Alternative zu immer größeren Modellen: extreme Spezialisierung und Optimierung auf Hardware-Ebene
1 Kommentare
Hacker-News-Kommentare
Ich bin Autor eines der beiden Modelle in diesem Paper
Zur Klarstellung wegen eines Missverständnisses: Diese Modelle sind nicht direkt in Silizium eingraviert, sondern auf einem FPGA implementiert
Bei axol1tl sind die Gewichte zwar in die Fabric hart verdrahtet, aber es bleibt weiterhin neu programmierbar
Projekte wie CERNs smartpixel oder das HG-Cal-readout laufen tatsächlich auf echtes Silizium als Ziel hinaus
Zugehörige Folien: CERN-Präsentation
Der Freigabeprozess für Papers dauert lange, aber in einigen Monaten soll eine umfassendere Version erscheinen
Das Modell war anfangs ein einfaches VAE-basiertes MLP, und ab v5 wurde ein VICREG-Block hinzugefügt, sodass es bei 40MHz innerhalb von 2 Takten arbeitet
Anschließend wurde es über hls4ml-da4ml und dieses Paper auf FPGA implementiert
Das CICADA-Modell basiert auf einem VAE und destilliert den Score zur Anomalieerkennung per überwachtem Lernen in einer Teacher-Student-Architektur
Referenzfolien: CICADA-Präsentation
Meine Forschung konzentriert sich auf QAT (Quantization-Aware Training) und die Bereitstellung von NNs auf Basis verteilter Arithmetik
Verwandte Papers: arXiv:2405.00645, arXiv:2507.04535
Ich habe in meiner frühen Promotionszeit selbst einmal einen GNN-Beschleuniger auf FPGA umgesetzt und dabei mit Leuten von CERN/Fermilab zusammengearbeitet
Inzwischen habe ich meinen Fokus auf Forschung zu HLS und EDA verlagert, und mich würde interessieren, was derzeit die größten Einschränkungen bei der Umsetzung von Trigger-Systemen in Hardware sind
Bugs in kommerziellen HLS-Tools, die Schwierigkeit beim Debugging und lange Build-Zeiten wirken auf mich wie große Hürden
Ich würde gern wissen, ob EDA-Tooling aus diesen Gründen der Engpass ist oder ob andere technische Faktoren stärker ins Gewicht fallen
Sie verwendeten ein Autoencoder-basiertes neuronales Netz mit Convolution-Layern und trainierten es mit früheren Experimentdaten
Zugehöriges Paper
Der Artikel wäre viel besser gewesen, wenn klarer erklärt worden wäre, welcher AI-Algorithmus verwendet wurde
Tatsächlich verwendet auch der Branch Predictor moderner CPUs Perzeptrons
Schon zu Delphi-Zeiten gab es Papers über ANNs zur Higgs-Selektion, und solche Ansätze führten schließlich weiter zum LHC
Hier ein paar passende Videos
Big Data and AI at the CERN LHC
Nanosecond AI at the Large Hadron Collider
ScyllaDB Tech Talk-Seite
Dieses Projekt läuft bei 40MHz, aber mein Tool CflexHDL erreicht Echtzeit-Raytracing bei 148MHz
Demo-Video
Das Tool wird von der NLnet Foundation unterstützt, und auch eine Integration mit CERN-AI-Tools ist geplant
Ich möchte die Bedeutung von Open-Source-Toolchains betonen
Der Artikel enthält etwas AI-Hype
Im Grunde kann man das als einen Chip mit durch Machine Learning gewonnener hartcodierter Logik sehen
Tatsächlich kommt es eher einer reinen Inferenz-Zustandsmaschine nahe, und wenn sich die Umgebung ändert, braucht es kein Retraining, sondern einen Hardware-Respin
In so einer Situation merkt man deutlich, dass das Wort „AI“ nicht bloß ein schmückendes Etikett ist
Interessant ist, dass hier im Gegensatz zu gewöhnlicher AI das Modell seine Existenzberechtigung erst dadurch beweisen muss, dass es Hardware-Beschränkungen standhält
In einer solchen Umgebung sind nicht nur Latenz, sondern auch Determinismus, Leistungsbudget und Stabilität unter extremer Last noch wichtiger
Die Formulierung „FPGAs wurden in Silizium eingraviert“ klingt seltsam
Falls CERN wirklich ein ASIC tape-outet, wäre das bemerkenswert
Zugehörige Präsentationsfolien
Das ist kein LLM im heutigen Sinn, sondern ein auf FPGA implementiertes neuronales Netz
Ob ein ASIC hier passend wäre, ist fraglich
Danke für das Feedback
Ich habe den Artikel auf die VAE-basierte AXOL1TL-Architektur korrigiert und das zugehörige arXiv-Paper sowie Thea Aarrestads Präsentationsvideo ergänzt
CERN verwendet weiterhin umfangreich GPUs und setzt je nach Situation aktiv auf COTS-GPUs/CPUs