8 Punkte von GN⁺ 2026-03-30 | 1 Kommentare | Auf WhatsApp teilen
  • Im Large Hadron Collider anfallende gewaltige Datenmengen werden in Echtzeit mit ultrakleinen AI-Modellen, die direkt in Siliziumchips implementiert sind, gefiltert, sodass nur wissenschaftlich relevante Ereignisse ausgewählt werden
  • Zur Verarbeitung von Datenströmen von mehreren hundert Terabyte pro Sekunde wird FPGA- und ASIC-basierte Hardware statt GPU oder TPU eingesetzt; Entscheidungen fallen dabei mit Latenzen im Nanosekundenbereich
  • Mit dem HLS4ML-Tool werden PyTorch- oder TensorFlow-Modelle in synthetisierbaren C++-Code umgewandelt und direkt auf Chips ausgerollt; eine Lookup-Table-basierte Struktur erzeugt Ausgaben sofort und ohne Gleitkommaoperationen
  • Der Level-1 Trigger des LHC besteht aus rund 1.000 FPGAs und bewertet Daten in weniger als 50 Nanosekunden; in nachgelagerten Stufen übernehmen 25.600 CPUs und 400 GPUs weitere Filterungen
  • CERN entwickelt mit Blick auf das High-Luminosity-LHC-Upgrade im Jahr 2031 AI-Modelle der nächsten Generation; der Ansatz könnte auch auf autonome Systeme, medizinische Bildgebung und andere Anwendungen mit extrem niedriger Latenz ausgeweitet werden

Überblick

  • CERN implementiert ultrakleine AI-Modelle direkt in Siliziumchips, um die gewaltigen Datenmengen aus dem Large Hadron Collider (LHC) in Echtzeit zu filtern
    • Aus den Kollisionsdaten werden nur wissenschaftlich bedeutende Ereignisse ausgewählt, der Rest wird sofort verworfen
    • Um Datenströme von mehreren hundert Terabyte pro Sekunde zu verarbeiten, kommt maßgeschneiderte Hardware auf Basis von FPGA und ASIC statt GPU oder TPU zum Einsatz
  • Diese in Hardware eingebetteten AI-Modelle treffen Entscheidungen bereits auf Detektorebene mit Latenzen im Mikrosekunden- bis Nanosekundenbereich
    • Der Echtzeit-Auswahlprozess gilt als eine der rechnerisch anspruchsvollsten Aufgaben der modernen Wissenschaft

Herausforderung der Datenverarbeitung

  • Der LHC erzeugt pro Jahr rund 40.000 Exabyte an Rohdaten, was etwa einem Viertel des heutigen gesamten Internets entspricht
    • Protonenbündel bewegen sich in dem 27 km langen Ring nahezu mit Lichtgeschwindigkeit und kreuzen sich alle 25 Nanosekunden
    • Tatsächliche Kollisionen sind selten, doch bei jeder einzelnen entstehen mehrere Megabyte an Daten
  • Da es unmöglich ist, alle Daten zu speichern oder zu verarbeiten, werden nur etwa 0,02 % der Ereignisse aufbewahrt
    • Die erste Filterstufe, der Level-1 Trigger, besteht aus rund 1.000 FPGAs und bewertet die Daten in weniger als 50 Nanosekunden
    • Der AXOL1TL-Algorithmus läuft direkt auf diesen Chips, identifiziert wissenschaftlich vielversprechende Ereignisse und verwirft den Rest sofort

AI-Ansatz und Technologie-Stack

  • Die AI-Modelle von CERN sind als ultrakleine, hocheffiziente Strukturen konzipiert und im Gegensatz zu großen Industriemodellen für Inference mit extrem niedriger Latenz auf Detektorebene optimiert
    • Über das Open-Source-Tool HLS4ML werden auf PyTorch oder TensorFlow basierende Modelle in synthetisierbaren C++-Code umgewandelt
    • Der umgewandelte Code wird direkt auf FPGA, SoC und ASIC ausgerollt und benötigt deutlich weniger Energie und Siliziumfläche als GPU oder TPU
  • Ein erheblicher Teil der Chip-Ressourcen wird nicht für neuronale Netzwerkschichten, sondern für vorab berechnete Lookup Tables genutzt
    • Diese Tabellen speichern Ergebnisse typischer Eingabemuster im Voraus und erzeugen für die meisten Detektorsignale sofortige Ausgaben ohne Gleitkommaoperationen
    • Diese Hardware-first-Designphilosophie macht Latenzen im Nanosekundenbereich möglich
  • Die zweite Filterstufe, der High-Level Trigger, läuft in einer Computing-Farm mit 25.600 CPUs und 400 GPUs
    • Selbst nach dem Level-1 Trigger werden weiterhin mehrere Terabyte pro Sekunde verarbeitet und auf etwa 1 Petabyte wissenschaftlicher Daten pro Tag verdichtet

Weitere Pläne

  • Der LHC bereitet sich auf das Upgrade zum High-Luminosity LHC (HL-LHC) vor, dessen Inbetriebnahme 2031 geplant ist
    • Die Datenmenge pro Kollision soll gegenüber heute um etwa das Zehnfache steigen, auch die Ereignisgrößen werden deutlich wachsen
  • CERN arbeitet dafür bereits an Tiny-AI-Modellen der nächsten Generation sowie an der Optimierung der Implementierung auf FPGA und ASIC
    • Das gesamte Echtzeit-Trigger-System soll so ausgebaut werden, dass es auch bei deutlich höheren Datenraten ultraniedrige Latenz beibehält
  • Diese Vorbereitungen gelten als zentrale Grundlage, um in den kommenden Jahrzehnten weitere neue Entdeckungen in der Teilchenphysik zu ermöglichen

Bedeutung und Auswirkungen

  • Während sich die weltweite AI-Industrie auf die Skalierung großer Modelle konzentriert, entwickelt CERN die kleinsten, schnellsten und effizientesten AI-Modelle überhaupt
    • Diese Modelle werden direkt auf FPGA und ASIC implementiert und gelten als praktisches Beispiel für „Tiny AI“
  • Im Trigger-System des LHC erreichen diese Modelle ein Leistungsniveau, das mit gewöhnlichen AI-Beschleunigern nicht möglich wäre
    • In extremen Umgebungen, die Entscheidungen im Nanosekundenbereich erfordern, wird mit minimalen Ressourcen maximale Effizienz erzielt
  • Dieser Ansatz könnte über die Teilchenphysik hinaus auch in Bereichen wie autonomen Systemen, Hochfrequenzhandel, medizinischer Bildgebung und Luft- und Raumfahrt Anwendung finden, in denen Echtzeit-Inference mit extrem niedriger Latenz benötigt wird
    • In einer Zeit, in der Energieeffizienz und Einsparung von Rechenressourcen immer wichtiger werden, zeigen die Modelle von CERN eine Alternative zu immer größeren Modellen: extreme Spezialisierung und Optimierung auf Hardware-Ebene

1 Kommentare

 
GN⁺ 2026-03-30
Hacker-News-Kommentare
  • Ich bin Autor eines der beiden Modelle in diesem Paper
    Zur Klarstellung wegen eines Missverständnisses: Diese Modelle sind nicht direkt in Silizium eingraviert, sondern auf einem FPGA implementiert
    Bei axol1tl sind die Gewichte zwar in die Fabric hart verdrahtet, aber es bleibt weiterhin neu programmierbar
    Projekte wie CERNs smartpixel oder das HG-Cal-readout laufen tatsächlich auf echtes Silizium als Ziel hinaus
    Zugehörige Folien: CERN-Präsentation
    Der Freigabeprozess für Papers dauert lange, aber in einigen Monaten soll eine umfassendere Version erscheinen
    Das Modell war anfangs ein einfaches VAE-basiertes MLP, und ab v5 wurde ein VICREG-Block hinzugefügt, sodass es bei 40MHz innerhalb von 2 Takten arbeitet
    Anschließend wurde es über hls4ml-da4ml und dieses Paper auf FPGA implementiert
    Das CICADA-Modell basiert auf einem VAE und destilliert den Score zur Anomalieerkennung per überwachtem Lernen in einer Teacher-Student-Architektur
    Referenzfolien: CICADA-Präsentation
    Meine Forschung konzentriert sich auf QAT (Quantization-Aware Training) und die Bereitstellung von NNs auf Basis verteilter Arithmetik
    Verwandte Papers: arXiv:2405.00645, arXiv:2507.04535

    • Wirklich spannende Arbeit
      Ich habe in meiner frühen Promotionszeit selbst einmal einen GNN-Beschleuniger auf FPGA umgesetzt und dabei mit Leuten von CERN/Fermilab zusammengearbeitet
      Inzwischen habe ich meinen Fokus auf Forschung zu HLS und EDA verlagert, und mich würde interessieren, was derzeit die größten Einschränkungen bei der Umsetzung von Trigger-Systemen in Hardware sind
      Bugs in kommerziellen HLS-Tools, die Schwierigkeit beim Debugging und lange Build-Zeiten wirken auf mich wie große Hürden
      Ich würde gern wissen, ob EDA-Tooling aus diesen Gründen der Engpass ist oder ob andere technische Faktoren stärker ins Gewicht fallen
  • Sie verwendeten ein Autoencoder-basiertes neuronales Netz mit Convolution-Layern und trainierten es mit früheren Experimentdaten
    Zugehöriges Paper
    Der Artikel wäre viel besser gewesen, wenn klarer erklärt worden wäre, welcher AI-Algorithmus verwendet wurde

    • Inzwischen bedeutet „AI-Modell“ oft faktisch schon lineare Regression
    • Da der Großteil der Implementierung FPGA-basiert ist, wirkt die Formulierung „in Silizium eingraviert“ übertrieben
    • Wenn es kein LLM ist, bekommt es offenbar keine Aufmerksamkeit, daher ist es schade, dass das Wort „AI“ als Marketingmittel verwendet wird
    • In technischen Artikeln den Kernalgorithmus auszulassen, ist wirklich frustrierend
    • Als ich verstanden hatte, dass es letztlich um Anomalieerkennung (anomaly detection) ging, war der Zusammenhang viel leichter nachzuvollziehen
  • Tatsächlich verwendet auch der Branch Predictor moderner CPUs Perzeptrons

    • Als Beispiele kann man diesen Artikel über ein NN im Samsung-Galaxy-S7-Chip und dieses IEEE-Paper ansehen
    • Mir war nicht klar, dass es solche Strukturen gibt; ich würde gern mehr darüber erfahren, wie sie entworfen und trainiert werden
    • Schade, dass „AI“ heute oft so verwendet wird, als bedeute es: „Wir kannten das Problem nicht, also haben wir einfach eine Black Box darauf geworfen“
    • Ein Perzeptron ist letztlich nur ein linearer Prädiktor und damit recht einfach
    • Im HEP-Bereich werden seit Jahrzehnten bereits FPGAs für L0-Trigger eingesetzt
      Schon zu Delphi-Zeiten gab es Papers über ANNs zur Higgs-Selektion, und solche Ansätze führten schließlich weiter zum LHC
  • Hier ein paar passende Videos
    Big Data and AI at the CERN LHC
    Nanosecond AI at the Large Hadron Collider
    ScyllaDB Tech Talk-Seite

  • Dieses Projekt läuft bei 40MHz, aber mein Tool CflexHDL erreicht Echtzeit-Raytracing bei 148MHz
    Demo-Video
    Das Tool wird von der NLnet Foundation unterstützt, und auch eine Integration mit CERN-AI-Tools ist geplant
    Ich möchte die Bedeutung von Open-Source-Toolchains betonen

  • Der Artikel enthält etwas AI-Hype
    Im Grunde kann man das als einen Chip mit durch Machine Learning gewonnener hartcodierter Logik sehen

    • ML ist schon immer ein Teil von AI gewesen und kein Konzept, das erst nach ChatGPT entstanden ist
    • Auch die Gewichte eines LLM enthalten letztlich gelernte Logik
    • Die Bezeichnung „AI“ klingt nach Marketing
      Tatsächlich kommt es eher einer reinen Inferenz-Zustandsmaschine nahe, und wenn sich die Umgebung ändert, braucht es kein Retraining, sondern einen Hardware-Respin
      In so einer Situation merkt man deutlich, dass das Wort „AI“ nicht bloß ein schmückendes Etikett ist
  • Interessant ist, dass hier im Gegensatz zu gewöhnlicher AI das Modell seine Existenzberechtigung erst dadurch beweisen muss, dass es Hardware-Beschränkungen standhält
    In einer solchen Umgebung sind nicht nur Latenz, sondern auch Determinismus, Leistungsbudget und Stabilität unter extremer Last noch wichtiger

  • Die Formulierung „FPGAs wurden in Silizium eingraviert“ klingt seltsam
    Falls CERN wirklich ein ASIC tape-outet, wäre das bemerkenswert

    • Tatsächlich entwirft CERN kundenspezifische ASICs für andere Zwecke
      Zugehörige Präsentationsfolien
    • Vielleicht wurde die Fertigung auch an einen externen Anbieter ausgelagert
    • Am Ende wurde der Titel des Artikels offenbar korrigiert
  • Das ist kein LLM im heutigen Sinn, sondern ein auf FPGA implementiertes neuronales Netz

    • Das Marketing der LLM-Firmen ist inzwischen so stark, dass ich zuerst auch in diese Richtung gedacht habe
    • Bei einem FPGA ist die Formulierung „in Silizium eingraviert“ ungenau
      Ob ein ASIC hier passend wäre, ist fraglich
  • Danke für das Feedback
    Ich habe den Artikel auf die VAE-basierte AXOL1TL-Architektur korrigiert und das zugehörige arXiv-Paper sowie Thea Aarrestads Präsentationsvideo ergänzt

    • Der Satz „CERN hat GPU-/TPU-basierte AI aufgegeben“ entspricht allerdings nicht den Fakten
      CERN verwendet weiterhin umfangreich GPUs und setzt je nach Situation aktiv auf COTS-GPUs/CPUs