Norwegens 2 Petabyte Huawei-Flash-Storage und das Training von LLMs
(blocksandfiles.com)- Die Norwegische Nationalbibliothek setzt 2 PB Huawei OceanStor Dorado Flash-Storage in ihrer KI-Trainingspipeline ein, um ein souveränes LLM zu entwickeln, das Norwegisch versteht
- Da kommerzielle LLM-Anbieter keine lokalen norwegischen Modelle entwickeln, können englischzentrierte LLMs Geschichte, Nachrichten und Kultur in Regionalsprachen nur unzureichend verarbeiten
- Die Nationalbibliothek digitalisiert seit 2005 Bücher, Zeitungen, Webseiten, Audio und Video und verfügt über 20 PB an eigenen Daten; nach dem 3-2-1-Prinzip werden insgesamt rund 60 PB gespeichert
- Der Engpass liegt weniger bei der Rechenleistung als bei Datenqualität, Bereinigung und Durchsatz; die Vorbereitung erfolgt intern auf DGX H200, CPU-Clustern und Huawei-Flash, trainiert wird anschließend auf Sigma2 Olivia
- Erhaltungsarchiv und KI-Pipeline haben unterschiedliche Anforderungen in Bezug auf Haltbarkeit und Kosten sowie niedrige Latenz und paralleles I/O; für ein souveränes LLM braucht es daher auch Kompetenz in Verwaltung und Archivierung
Das souveräne LLM-Projekt der Norwegischen Nationalbibliothek
- Die Norwegische Nationalbibliothek (Nasjonalbiblioteket) entwickelt derzeit ein Large Language Model (LLM), das Norwegisch versteht, und nutzt dafür 2 PB Huawei OceanStor Dorado Flash-Storage in der KI-Trainingsdatenpipeline
- Marius Husnes, Leiter der IT-Plattform der Nationalbibliothek, erklärte auf dem Huawei ID Forum 2026 in Paris, dass kommerzielle LLM-Anbieter derzeit keine regionalsprachigen norwegischen LLMs entwickeln
- Länder ohne ein souveränes LLM, das auf ihrer eigenen Sprache trainiert wurde, sind auf LLMs angewiesen, die mit weltweiten Daten und mit Schwerpunkt auf Englisch trainiert wurden; solche Modelle haben Schwierigkeiten, Geschichte, Nachrichten und Kultur zu verstehen, die in lokalen Sprachen dokumentiert sind
- Das norwegische Kulturministerium hat die Nationalbibliothek mit dem Aufbau souveräner KI, also eines LLM, beauftragt; die Bibliothek verfügt über die größte digitale Sammlung von Büchern, Zeitungen und Webseiten in Norwegen
- Die Nationalbibliothek hat das Recht, von allen veröffentlichten Büchern und Rundfunkinhalten ein Exemplar zu erhalten, und die Pflichtexemplarregelung wurde über Bücher hinaus auf die Sammlung und Bewahrung des gesamten norwegischen Kulturerbes ausgeweitet
- Durch Vereinbarungen mit norwegischen Zeitungsverlagen kann auch urheberrechtlich geschützter Content für das LLM-Training genutzt werden; Husnes sagte dazu: „Private Unternehmen haben das nicht.“
Datenbestand und Grundlage der Digitalisierung
- Die Nationalbibliothek digitalisiert ihre Sammlungen seit 2005 und hat dabei 20 PB an eigenen Daten aufgebaut
- Diese Daten werden nach dem 3-2-1-Prinzip gespeichert
- 3 Kopien
- 2 Medientypen
- 1 externe Aufbewahrung
- Dadurch beläuft sich das gesamte Speichervolumen auf rund 60 PB
- Digitalisiert werden Fließtext, Audio, Video, Standbilder und Web-Content
- Im Zuge der Digitalisierung wurden viele OCR-Scans erstellt sowie große Mengen an Metadaten und APIs für den Online-Zugriff erzeugt
- Der Großteil der Daten liegt in einem Erhaltungssystem, das aus Festplattenspeichern und Bandarchiven besteht
Das Problem beim Verschieben von Daten aus dem Archiv in die KI-Pipeline
- Die zentrale Herausforderung besteht darin, Daten aus dem Erhaltungssystem in das LLM-Trainingssystem zu überführen
- Der Engpass liegt nicht bei der Rechenleistung, sondern bei Datenqualität, Bereinigung und Pipeline-Durchsatz
- Der Prozess ist in die Datenvorbereitung in der internen Computing-Umgebung der Nationalbibliothek und die eigentliche Ausführung des Trainings auf dem nationalen Supercomputer aufgeteilt
- Die interne Umgebung besteht aus folgender Hardware
- Nvidia-DGX-H200-Systemen
- einem CPU-Cluster mit 384 Kernen
- mehreren Huawei-OceanStor-Dorado-All-Flash-Arrays mit zusammen 2 PB Flash-Kapazität
- Das Huawei-Flash-Storage dient als niedriglatenter Storage für die Datenpipeline und die Vorbereitung des Trainings
- Die Pipeline umfasst Datenerfassung, Bereinigung, Deduplizierung, Formatnormalisierung, Validierung und Vorbereitung
Trainingsumgebung: Sigma2 Olivia
- Daten, die die Pipeline durchlaufen haben, werden für die eigentliche Trainingsausführung an das Olivia-System des norwegischen nationalen Supercomputers Sigma2 übertragen
- Olivia ist ein HPE Cray Supercomputing EX-System
- Olivia ist wie folgt ausgestattet
- 448 GPUs
- 64.512 CPU-Kerne
- 5,3 PB Cray-ClusterStor-E1000-Storage-System
- Die lokale KI-Umgebung der Nationalbibliothek bereitet die Daten vor, während Olivia das Training ausführt
Unterschiedliche Storage-Anforderungen
- Erhaltungsarchiv und Storage für die KI-Pipeline haben unterschiedliche Anforderungen
- Das 60-PB-Erhaltungssystem ist auf Haltbarkeit und Kosten optimiert, nicht auf schnelles I/O
- Das Erhaltungssystem ist für seltene Zugriffe ausgelegt und weist daher eine hohe Lese-Latenz auf
- Der Storage der KI-Pipeline ist auf hohen Durchsatz, niedrige Latenz und paralleles Daten-I/O ausgelegt
- Das Team musste selbst herausfinden, wie sich Datensätze im PB-Maßstab aus dem Archiv in die KI-Datenpipeline übertragen und dort verarbeiten lassen
Noch ungelöste Aufgaben
-
Evaluierung
- Es gibt keine standardisierten Evaluierungswerkzeuge zur Bewertung eines souveränen norwegischsprachigen LLM
- Das Norwegische hat zwei Schriftformen, dazu kommen mehrere Dialekte und historische Sprachveränderungen
- Das Team der Nationalbibliothek arbeitet daher an eigenen Evaluierungswerkzeugen
-
Governance
- Es muss festgelegt werden, wer den Zugriff auf das souveräne LLM kontrolliert
- Ebenso ist offen, wer entscheidet, wofür das souveräne LLM genutzt werden darf
- Dabei handelt es sich um institutionelle und politische Fragen, auf die es keine einfachen Antworten gibt
-
Orchestrierung
- Die Arbeit daran, die drei Systeme – Erhaltungsarchiv, lokale KI-Umgebung und den nationalen Sigma2-Supercomputer – reibungslos zusammenarbeiten zu lassen, dauert an
Bedeutung und Fazit
- Huawei-Storage spielt auf dem europäischen Markt eine wichtige und praktische Rolle
- Für Länder, die ein souveränes LLM in einer regionalen Sprache entwickeln wollen, kann es hilfreich sein, sich mit Husnes auszutauschen und den erforderlichen Aufwand zu verstehen
- Norwegen wird als kleines Land dargestellt, das sich mit Problemen befasst, vor denen alle nicht englischsprachigen Länder stehen
- Die Kernfrage lautet, wie sich KI aufbauen lässt, die die eigene Sprache, Kultur und Geschichte widerspiegelt
- KI braucht nicht nur Erbauer, sondern auch Verwalter und Bewahrer
1 Kommentare
Hacker-News-Kommentare
Als Norweger nutze ich die Nationalbibliothek fast täglich für die Textsuche.
Die Benutzeroberfläche und die Funktionen zum Durchsuchen riesiger Textmengen sind wirklich erstklassig.
Ein erheblicher Teil ist nur über norwegische IPs erreichbar, was einer der Hauptgründe ist, warum ich als in Großbritannien lebender Norweger ein VPN behalte. Anderes ist nur über IPs von Bibliotheken oder Forschungseinrichtungen zugänglich, aber trotzdem gibt es auch öffentlich frei verfügbares Material in riesigen Mengen.
Ich frage mich, wie wahr die Aussage ist: „Ein Land mit eigener Sprache ist im Nachteil, wenn es kein in dieser Sprache trainiertes souveränes LLM hat, weil englischsprachige LLMs, die auf weltweiten Daten trainiert wurden, die Geschichte, Nachrichten und Kultur dieses Landes, wie sie in der Landessprache beschrieben werden, nicht kennen.“
Ich dachte eigentlich, die großen Player hätten bereits fast alles trainiert, worauf sie Zugriff haben, unabhängig von Sprache oder Qualität, deshalb klingt diese Ansicht für mich wie ein Gedanke aus den frühen Tagen allgemeiner LLMs.
Ich sehe nicht, warum man viel Geld für das Training eines eigenen Modells ausgeben sollte, besonders wenn es wahrscheinlich den Spitzenmodellen unterlegen sein wird.
Wegen Ahnenforschung suche ich darin oft per allgemeiner Stichwortsuche nach Material, und dabei tauchen Dinge auf, die weder Suchmaschinen noch Sprachmodelle kennen.
Natürlich stelle ich die Informationen, die mich interessieren, meist irgendwo online, wo sie von KI abgeschöpft werden können, aber es würde wirklich lange dauern, all das interessante Material daraus vollständig herauszuholen.
Jedes Modell, mit dem ich auf Schwedisch gesprochen habe, kam damit perfekt zurecht. Ich vermute, dass Norwegisch inzwischen genauso gut funktioniert.
Es wäre auch interessant zu sehen, ob man Experimente wie https://arxiv.org/pdf/2507.22445 darauf anwendet.
Die Leistung ist fast unbeeinflusst oder manchmal sogar besser. Allerdings können englische Muster subtil in muttersprachliche Muster anderer Sprachen einsickern.
Bei ressourcenarmen Sprachen ist das ein ganz anderes Problem, aber um das zu verbessern, braucht man mehr Daten und nicht unbedingt ein neues Modell.
„Das Olivia-System ist ein HPE Cray Supercomputing EX-System mit 448 GPUs und 64.512 CPU-Kernen.“
Mit so schwacher Hardware statt einfach ein LoRA auf ein Open-Source-Modell zu setzen ein souveränes LLM trainieren zu wollen, wirkt wie ein großer Fehler und ein Warnsignal.
Es scheint ausgeschlossen, dass damit die Ressourcen für das Training eines vollständigen LLM vorhanden sind; das als Ziel zu behaupten, wirkt für mich so, als wolle man dieses LLM gar nicht wirklich nützlich machen. Dann fragt man sich, wessen Geld hier warum verschwendet wird.
Also das Wissen darüber, wie man LLMs baut, innerhalb der Organisation zu verankern.
Formal ist zwar die Nationalbibliothek Trägerin, aber laut Artikel wurde sie wohl ausgewählt, weil sie die norwegischsprachigen Materialien rechtmäßig besitzt und für diesen Zweck verwenden darf. Forschende an einschlägigen Einrichtungen wie Universitäten werden vermutlich ebenfalls am Prozess beteiligt sein.
Ich glaube allerdings nicht, dass dabei etwas besonders Wertvolles angestrebt wird. Diese feinabgestimmten Modelle waren ziemlich kaputt und wirkten eher wie ein Methodikaufbau. Ich bin nicht überzeugt, dass das sehr nützlich ist, aber ich entscheide auch nicht, wer mit Forschungsgeld was macht.
Eines der feinabgestimmten Modelle, die ich ausprobiert habe, verspottete im Chat häufig Menschen, die Gefühle ausdrückten.
Ein anderes feinabgestimmtes Modell halluzinierte jedes Mal, selbst wenn ich nur „hei“ schrieb, dass ich Arzt sei und mein Baby eine schreckliche Krankheit habe. Wahrscheinlich wurde dieses Verhalten durch einen banalen und neutralen System-Prompt ausgelöst.
Ich denke, Olivia ist für den vorgesehenen Zweck groß genug. Im Moment scheint es sinnvoller, dem aktuellen Trend zu folgen, ohne zu viel Geld für Hardware zu verschwenden.
Ein norwegischer Korpus braucht womöglich gar keinen riesigen Cluster, und selbst wenn doch, wäre das vermutlich das Beste, was die Bibliothek leisten kann. Für Investitionen in norwegische Modelle ist das wahrscheinlich ohnehin einer der größten Posten.
Spitzenmodelle haben möglicherweise keinen Zugang zu der Qualität an Inhalten, über die die Nationalbibliothek verfügt. Der Artikel erwähnt ja auch Lizenzen mit Zeitungsverlagen sowie die eigenen Archive der Bibliothek.
Englisch und Norwegisch gehören nicht zu eng verwandten Sprachfamilien, daher ist LoRA möglicherweise nicht der beste Ansatz.
Ich frage mich, ob es veröffentlichte Forschung dazu gibt, wie gut LoRA-basierte Lokalisierung funktioniert, je nachdem, wie weit Grammatik und Wortschatz der Zielsprache vom Englischen entfernt sind.
Solche Projekte haben meist nicht nur ein Ziel; es geht nicht nur darum, ein Spitzenmodell zu bauen, sondern wie wenn Universitäten Satelliten starten auch darum, regional verankerte Talente aufzubauen und auszubilden.
Wenn man ein eigenes Embedding-Modell baut, die gesamte Bibliothek indexiert und das Modell dann so trainiert, dass es für Fragen zu Geschichte, Kultur, Recht und Strategie aus nationaler Perspektive auf diese Daten zugreift, könnte das ziemlich interessant und nützlich sein.
Gegen Anthropic beim Ausspucken von React-Code wird man damit vielleicht nicht gewinnen, aber es gibt auch keinen Grund, genau das kopieren zu wollen.
Es wurde bereits sowohl mit Feintuning als auch mit Training von Grund auf bei mehreren Modellen unter 10 Milliarden Parametern experimentiert, und als ich zuletzt nachgesehen habe, erfasste das von Grund auf trainierte Modell die Sprache besser.
Wäre es für Norwegen nicht besser, stattdessen oder parallel Trainingsdatensätze zu erstellen und sie allen Modellentwicklern kostenlos zur Verfügung zu stellen?
Das scheint ein besserer oder zusätzlicher Weg zu sein, um das hier verfolgte Ziel zu erreichen, nämlich dass Frontier-Modelle Norwegisch und die norwegische Kultur kennenlernen.
Ich habe Claude zum Beispiel gebeten, den Roman „De knyttede næver“ von 1911 in norwegischer Rechtschreibung um 1911 zu beschreiben, und das hat gut funktioniert.
Was fehlt, ist ein Verständnis für norwegische Literatur, Kultur und Geschichte. „De knyttede næver“ war zum Zeitpunkt seines Erscheinens einer der Bestseller unter den norwegischen Romanen, aber Claude konnte erst etwas dazu sagen, nachdem es nachgeschlagen hatte. ChatGPT war besser, besonders im Denkmodus, und lieferte eine ausführliche Zusammenfassung.
Heute ist das Werk nicht mehr weithin bekannt, aber der Autor war jahrzehntelang ein angesehener Zeitungsjournalist, und diese Romanreihe ist so bekannt, dass es sogar einen norwegischen Sänger gibt, dessen Künstlername vom Namen der Hauptfigur stammt. Wegen der politischen Ansichten des Autors und ihres Einflusses auf die Romane wurde darüber zudem jahrzehntelang in norwegischen Zeitungen und Büchern geschrieben; das ist also ein recht vernünftiger Test und zeigt meines Erachtens eine erhebliche Wissenslücke.
Ich stimme zu, dass es besser wäre, die Datensätze der Nationalbibliothek leichter zugänglich zu machen. Der große zusätzliche Punkt hier scheint jedoch zu sein, dass Verträge geschlossen wurden, um auf urheberrechtlich geschütztem Material mit Nutzungseinschränkungen zu trainieren, das sonst in Archiven gebunden ist.
Trotzdem wäre es schon ein hervorragender Anfang, nur die Bestände freizugeben, deren Urheberrecht bereits abgelaufen ist.
Es ist viel besser, rechtliche Vereinbarungen mit staatlichen Stellen aufrechtzuerhalten und etwas zu entwickeln, das dem eigenen Land tatsächlich nützt.
Wenn Marius Husnes sagt, „kommerzielle LLM-Anbieter entwickeln keine lokalen norwegischen LLMs, und Länder ohne ein souveränes, in ihrer eigenen Sprache trainiertes LLM sind im Nachteil“, bin ich nicht besonders zuversichtlich, dass er wirklich versteht, wovon er spricht.
Englischzentrierte LLMs sind im Englischen stärker, weil dem Englischen im Tokenraum eine kompaktere Repräsentation zugewiesen wird. Wenn man in einen Online-Tokenizer für die Anthropic API gängige englische und norwegische Wörter eingibt, ist Englisch normalerweise ein Token oder weniger, während Norwegisch oft 2 bis 4 Tokens braucht, manchmal noch mehr. Sprachen wie Thai sind massiv benachteiligt.
Auch die Auswahl des Korpus ist häufig stark auf die Zielsprache ausgerichtet. Es kostet schlicht mehr Aufwand, Werke in dieser Sprache zu beschaffen.
Durch die Wechselwirkung semantisch ähnlicher Embeddings zwischen Sprachen entstehen im Vektorraum außerdem kulturelle Baselines und andere semantische Verzerrungen. Schließlich hat Fine-Tuning großen Einfluss auf den kulturellen Ausdruck eines LLM. Diese Effekte sind nicht gering.
Es gibt viele Bemühungen, Sprachmodelle für verschwindende Sprachen und mithilfe interkultureller Modelle zu bauen, aber bei einer Sprache mit solider Schriftkultur gibt es gute Gründe, ein auf die eigene Sprache und Kultur spezialisiertes Heritage-LLM zu entwickeln. Zu erwarten, dass OpenAI oder Anthropic im Zweifel deine Sprache vor ihren Zielkunden priorisieren, ist absurd.
Muttersprache, Stil und Haltung sind amerikanisch.
So wie man sich auch nicht darauf verlassen kann, dass Netflix und HBO, selbst wenn sie inzwischen skandinavische TV-Serien produzieren, unseren Bedarf dauerhaft abdecken, müssen wir in diesem Bereich unsere eigenen Dinge schaffen.
Mit der Zeit wird die Technik dafür billiger und leichter verfügbar werden.
Es bewahrt nicht nur polnischere Ausdrucksweisen besser, sondern ist auch beim Verfassen von Regierungsdokumenten besser. Warum es besser ist? Weil Arena-Evaluierungen durchgeführt wurden und es statistisch besser abgeschnitten hat.
Du stellst eine Behauptung auf, aber es scheint keine Begründung dafür zu geben. Warum wäre es kein Nachteil, nur englische LLMs zu haben?
Kann man mit den aktuellen Modellen die Nuancen der norwegischen Geschichte und Kultur erfassen?
Auch Walisisch erhält LLM-Training mit Nemotron.
https://www.bangor.ac.uk/news/2025-09-15-reaching-across-the...
Es ist vielleicht nicht der effizienteste Weg, aber für Sprachen mit nichtlateinischer Schrift scheint es weiterhin klare Anwendungsfälle dafür zu geben, ganz von vorn anzufangen.
Man muss sich nur sarvam.ai und die Beispiele für verbesserte Tokenisierung lokaler Sprachen ansehen [1]. Nicht jedes LLM muss beim Programmieren helfen, und nicht jedes muss schon jetzt ein Babel Fish sein.
Sprache ist Kultur, daher kann ich ihre Motivation verstehen. Dass sie es sich leisten können, es selbst zu tun, scheint eine gute Sache zu sein.
[1] https://www.sarvam.ai/blogs/sarvam-30b-105b
Die russische T-Bank hat den Tokenizer des Basis-Qwen ausgetauscht, fünfmal mehr kyrillische Tokens eingeführt und das Modell anschließend auf einem russischen Korpus weitertrainiert, wodurch sich die Generierungsgeschwindigkeit um das 1,5- bis 3-Fache steigern ließ.
Das ist ein gewaltiger Storage-Rollout.
Wenn man die I/O-Anforderungen des LLM-Trainings bedenkt, insbesondere Checkpointing, ist es plausibel, bei diesem Maßstab eher zu NVMe-Flash zu greifen als zu klassischen Disk-Arrays.
„Norwegen ist ein kleines Land, das ein Problem lösen muss, mit dem alle nicht englischsprachigen Länder konfrontiert sind. Wie schafft man eine KI, die die eigene Sprache, Kultur und Geschichte widerspiegelt? KI braucht nicht nur Entwickler, sondern auch Verwalter.“
Leider liegt die Antwort meiner Ansicht nach meist näher bei „Das geht nicht“.
Für so etwas braucht es einen starken politischen Willen, und zumindest in meinem Umfeld scheint es praktisch unmöglich, das auf die Reihe zu bekommen.
Die Kosten sind schwer zu stemmen, aber noch wichtiger ist, dass die Menschen, denen diese lokale Repräsentation wichtig ist, völlig damit einverstanden sind, wenn ausländische Unternehmen sie umsetzen, oder von vornherein gegen KI selbst sind. Wenn man will, kann man ChatGPT schließlich auch auf Baskisch nutzen.
Es ist ein kleines, aber extrem reiches Land und hält über Investitionen des Staatsfonds derzeit Beteiligungen, die 1,5 % aller börsennotierten Unternehmen weltweit entsprechen.
Und solche Modelle wären wahrscheinlich deutlich besser als alles, was man im Inland selbst bauen könnte.
Natürlich kann ich förmlich spüren, wie man beim Lesen dieses Satzes auf der anderen Seite des Bildschirms zusammenzuckt.