Norwegens 2 Petabyte Huawei-Flash-Storage und das Training von LLMs

(blocksandfiles.com)

1 Punkte von GN⁺ 2026-05-27 | 1 Kommentare | Auf WhatsApp teilen

Die Norwegische Nationalbibliothek setzt 2 PB Huawei OceanStor Dorado Flash-Storage in ihrer KI-Trainingspipeline ein, um ein souveränes LLM zu entwickeln, das Norwegisch versteht
Da kommerzielle LLM-Anbieter keine lokalen norwegischen Modelle entwickeln, können englischzentrierte LLMs Geschichte, Nachrichten und Kultur in Regionalsprachen nur unzureichend verarbeiten
Die Nationalbibliothek digitalisiert seit 2005 Bücher, Zeitungen, Webseiten, Audio und Video und verfügt über 20 PB an eigenen Daten; nach dem 3-2-1-Prinzip werden insgesamt rund 60 PB gespeichert
Der Engpass liegt weniger bei der Rechenleistung als bei Datenqualität, Bereinigung und Durchsatz; die Vorbereitung erfolgt intern auf DGX H200, CPU-Clustern und Huawei-Flash, trainiert wird anschließend auf Sigma2 Olivia
Erhaltungsarchiv und KI-Pipeline haben unterschiedliche Anforderungen in Bezug auf Haltbarkeit und Kosten sowie niedrige Latenz und paralleles I/O; für ein souveränes LLM braucht es daher auch Kompetenz in Verwaltung und Archivierung

Das souveräne LLM-Projekt der Norwegischen Nationalbibliothek

Die Norwegische Nationalbibliothek (Nasjonalbiblioteket) entwickelt derzeit ein Large Language Model (LLM), das Norwegisch versteht, und nutzt dafür 2 PB Huawei OceanStor Dorado Flash-Storage in der KI-Trainingsdatenpipeline
Marius Husnes, Leiter der IT-Plattform der Nationalbibliothek, erklärte auf dem Huawei ID Forum 2026 in Paris, dass kommerzielle LLM-Anbieter derzeit keine regionalsprachigen norwegischen LLMs entwickeln
Länder ohne ein souveränes LLM, das auf ihrer eigenen Sprache trainiert wurde, sind auf LLMs angewiesen, die mit weltweiten Daten und mit Schwerpunkt auf Englisch trainiert wurden; solche Modelle haben Schwierigkeiten, Geschichte, Nachrichten und Kultur zu verstehen, die in lokalen Sprachen dokumentiert sind
Das norwegische Kulturministerium hat die Nationalbibliothek mit dem Aufbau souveräner KI, also eines LLM, beauftragt; die Bibliothek verfügt über die größte digitale Sammlung von Büchern, Zeitungen und Webseiten in Norwegen
Die Nationalbibliothek hat das Recht, von allen veröffentlichten Büchern und Rundfunkinhalten ein Exemplar zu erhalten, und die Pflichtexemplarregelung wurde über Bücher hinaus auf die Sammlung und Bewahrung des gesamten norwegischen Kulturerbes ausgeweitet
Durch Vereinbarungen mit norwegischen Zeitungsverlagen kann auch urheberrechtlich geschützter Content für das LLM-Training genutzt werden; Husnes sagte dazu: „Private Unternehmen haben das nicht.“

Datenbestand und Grundlage der Digitalisierung

Die Nationalbibliothek digitalisiert ihre Sammlungen seit 2005 und hat dabei 20 PB an eigenen Daten aufgebaut
Diese Daten werden nach dem 3-2-1-Prinzip gespeichert
- 3 Kopien
- 2 Medientypen
- 1 externe Aufbewahrung
Dadurch beläuft sich das gesamte Speichervolumen auf rund 60 PB
Digitalisiert werden Fließtext, Audio, Video, Standbilder und Web-Content
Im Zuge der Digitalisierung wurden viele OCR-Scans erstellt sowie große Mengen an Metadaten und APIs für den Online-Zugriff erzeugt
Der Großteil der Daten liegt in einem Erhaltungssystem, das aus Festplattenspeichern und Bandarchiven besteht

Das Problem beim Verschieben von Daten aus dem Archiv in die KI-Pipeline

Die zentrale Herausforderung besteht darin, Daten aus dem Erhaltungssystem in das LLM-Trainingssystem zu überführen
Der Engpass liegt nicht bei der Rechenleistung, sondern bei Datenqualität, Bereinigung und Pipeline-Durchsatz
Der Prozess ist in die Datenvorbereitung in der internen Computing-Umgebung der Nationalbibliothek und die eigentliche Ausführung des Trainings auf dem nationalen Supercomputer aufgeteilt
Die interne Umgebung besteht aus folgender Hardware
- Nvidia-DGX-H200-Systemen
- einem CPU-Cluster mit 384 Kernen
- mehreren Huawei-OceanStor-Dorado-All-Flash-Arrays mit zusammen 2 PB Flash-Kapazität
Das Huawei-Flash-Storage dient als niedriglatenter Storage für die Datenpipeline und die Vorbereitung des Trainings
Die Pipeline umfasst Datenerfassung, Bereinigung, Deduplizierung, Formatnormalisierung, Validierung und Vorbereitung

Trainingsumgebung: Sigma2 Olivia

Daten, die die Pipeline durchlaufen haben, werden für die eigentliche Trainingsausführung an das Olivia-System des norwegischen nationalen Supercomputers Sigma2 übertragen
Olivia ist ein HPE Cray Supercomputing EX-System
Olivia ist wie folgt ausgestattet
- 448 GPUs
- 64.512 CPU-Kerne
- 5,3 PB Cray-ClusterStor-E1000-Storage-System
Die lokale KI-Umgebung der Nationalbibliothek bereitet die Daten vor, während Olivia das Training ausführt

Unterschiedliche Storage-Anforderungen

Erhaltungsarchiv und Storage für die KI-Pipeline haben unterschiedliche Anforderungen
Das 60-PB-Erhaltungssystem ist auf Haltbarkeit und Kosten optimiert, nicht auf schnelles I/O
Das Erhaltungssystem ist für seltene Zugriffe ausgelegt und weist daher eine hohe Lese-Latenz auf
Der Storage der KI-Pipeline ist auf hohen Durchsatz, niedrige Latenz und paralleles Daten-I/O ausgelegt
Das Team musste selbst herausfinden, wie sich Datensätze im PB-Maßstab aus dem Archiv in die KI-Datenpipeline übertragen und dort verarbeiten lassen

Noch ungelöste Aufgaben

Evaluierung
- Es gibt keine standardisierten Evaluierungswerkzeuge zur Bewertung eines souveränen norwegischsprachigen LLM
- Das Norwegische hat zwei Schriftformen, dazu kommen mehrere Dialekte und historische Sprachveränderungen
- Das Team der Nationalbibliothek arbeitet daher an eigenen Evaluierungswerkzeugen
Governance
- Es muss festgelegt werden, wer den Zugriff auf das souveräne LLM kontrolliert
- Ebenso ist offen, wer entscheidet, wofür das souveräne LLM genutzt werden darf
- Dabei handelt es sich um institutionelle und politische Fragen, auf die es keine einfachen Antworten gibt
Orchestrierung
- Die Arbeit daran, die drei Systeme – Erhaltungsarchiv, lokale KI-Umgebung und den nationalen Sigma2-Supercomputer – reibungslos zusammenarbeiten zu lassen, dauert an

Bedeutung und Fazit

Huawei-Storage spielt auf dem europäischen Markt eine wichtige und praktische Rolle
Für Länder, die ein souveränes LLM in einer regionalen Sprache entwickeln wollen, kann es hilfreich sein, sich mit Husnes auszutauschen und den erforderlichen Aufwand zu verstehen
Norwegen wird als kleines Land dargestellt, das sich mit Problemen befasst, vor denen alle nicht englischsprachigen Länder stehen
Die Kernfrage lautet, wie sich KI aufbauen lässt, die die eigene Sprache, Kultur und Geschichte widerspiegelt
KI braucht nicht nur Erbauer, sondern auch Verwalter und Bewahrer

1 Kommentare

GN⁺ 2026-05-27

Hacker-News-Kommentare

Als Norweger nutze ich die Nationalbibliothek fast täglich für die Textsuche.
Die Benutzeroberfläche und die Funktionen zum Durchsuchen riesiger Textmengen sind wirklich erstklassig.
- Wirklich großartig. Ich wünschte nur, es gäbe etwas weniger Beschränkungen bei den zugänglichen Inhalten.
  Ein erheblicher Teil ist nur über norwegische IPs erreichbar, was einer der Hauptgründe ist, warum ich als in Großbritannien lebender Norweger ein VPN behalte. Anderes ist nur über IPs von Bibliotheken oder Forschungseinrichtungen zugänglich, aber trotzdem gibt es auch öffentlich frei verfügbares Material in riesigen Mengen.
- Es ist extrem frustrierend, dass es keine integrierte Suchmaschine gibt. Ich verstehe nicht, warum man nicht in TV-Untertiteln suchen kann.
- Mir ist erst dadurch klar geworden, wie sehr ich an die grundlegende Stammwortverarbeitung und Rechtschreib-Toleranz gewöhnt war, die seit den Altavista-Zeiten jede Suchmaschine hatte.
Ich frage mich, wie wahr die Aussage ist: „Ein Land mit eigener Sprache ist im Nachteil, wenn es kein in dieser Sprache trainiertes souveränes LLM hat, weil englischsprachige LLMs, die auf weltweiten Daten trainiert wurden, die Geschichte, Nachrichten und Kultur dieses Landes, wie sie in der Landessprache beschrieben werden, nicht kennen.“
Ich dachte eigentlich, die großen Player hätten bereits fast alles trainiert, worauf sie Zugriff haben, unabhängig von Sprache oder Qualität, deshalb klingt diese Ansicht für mich wie ein Gedanke aus den frühen Tagen allgemeiner LLMs.
- Wenn man will, dass ein LLM Wissen über Norwegisch hat, scheint der offensichtlichste Weg doch zu sein, einen guten Trainingsdatensatz zu erstellen und breit verfügbar zu machen.
  Ich sehe nicht, warum man viel Geld für das Training eines eigenen Modells ausgeben sollte, besonders wenn es wahrscheinlich den Spitzenmodellen unterlegen sein wird.
- Ausländische LLMs wurden wahrscheinlich nicht mit den Beständen der norwegischen Nationalbibliothek trainiert.
  Wegen Ahnenforschung suche ich darin oft per allgemeiner Stichwortsuche nach Material, und dabei tauchen Dinge auf, die weder Suchmaschinen noch Sprachmodelle kennen.
  Natürlich stelle ich die Informationen, die mich interessieren, meist irgendwo online, wo sie von KI abgeschöpft werden können, aber es würde wirklich lange dauern, all das interessante Material daraus vollständig herauszuholen.
- Meiner Einschätzung nach stimmt das fast gar nicht. Ich kann nicht gut Norwegisch, aber ich kann Schwedisch, und die beiden Sprachen sind sehr ähnlich, sodass ich Norwegisch meistens verstehe.
  Jedes Modell, mit dem ich auf Schwedisch gesprochen habe, kam damit perfekt zurecht. Ich vermute, dass Norwegisch inzwischen genauso gut funktioniert.
- Es könnte zumindest möglich werden, wie ein Norweger zu schreiben, statt in einem aus dem Englischen ins Norwegische übersetzten Stil.
  Es wäre auch interessant zu sehen, ob man Experimente wie https://arxiv.org/pdf/2507.22445 darauf anwendet.
- Die derzeit besten Modelle sind in wichtigen Sprachen und Kulturen ziemlich flüssig, daher stimmt zumindest die Einschränkung „alle“ nicht.
  Die Leistung ist fast unbeeinflusst oder manchmal sogar besser. Allerdings können englische Muster subtil in muttersprachliche Muster anderer Sprachen einsickern.
  Bei ressourcenarmen Sprachen ist das ein ganz anderes Problem, aber um das zu verbessern, braucht man mehr Daten und nicht unbedingt ein neues Modell.
„Das Olivia-System ist ein HPE Cray Supercomputing EX-System mit 448 GPUs und 64.512 CPU-Kernen.“
Mit so schwacher Hardware statt einfach ein LoRA auf ein Open-Source-Modell zu setzen ein souveränes LLM trainieren zu wollen, wirkt wie ein großer Fehler und ein Warnsignal.
Es scheint ausgeschlossen, dass damit die Ressourcen für das Training eines vollständigen LLM vorhanden sind; das als Ziel zu behaupten, wirkt für mich so, als wolle man dieses LLM gar nicht wirklich nützlich machen. Dann fragt man sich, wessen Geld hier warum verschwendet wird.
- Für Außenstehende ist das vielleicht nicht nützlich, aber eines der Ziele könnte organisationales Lernen sein.
  Also das Wissen darüber, wie man LLMs baut, innerhalb der Organisation zu verankern.
  Formal ist zwar die Nationalbibliothek Trägerin, aber laut Artikel wurde sie wohl ausgewählt, weil sie die norwegischsprachigen Materialien rechtmäßig besitzt und für diesen Zweck verwenden darf. Forschende an einschlägigen Einrichtungen wie Universitäten werden vermutlich ebenfalls am Prozess beteiligt sein.
- Sie haben zuvor schon erfolgreich feinabgestimmte Modelle als Proof of Concept gebaut, also ist der nächste Schritt nun das Training eines vollständigen LLM.
  Ich glaube allerdings nicht, dass dabei etwas besonders Wertvolles angestrebt wird. Diese feinabgestimmten Modelle waren ziemlich kaputt und wirkten eher wie ein Methodikaufbau. Ich bin nicht überzeugt, dass das sehr nützlich ist, aber ich entscheide auch nicht, wer mit Forschungsgeld was macht.
  Eines der feinabgestimmten Modelle, die ich ausprobiert habe, verspottete im Chat häufig Menschen, die Gefühle ausdrückten.
  Ein anderes feinabgestimmtes Modell halluzinierte jedes Mal, selbst wenn ich nur „hei“ schrieb, dass ich Arzt sei und mein Baby eine schreckliche Krankheit habe. Wahrscheinlich wurde dieses Verhalten durch einen banalen und neutralen System-Prompt ausgelöst.
  Ich denke, Olivia ist für den vorgesehenen Zweck groß genug. Im Moment scheint es sinnvoller, dem aktuellen Trend zu folgen, ohne zu viel Geld für Hardware zu verschwenden.
- Mehrsprachige und internationalisierte Sprachmodelle sind kein Bereich, auf den die führenden Labore besonders viele Ressourcen konzentrieren, und das gilt vermutlich erst recht für Norwegisch.
  Ein norwegischer Korpus braucht womöglich gar keinen riesigen Cluster, und selbst wenn doch, wäre das vermutlich das Beste, was die Bibliothek leisten kann. Für Investitionen in norwegische Modelle ist das wahrscheinlich ohnehin einer der größten Posten.
  Spitzenmodelle haben möglicherweise keinen Zugang zu der Qualität an Inhalten, über die die Nationalbibliothek verfügt. Der Artikel erwähnt ja auch Lizenzen mit Zeitungsverlagen sowie die eigenen Archive der Bibliothek.
  Englisch und Norwegisch gehören nicht zu eng verwandten Sprachfamilien, daher ist LoRA möglicherweise nicht der beste Ansatz.
  Ich frage mich, ob es veröffentlichte Forschung dazu gibt, wie gut LoRA-basierte Lokalisierung funktioniert, je nachdem, wie weit Grammatik und Wortschatz der Zielsprache vom Englischen entfernt sind.
  Solche Projekte haben meist nicht nur ein Ziel; es geht nicht nur darum, ein Spitzenmodell zu bauen, sondern wie wenn Universitäten Satelliten starten auch darum, regional verankerte Talente aufzubauen und auszubilden.
- Für diese Größenordnung an Ressourcen reicht es aus, auf Basis von etwas wie der Olmo-3-Rezeptur mit einem gemischten Datensatz zu arbeiten, der die eigenen Daten priorisiert, und danach ein weiteres Training für die eigenen Aufgaben anzuschließen.
  Wenn man ein eigenes Embedding-Modell baut, die gesamte Bibliothek indexiert und das Modell dann so trainiert, dass es für Fragen zu Geschichte, Kultur, Recht und Strategie aus nationaler Perspektive auf diese Daten zugreift, könnte das ziemlich interessant und nützlich sein.
  Gegen Anthropic beim Ausspucken von React-Code wird man damit vielleicht nicht gewinnen, aber es gibt auch keinen Grund, genau das kopieren zu wollen.
- Das größte Problem sind in Wirklichkeit die verfügbaren Trainingsdaten.
  Es wurde bereits sowohl mit Feintuning als auch mit Training von Grund auf bei mehreren Modellen unter 10 Milliarden Parametern experimentiert, und als ich zuletzt nachgesehen habe, erfasste das von Grund auf trainierte Modell die Sprache besser.
Wäre es für Norwegen nicht besser, stattdessen oder parallel Trainingsdatensätze zu erstellen und sie allen Modellentwicklern kostenlos zur Verfügung zu stellen?
Das scheint ein besserer oder zusätzlicher Weg zu sein, um das hier verfolgte Ziel zu erreichen, nämlich dass Frontier-Modelle Norwegisch und die norwegische Kultur kennenlernen.
- Frontier-Modelle können bereits gut Norwegisch. Sie passen sich sogar an norwegische Dialekte an und ahmen auch Altnorwegisch recht überzeugend nach.
  Ich habe Claude zum Beispiel gebeten, den Roman „De knyttede næver“ von 1911 in norwegischer Rechtschreibung um 1911 zu beschreiben, und das hat gut funktioniert.
  Was fehlt, ist ein Verständnis für norwegische Literatur, Kultur und Geschichte. „De knyttede næver“ war zum Zeitpunkt seines Erscheinens einer der Bestseller unter den norwegischen Romanen, aber Claude konnte erst etwas dazu sagen, nachdem es nachgeschlagen hatte. ChatGPT war besser, besonders im Denkmodus, und lieferte eine ausführliche Zusammenfassung.
  Heute ist das Werk nicht mehr weithin bekannt, aber der Autor war jahrzehntelang ein angesehener Zeitungsjournalist, und diese Romanreihe ist so bekannt, dass es sogar einen norwegischen Sänger gibt, dessen Künstlername vom Namen der Hauptfigur stammt. Wegen der politischen Ansichten des Autors und ihres Einflusses auf die Romane wurde darüber zudem jahrzehntelang in norwegischen Zeitungen und Büchern geschrieben; das ist also ein recht vernünftiger Test und zeigt meines Erachtens eine erhebliche Wissenslücke.
  Ich stimme zu, dass es besser wäre, die Datensätze der Nationalbibliothek leichter zugänglich zu machen. Der große zusätzliche Punkt hier scheint jedoch zu sein, dass Verträge geschlossen wurden, um auf urheberrechtlich geschütztem Material mit Nutzungseinschränkungen zu trainieren, das sonst in Archiven gebunden ist.
  Trotzdem wäre es schon ein hervorragender Anfang, nur die Bestände freizugeben, deren Urheberrecht bereits abgelaufen ist.
- Ich verstehe nicht, warum man all diese Daten mit gierigen US-Unternehmen teilen sollte, die die Daten aller stehlen, um ihren eigenen Profit zu steigern.
  Es ist viel besser, rechtliche Vereinbarungen mit staatlichen Stellen aufrechtzuerhalten und etwas zu entwickeln, das dem eigenen Land tatsächlich nützt.
Wenn Marius Husnes sagt, „kommerzielle LLM-Anbieter entwickeln keine lokalen norwegischen LLMs, und Länder ohne ein souveränes, in ihrer eigenen Sprache trainiertes LLM sind im Nachteil“, bin ich nicht besonders zuversichtlich, dass er wirklich versteht, wovon er spricht.
- Er hat recht. Es geht aber nicht nur um den Trainingskorpus, sondern auch um den Tokenizer, der Teilstrings anhand der für die Zielsprache nötigen Verzerrungen effizienter tokenisieren muss.
  Englischzentrierte LLMs sind im Englischen stärker, weil dem Englischen im Tokenraum eine kompaktere Repräsentation zugewiesen wird. Wenn man in einen Online-Tokenizer für die Anthropic API gängige englische und norwegische Wörter eingibt, ist Englisch normalerweise ein Token oder weniger, während Norwegisch oft 2 bis 4 Tokens braucht, manchmal noch mehr. Sprachen wie Thai sind massiv benachteiligt.
  Auch die Auswahl des Korpus ist häufig stark auf die Zielsprache ausgerichtet. Es kostet schlicht mehr Aufwand, Werke in dieser Sprache zu beschaffen.
  Durch die Wechselwirkung semantisch ähnlicher Embeddings zwischen Sprachen entstehen im Vektorraum außerdem kulturelle Baselines und andere semantische Verzerrungen. Schließlich hat Fine-Tuning großen Einfluss auf den kulturellen Ausdruck eines LLM. Diese Effekte sind nicht gering.
  Es gibt viele Bemühungen, Sprachmodelle für verschwindende Sprachen und mithilfe interkultureller Modelle zu bauen, aber bei einer Sprache mit solider Schriftkultur gibt es gute Gründe, ein auf die eigene Sprache und Kultur spezialisiertes Heritage-LLM zu entwickeln. Zu erwarten, dass OpenAI oder Anthropic im Zweifel deine Sprache vor ihren Zielkunden priorisieren, ist absurd.
- Wenn man mit ChatGPT spricht, ist ziemlich klar, dass es amerikanisch ist, selbst wenn man auf Dänisch mit ihm spricht.
  Muttersprache, Stil und Haltung sind amerikanisch.
  So wie man sich auch nicht darauf verlassen kann, dass Netflix und HBO, selbst wenn sie inzwischen skandinavische TV-Serien produzieren, unseren Bedarf dauerhaft abdecken, müssen wir in diesem Bereich unsere eigenen Dinge schaffen.
  Mit der Zeit wird die Technik dafür billiger und leichter verfügbar werden.
- In Polen gibt es ein eigenes LLM namens Bielik.
  Es bewahrt nicht nur polnischere Ausdrucksweisen besser, sondern ist auch beim Verfassen von Regierungsdokumenten besser. Warum es besser ist? Weil Arena-Evaluierungen durchgeführt wurden und es statistisch besser abgeschnitten hat.
- Ich frage mich, ob du belegen kannst, dass er falschliegt.
  Du stellst eine Behauptung auf, aber es scheint keine Begründung dafür zu geben. Warum wäre es kein Nachteil, nur englische LLMs zu haben?
  Kann man mit den aktuellen Modellen die Nuancen der norwegischen Geschichte und Kultur erfassen?
- Klingt plausibel genug, um dafür Fördergelder zu bekommen.
Auch Walisisch erhält LLM-Training mit Nemotron.
https://www.bangor.ac.uk/news/2025-09-15-reaching-across-the...
Es ist vielleicht nicht der effizienteste Weg, aber für Sprachen mit nichtlateinischer Schrift scheint es weiterhin klare Anwendungsfälle dafür zu geben, ganz von vorn anzufangen.
Man muss sich nur sarvam.ai und die Beispiele für verbesserte Tokenisierung lokaler Sprachen ansehen [1]. Nicht jedes LLM muss beim Programmieren helfen, und nicht jedes muss schon jetzt ein Babel Fish sein.
Sprache ist Kultur, daher kann ich ihre Motivation verstehen. Dass sie es sich leisten können, es selbst zu tun, scheint eine gute Sache zu sein.
[1] https://www.sarvam.ai/blogs/sarvam-30b-105b
- Eine verbesserte Tokenisierung bedeutet nicht unbedingt, dass man bei null anfangen muss.
  Die russische T-Bank hat den Tokenizer des Basis-Qwen ausgetauscht, fünfmal mehr kyrillische Tokens eingeführt und das Modell anschließend auf einem russischen Korpus weitertrainiert, wodurch sich die Generierungsgeschwindigkeit um das 1,5- bis 3-Fache steigern ließ.
Das ist ein gewaltiger Storage-Rollout.
Wenn man die I/O-Anforderungen des LLM-Trainings bedenkt, insbesondere Checkpointing, ist es plausibel, bei diesem Maßstab eher zu NVMe-Flash zu greifen als zu klassischen Disk-Arrays.
„Norwegen ist ein kleines Land, das ein Problem lösen muss, mit dem alle nicht englischsprachigen Länder konfrontiert sind. Wie schafft man eine KI, die die eigene Sprache, Kultur und Geschichte widerspiegelt? KI braucht nicht nur Entwickler, sondern auch Verwalter.“
Leider liegt die Antwort meiner Ansicht nach meist näher bei „Das geht nicht“.
Für so etwas braucht es einen starken politischen Willen, und zumindest in meinem Umfeld scheint es praktisch unmöglich, das auf die Reihe zu bekommen.
Die Kosten sind schwer zu stemmen, aber noch wichtiger ist, dass die Menschen, denen diese lokale Repräsentation wichtig ist, völlig damit einverstanden sind, wenn ausländische Unternehmen sie umsetzen, oder von vornherein gegen KI selbst sind. Wenn man will, kann man ChatGPT schließlich auch auf Baskisch nutzen.
- Im Fall Norwegens ist es diskutabel, ob die Kosten wirklich untragbar sind.
  Es ist ein kleines, aber extrem reiches Land und hält über Investitionen des Staatsfonds derzeit Beteiligungen, die 1,5 % aller börsennotierten Unternehmen weltweit entsprechen.
- Wenn Norwegen sich mit dem Ziel an US-Forschungseinrichtungen wendet, kuratierte Datensätze für das Training zu erstellen, würden diese ihnen sicher Zugang zum Trainingsprozess ermöglichen.
  Und solche Modelle wären wahrscheinlich deutlich besser als alles, was man im Inland selbst bauen könnte.
  Natürlich kann ich förmlich spüren, wie man beim Lesen dieses Satzes auf der anderen Seite des Bildschirms zusammenzuckt.

Norwegens 2 Petabyte Huawei-Flash-Storage und das Training von LLMs

Das souveräne LLM-Projekt der Norwegischen Nationalbibliothek

Datenbestand und Grundlage der Digitalisierung

Das Problem beim Verschieben von Daten aus dem Archiv in die KI-Pipeline

Trainingsumgebung: Sigma2 Olivia

Unterschiedliche Storage-Anforderungen

Noch ungelöste Aufgaben

Evaluierung

Governance

Orchestrierung

Bedeutung und Fazit

Verwandte Beiträge

1 Kommentare

Hacker-News-Kommentare