RustGPT: Ein reines Transformer-LLM, von Grund auf vollständig in Rust implementiert

(github.com/tekaratzas)

23 Punkte von GN⁺ 2025-09-16 | Noch keine Kommentare. | Auf WhatsApp teilen

RustGPT ist ein transformerbasiertes Sprachmodell, das ohne externe Machine-Learning-Frameworks ausschließlich mit reinem Rust und ndarray implementiert wurde
Es ist darauf ausgelegt, durch Pre-Training und Instruction Tuning faktenbasiertes Wissen und dialogorientierte Muster zu erlernen
Die Struktur folgt einer typischen LLM-Architektur: Tokenizer → Embeddings → Transformer-Blöcke → Output Projection
Mit einer modularen Quellstruktur und Testcode lässt sich der Ablauf von Training, Inferenz und Optimierung im Detail nachvollziehen
Eine wichtige Referenz für Entwickler und Lernende im Rust-Ökosystem, die ein LLM von Grund auf ohne Framework-Abhängigkeiten implementieren möchten

Projektüberblick

RustGPT ist ein Open-Source-Projekt, das ein LLM ohne externe Machine-Learning-Frameworks oder komplexe Abhängigkeiten ausschließlich mit der Programmiersprache Rust und der linearen Algebra-Bibliothek ndarray implementiert
Das Hauptziel ist, die Kernkomponenten moderner LLMs (Transformer, Attention, Embeddings, Optimierung usw.) direkt zu implementieren und den Trainingsprozess zu verstehen
Im Unterschied zu anderen gängigen LLMs werden Transformer-Struktur, Backpropagation, Tokenizer und Optimizer vollständig in Rust-Code entworfen. Das ist ein großer Vorteil für Rust-Entwickler und Forschende, die die Prinzipien des Deep Learning von Grund auf verstehen und erweitern möchten
Ein Unterscheidungsmerkmal ist, dass Matrixoperationen mit ndarray ausgeführt werden und keine Abhängigkeit von externen Machine-Learning-Paketen wie PyTorch oder TensorFlow besteht
Dank solider Modularisierung und guter Testabdeckung eignet sich das Projekt für vielfältige Experimente und Verbesserungen sowie für Bildungszwecke im Stil eines „LLM from Scratch“

Transformer-Architektur: Eingabetext → Tokenisierung → Embeddings → Transformer-Blöcke → finale Vorhersage
- Der Eingabetext wird durch den Tokenisierungsprozess in Embedding-Vektoren umgewandelt
- Die Embeddings durchlaufen Transformer Blocks (Multi-Head Attention + Feed-Forward-Netzwerk)
- Abschließend erzeugt die Output Projection Layer eine Wahrscheinlichkeitsverteilung über das Vokabular und führt so die Vorhersage aus

main.rs: Trainingspipeline, Datenvorbereitung, Ausführung des interaktiven Modus
llm.rs: Forward- und Backward-Pass sowie Trainingslogik des gesamten LLM
transformer.rs, self_attention.rs, feed_forward.rs: zentrale Transformer-Blöcke
embeddings.rs, output_projection.rs: Embeddings und finale Ausgabeschicht
adam.rs: Implementierung des Adam-Optimizers
Jedes Modul enthält entsprechenden Testcode (tests/), sodass die Funktionen überprüft werden können

Trainingsprozess
- Vokabularaufbau → Pre-Training (100 Epochen, Datensatz mit Faktensätzen) → Instruction Tuning (100 Epochen, Dialogdaten)
- Beispiel für Pre-Training: "The sun rises in the east and sets in the west"
- Beispiel für Instruction Tuning: "User: How do mountains form? Assistant: ..."
Unterstützung für interaktiven Modus
- Nach Abschluss des Trainings sind Dialogtests auf Basis von Prompt und Antwort möglich
- Beispiel: "How do mountains form?" → "Mountains are formed through tectonic forces or volcanism..."

Vokabulargröße: dynamisch auf Basis der Trainingsdaten festgelegt
Embedding-Dimension: 128, Hidden Layer: 256
Maximale Sequenzlänge: 80 Tokens
Architektur: 3 Transformer-Blöcke + Embeddings + Ausgabeschicht
Trainingsalgorithmus: Adam-Optimizer, Gradient Clipping (Begrenzung auf L2-Norm 5.0)
Lernrate: Pre-Training 0.0005, Instruction Tuning 0.0001
Verlustfunktion: Cross-Entropy-Loss

Benutzerdefinierter Tokenizer (Verarbeitung von Satzzeichen)
Textgenerierung auf Basis von Greedy Decoding
Modulare Schichtenstruktur und klare Interfaces
Testabdeckung: Unit-Tests für jede Schicht und Funktion enthalten
Abhängigkeiten: nur ndarray (Matrixoperationen) und rand/rand_distr (Zufallsinitialisierung); keine externen ML-Pakete wie PyTorch/TensorFlow
Pädagogischer Wert: optimal, um interne Strukturen und Trainingsprinzipien moderner LLMs kennenzulernen

Einführung fortgeschrittener Architekturen: Multi-Head Attention, RoPE, Positionskodierung usw.
Leistungsoptimierung: SIMD, paralleles Training, Verbesserungen der Speichereffizienz
Unterstützung zum Speichern/Laden von Modellen
Verbesserte Sampling-Methoden (Beam Search, Top-k/Top-p) und zusätzliche Evaluationsmetriken

Ein Lern- und Experimentalprojekt, das zeigt, dass sich ein LLM direkt nur mit Rust implementieren lässt, ohne auf Python-basierte Frameworks wie PyTorch oder TensorFlow angewiesen zu sein
Eine nützliche Referenz für Entwickler, die die interne Funktionsweise von LLMs verstehen und ML-Systeme in einer Rust-Umgebung entwickeln möchten