Data Engineering für große Modelle: Architektur, Algorithmen und Projekte

(github.com/datascale-ai)

15 Punkte von GN⁺ 2026-02-16 | Noch keine Kommentare. | Auf WhatsApp teilen

Im Zeitalter großer Modelle bestimmt die Datenqualität die Obergrenze der Modellleistung
Ein Open-Source-Leitfaden, der dafür systematisches Wissen zu Data Engineering vermittelt
Deckt den gesamten Prozess ab, darunter Bereinigung von Pretraining-Daten, multimodale Ausrichtung, RAG-Datenpipelines und Erzeugung synthetischer Daten
Besteht aus 5 Teilen mit 13 Kapiteln. Zusätzlich enthalten sind 5 praxisorientierte Capstone-Projekte sowie ausführbarer Code und Architekturentwürfe zur Unterstützung des Lernens in realen Anwendungsszenarien
Verarbeitet Text-, Bild- und Videodaten mit einem modernen Tech-Stack wie Ray, Spark, CLIP und DVC
Kann als praxisnahe Referenz für Entwickler von AI-Datenpipelines dienen, etwa LLM-Forschende, Data Engineers und MLOps-Spezialisten

Einführung

Im Zeitalter großer Modelle bestimmt die Datenqualität die Leistungsgrenze des Modells
- Erstellt, um den Mangel an systematischem Material zu LLM Data Engineering auszugleichen
Das Buch behandelt den gesamten Tech-Stack von der Bereinigung von Pretraining-Daten über multimodale Ausrichtung und RAG bis hin zur Erzeugung synthetischer Daten
- Extraktion hochwertiger Korpora aus großskaligen, verrauschten Datenquellen wie Common Crawl
- Sammlung, Bereinigung und Ausrichtung von Bild-Text-, Video- und Audiodaten
- Automatische Erzeugung von SFT-, RLHF- und CoT-Daten
- Aufbau von RAG-Pipelines einschließlich Parsing von Unternehmensdokumenten und semantischer Segmentierung
5 End-to-End-Capstone-Projekte ermöglichen praxisorientiertes Lernen
Online lesbar: https://datascale-ai.github.io/data_engineering_book/en/

Die Gesamtstruktur bildet eine vollständige Data-Engineering-Pipeline von Rohdaten bis zur Anwendung ab
Besteht aus insgesamt 6 Teilen, 13 Kapiteln und 5 Projekten
- Teil 1: Infrastruktur und Kernkonzepte
- Teil 2: Text-Data-Engineering für Pretraining
- Teil 3: Multimodales Data Engineering
- Teil 4: Alignment- und Synthetic-Data-Engineering
- Teil 5: Data Engineering auf Anwendungsebene
- Teil 6: Capstone-Projekte (Mini-C4, Legal SFT, LLaVA, Math/Code, Financial RAG)

Die Philosophie von Data-Centric AI zieht sich durch das gesamte Werk
Behandelt den gesamten Lebenszyklus von LLM-Daten: von Pretraining über Fine-Tuning und RLHF bis zu RAG
Enthält vertiefte Themen wie Scaling Laws, Bewertung der Datenqualität und multimodale Ausrichtung

Mini-C4: Aufbau eines hochwertigen Textkorpus mit Trafilatura + Ray + MinHash
Legal Expert SFT: Domänenspezifischer Instruction-Datensatz auf Basis von Self-Instruct + CoT
LLaVA Multimodal: Erstellung eines visuellen Instruction-Datensatzes mit Bbox-Ausrichtung und Multi-Image-Interleaving
Math Textbook: Aufbau eines Reasoning-Datensatzes mit Evol-Instruct + Sandbox-Validierung
Financial Report RAG: Implementierung eines multimodalen Frage-Antwort-Systems mit ColPali + Qwen-VL

Erforderliche Umgebung: Python 3.8 oder höher, MkDocs Material, mkdocs-static-i18n
Installation und Vorschau
- Repository per git clone klonen und anschließend die Abhängigkeiten installieren
- Mit mkdocs serve ist eine lokale Vorschau möglich (mit Umschaltung zwischen Chinesisch und Englisch)
Build der statischen Website: Mit mkdocs build wird das Ergebnis im Verzeichnis site/ erzeugt

Der Ordner docs/ enthält Inhalte auf Chinesisch (zh/) und Englisch (en/)
Ressourcenverzeichnisse wie images/, stylesheets/ und javascripts/ sind enthalten
CI/CD-Konfigurationen befinden sich unter .github/workflows/
Die Site-Konfiguration wird über mkdocs.yml verwaltet
Die Lizenz ist die MIT License

LLM-Forschungs- und Entwicklungsingenieure, Data Engineers, MLOps-Ingenieure, technisch orientierte AI-PMs und Forschende zu LLM-Datenpipelines