- Im Zeitalter großer Modelle bestimmt die Datenqualität die Obergrenze der Modellleistung
- Ein Open-Source-Leitfaden, der dafür systematisches Wissen zu Data Engineering vermittelt
- Deckt den gesamten Prozess ab, darunter Bereinigung von Pretraining-Daten, multimodale Ausrichtung, RAG-Datenpipelines und Erzeugung synthetischer Daten
- Besteht aus 5 Teilen mit 13 Kapiteln. Zusätzlich enthalten sind 5 praxisorientierte Capstone-Projekte sowie ausführbarer Code und Architekturentwürfe zur Unterstützung des Lernens in realen Anwendungsszenarien
- Verarbeitet Text-, Bild- und Videodaten mit einem modernen Tech-Stack wie Ray, Spark, CLIP und DVC
- Kann als praxisnahe Referenz für Entwickler von AI-Datenpipelines dienen, etwa LLM-Forschende, Data Engineers und MLOps-Spezialisten
Einführung
- Im Zeitalter großer Modelle bestimmt die Datenqualität die Leistungsgrenze des Modells
- Erstellt, um den Mangel an systematischem Material zu LLM Data Engineering auszugleichen
- Das Buch behandelt den gesamten Tech-Stack von der Bereinigung von Pretraining-Daten über multimodale Ausrichtung und RAG bis hin zur Erzeugung synthetischer Daten
- Extraktion hochwertiger Korpora aus großskaligen, verrauschten Datenquellen wie Common Crawl
- Sammlung, Bereinigung und Ausrichtung von Bild-Text-, Video- und Audiodaten
- Automatische Erzeugung von SFT-, RLHF- und CoT-Daten
- Aufbau von RAG-Pipelines einschließlich Parsing von Unternehmensdokumenten und semantischer Segmentierung
- 5 End-to-End-Capstone-Projekte ermöglichen praxisorientiertes Lernen
- Online lesbar: https://datascale-ai.github.io/data_engineering_book/en/
Aufbau des Buchs
- Die Gesamtstruktur bildet eine vollständige Data-Engineering-Pipeline von Rohdaten bis zur Anwendung ab
- Besteht aus insgesamt 6 Teilen, 13 Kapiteln und 5 Projekten
- Teil 1: Infrastruktur und Kernkonzepte
- Teil 2: Text-Data-Engineering für Pretraining
- Teil 3: Multimodales Data Engineering
- Teil 4: Alignment- und Synthetic-Data-Engineering
- Teil 5: Data Engineering auf Anwendungsebene
- Teil 6: Capstone-Projekte (Mini-C4, Legal SFT, LLaVA, Math/Code, Financial RAG)
Zentrale Merkmale
Umfassende Theorie
- Die Philosophie von Data-Centric AI zieht sich durch das gesamte Werk
- Behandelt den gesamten Lebenszyklus von LLM-Daten: von Pretraining über Fine-Tuning und RLHF bis zu RAG
- Enthält vertiefte Themen wie Scaling Laws, Bewertung der Datenqualität und multimodale Ausrichtung
Moderner Tech-Stack
- Verteiltes Computing: Ray Data, Spark
- Datenspeicherung: Parquet, WebDataset, Vector Databases
- Textverarbeitung: Trafilatura, KenLM, MinHash LSH
- Multimodale Verarbeitung: CLIP, ColPali, img2dataset
- Datenversionsverwaltung: DVC, LakeFS
Umfangreiche Capstone-Projekte
- Mini-C4: Aufbau eines hochwertigen Textkorpus mit Trafilatura + Ray + MinHash
- Legal Expert SFT: Domänenspezifischer Instruction-Datensatz auf Basis von Self-Instruct + CoT
- LLaVA Multimodal: Erstellung eines visuellen Instruction-Datensatzes mit Bbox-Ausrichtung und Multi-Image-Interleaving
- Math Textbook: Aufbau eines Reasoning-Datensatzes mit Evol-Instruct + Sandbox-Validierung
- Financial Report RAG: Implementierung eines multimodalen Frage-Antwort-Systems mit ColPali + Qwen-VL
Lokale Entwicklung
- Erforderliche Umgebung: Python 3.8 oder höher, MkDocs Material, mkdocs-static-i18n
- Installation und Vorschau
- Repository per
git clone klonen und anschließend die Abhängigkeiten installieren
- Mit
mkdocs serve ist eine lokale Vorschau möglich (mit Umschaltung zwischen Chinesisch und Englisch)
- Build der statischen Website: Mit
mkdocs build wird das Ergebnis im Verzeichnis site/ erzeugt
Projektstruktur
- Der Ordner
docs/ enthält Inhalte auf Chinesisch (zh/) und Englisch (en/)
- Ressourcenverzeichnisse wie
images/, stylesheets/ und javascripts/ sind enthalten
- CI/CD-Konfigurationen befinden sich unter
.github/workflows/
- Die Site-Konfiguration wird über
mkdocs.yml verwaltet
- Die Lizenz ist die MIT License
Zielgruppe
- LLM-Forschungs- und Entwicklungsingenieure, Data Engineers, MLOps-Ingenieure, technisch orientierte AI-PMs und Forschende zu LLM-Datenpipelines
Lizenz
- Gilt unter der MIT License
Noch keine Kommentare.