15 Punkte von GN⁺ 2026-02-16 | Noch keine Kommentare. | Auf WhatsApp teilen
  • Im Zeitalter großer Modelle bestimmt die Datenqualität die Obergrenze der Modellleistung
  • Ein Open-Source-Leitfaden, der dafür systematisches Wissen zu Data Engineering vermittelt
  • Deckt den gesamten Prozess ab, darunter Bereinigung von Pretraining-Daten, multimodale Ausrichtung, RAG-Datenpipelines und Erzeugung synthetischer Daten
  • Besteht aus 5 Teilen mit 13 Kapiteln. Zusätzlich enthalten sind 5 praxisorientierte Capstone-Projekte sowie ausführbarer Code und Architekturentwürfe zur Unterstützung des Lernens in realen Anwendungsszenarien
  • Verarbeitet Text-, Bild- und Videodaten mit einem modernen Tech-Stack wie Ray, Spark, CLIP und DVC
  • Kann als praxisnahe Referenz für Entwickler von AI-Datenpipelines dienen, etwa LLM-Forschende, Data Engineers und MLOps-Spezialisten

Einführung

  • Im Zeitalter großer Modelle bestimmt die Datenqualität die Leistungsgrenze des Modells
    • Erstellt, um den Mangel an systematischem Material zu LLM Data Engineering auszugleichen
  • Das Buch behandelt den gesamten Tech-Stack von der Bereinigung von Pretraining-Daten über multimodale Ausrichtung und RAG bis hin zur Erzeugung synthetischer Daten
    • Extraktion hochwertiger Korpora aus großskaligen, verrauschten Datenquellen wie Common Crawl
    • Sammlung, Bereinigung und Ausrichtung von Bild-Text-, Video- und Audiodaten
    • Automatische Erzeugung von SFT-, RLHF- und CoT-Daten
    • Aufbau von RAG-Pipelines einschließlich Parsing von Unternehmensdokumenten und semantischer Segmentierung
  • 5 End-to-End-Capstone-Projekte ermöglichen praxisorientiertes Lernen
  • Online lesbar: https://datascale-ai.github.io/data_engineering_book/en/

Aufbau des Buchs

  • Die Gesamtstruktur bildet eine vollständige Data-Engineering-Pipeline von Rohdaten bis zur Anwendung ab
  • Besteht aus insgesamt 6 Teilen, 13 Kapiteln und 5 Projekten
    • Teil 1: Infrastruktur und Kernkonzepte
    • Teil 2: Text-Data-Engineering für Pretraining
    • Teil 3: Multimodales Data Engineering
    • Teil 4: Alignment- und Synthetic-Data-Engineering
    • Teil 5: Data Engineering auf Anwendungsebene
    • Teil 6: Capstone-Projekte (Mini-C4, Legal SFT, LLaVA, Math/Code, Financial RAG)

Zentrale Merkmale

Umfassende Theorie

  • Die Philosophie von Data-Centric AI zieht sich durch das gesamte Werk
  • Behandelt den gesamten Lebenszyklus von LLM-Daten: von Pretraining über Fine-Tuning und RLHF bis zu RAG
  • Enthält vertiefte Themen wie Scaling Laws, Bewertung der Datenqualität und multimodale Ausrichtung

Moderner Tech-Stack

  • Verteiltes Computing: Ray Data, Spark
  • Datenspeicherung: Parquet, WebDataset, Vector Databases
  • Textverarbeitung: Trafilatura, KenLM, MinHash LSH
  • Multimodale Verarbeitung: CLIP, ColPali, img2dataset
  • Datenversionsverwaltung: DVC, LakeFS

Umfangreiche Capstone-Projekte

  • Mini-C4: Aufbau eines hochwertigen Textkorpus mit Trafilatura + Ray + MinHash
  • Legal Expert SFT: Domänenspezifischer Instruction-Datensatz auf Basis von Self-Instruct + CoT
  • LLaVA Multimodal: Erstellung eines visuellen Instruction-Datensatzes mit Bbox-Ausrichtung und Multi-Image-Interleaving
  • Math Textbook: Aufbau eines Reasoning-Datensatzes mit Evol-Instruct + Sandbox-Validierung
  • Financial Report RAG: Implementierung eines multimodalen Frage-Antwort-Systems mit ColPali + Qwen-VL

Lokale Entwicklung

  • Erforderliche Umgebung: Python 3.8 oder höher, MkDocs Material, mkdocs-static-i18n
  • Installation und Vorschau
    • Repository per git clone klonen und anschließend die Abhängigkeiten installieren
    • Mit mkdocs serve ist eine lokale Vorschau möglich (mit Umschaltung zwischen Chinesisch und Englisch)
  • Build der statischen Website: Mit mkdocs build wird das Ergebnis im Verzeichnis site/ erzeugt

Projektstruktur

  • Der Ordner docs/ enthält Inhalte auf Chinesisch (zh/) und Englisch (en/)
  • Ressourcenverzeichnisse wie images/, stylesheets/ und javascripts/ sind enthalten
  • CI/CD-Konfigurationen befinden sich unter .github/workflows/
  • Die Site-Konfiguration wird über mkdocs.yml verwaltet
  • Die Lizenz ist die MIT License

Zielgruppe

  • LLM-Forschungs- und Entwicklungsingenieure, Data Engineers, MLOps-Ingenieure, technisch orientierte AI-PMs und Forschende zu LLM-Datenpipelines

Lizenz

  • Gilt unter der MIT License

Noch keine Kommentare.

Noch keine Kommentare.