15 Punkte von GN⁺ 2026-02-16 | 1 Kommentare | Auf WhatsApp teilen
  • Im Zeitalter großer Modelle bestimmt die Datenqualität die Obergrenze der Modellleistung
  • Ein Open-Source-Leitfaden, der dafür systematisches Wissen zu Data Engineering vermittelt
  • Deckt den gesamten Prozess ab, darunter Bereinigung von Pretraining-Daten, multimodale Ausrichtung, RAG-Datenpipelines und Erzeugung synthetischer Daten
  • Besteht aus 5 Teilen mit 13 Kapiteln. Zusätzlich enthalten sind 5 praxisorientierte Capstone-Projekte sowie ausführbarer Code und Architekturentwürfe zur Unterstützung des Lernens in realen Anwendungsszenarien
  • Verarbeitet Text-, Bild- und Videodaten mit einem modernen Tech-Stack wie Ray, Spark, CLIP und DVC
  • Kann als praxisnahe Referenz für Entwickler von AI-Datenpipelines dienen, etwa LLM-Forschende, Data Engineers und MLOps-Spezialisten

Einführung

  • Im Zeitalter großer Modelle bestimmt die Datenqualität die Leistungsgrenze des Modells
    • Erstellt, um den Mangel an systematischem Material zu LLM Data Engineering auszugleichen
  • Das Buch behandelt den gesamten Tech-Stack von der Bereinigung von Pretraining-Daten über multimodale Ausrichtung und RAG bis hin zur Erzeugung synthetischer Daten
    • Extraktion hochwertiger Korpora aus großskaligen, verrauschten Datenquellen wie Common Crawl
    • Sammlung, Bereinigung und Ausrichtung von Bild-Text-, Video- und Audiodaten
    • Automatische Erzeugung von SFT-, RLHF- und CoT-Daten
    • Aufbau von RAG-Pipelines einschließlich Parsing von Unternehmensdokumenten und semantischer Segmentierung
  • 5 End-to-End-Capstone-Projekte ermöglichen praxisorientiertes Lernen
  • Online lesbar: https://datascale-ai.github.io/data_engineering_book/en/

Aufbau des Buchs

  • Die Gesamtstruktur bildet eine vollständige Data-Engineering-Pipeline von Rohdaten bis zur Anwendung ab
  • Besteht aus insgesamt 6 Teilen, 13 Kapiteln und 5 Projekten
    • Teil 1: Infrastruktur und Kernkonzepte
    • Teil 2: Text-Data-Engineering für Pretraining
    • Teil 3: Multimodales Data Engineering
    • Teil 4: Alignment- und Synthetic-Data-Engineering
    • Teil 5: Data Engineering auf Anwendungsebene
    • Teil 6: Capstone-Projekte (Mini-C4, Legal SFT, LLaVA, Math/Code, Financial RAG)

Zentrale Merkmale

Umfassende Theorie

  • Die Philosophie von Data-Centric AI zieht sich durch das gesamte Werk
  • Behandelt den gesamten Lebenszyklus von LLM-Daten: von Pretraining über Fine-Tuning und RLHF bis zu RAG
  • Enthält vertiefte Themen wie Scaling Laws, Bewertung der Datenqualität und multimodale Ausrichtung

Moderner Tech-Stack

  • Verteiltes Computing: Ray Data, Spark
  • Datenspeicherung: Parquet, WebDataset, Vector Databases
  • Textverarbeitung: Trafilatura, KenLM, MinHash LSH
  • Multimodale Verarbeitung: CLIP, ColPali, img2dataset
  • Datenversionsverwaltung: DVC, LakeFS

Umfangreiche Capstone-Projekte

  • Mini-C4: Aufbau eines hochwertigen Textkorpus mit Trafilatura + Ray + MinHash
  • Legal Expert SFT: Domänenspezifischer Instruction-Datensatz auf Basis von Self-Instruct + CoT
  • LLaVA Multimodal: Erstellung eines visuellen Instruction-Datensatzes mit Bbox-Ausrichtung und Multi-Image-Interleaving
  • Math Textbook: Aufbau eines Reasoning-Datensatzes mit Evol-Instruct + Sandbox-Validierung
  • Financial Report RAG: Implementierung eines multimodalen Frage-Antwort-Systems mit ColPali + Qwen-VL

Lokale Entwicklung

  • Erforderliche Umgebung: Python 3.8 oder höher, MkDocs Material, mkdocs-static-i18n
  • Installation und Vorschau
    • Repository per git clone klonen und anschließend die Abhängigkeiten installieren
    • Mit mkdocs serve ist eine lokale Vorschau möglich (mit Umschaltung zwischen Chinesisch und Englisch)
  • Build der statischen Website: Mit mkdocs build wird das Ergebnis im Verzeichnis site/ erzeugt

Projektstruktur

  • Der Ordner docs/ enthält Inhalte auf Chinesisch (zh/) und Englisch (en/)
  • Ressourcenverzeichnisse wie images/, stylesheets/ und javascripts/ sind enthalten
  • CI/CD-Konfigurationen befinden sich unter .github/workflows/
  • Die Site-Konfiguration wird über mkdocs.yml verwaltet
  • Die Lizenz ist die MIT License

Zielgruppe

  • LLM-Forschungs- und Entwicklungsingenieure, Data Engineers, MLOps-Ingenieure, technisch orientierte AI-PMs und Forschende zu LLM-Datenpipelines

Lizenz

  • Gilt unter der MIT License

1 Kommentare

 
GN⁺ 2026-02-16
Hacker-News-Kommentare
  • Ich lese dieses Buch mit großem Dank. Die Qualität der Übersetzung ist sehr hoch
    Ich bin völliger Anfänger beim LLM-Training und experimentiere gerade auf Apple Silicon mit einer neuen Architektur für die Generierung von Python-Code
    Allerdings ist es frustrierend, dass Datentools nicht codezentriert sind, sondern sich auf normalen Text oder Bilder fokussieren
    Da SGlang unter MacOS nicht läuft, kann ich keine synthetischen Daten mit EBNF-constrained output erzeugen
    Ich lade Python-Code-Korpora direkt herunter und kümmere mich um APFS-Probleme, Sharding sowie benutzerdefinierte Klassifizierung, Bereinigung und Mischung; überraschend ist, dass es für Code keine vorab getaggten Datensätze gibt

  • Wenn es ein Buch über das neu entstehende Feld des Data Engineering für LLMs ist, sollte es auch auf aufkommende Kategorien wie Storage-Formate für den gesamten ML-Lebenszyklus eingehen
    Zum Beispiel ist Lance ein für analytische Workloads und Vektor-Workloads optimierter spaltenorientierter Storage, der Versionierung und Random Access unterstützt
    Das ist sehr wichtig für Sampling, effizientes Filtern und den Umgang mit multimodalen Daten (z. B. Video)
    Ähnliche Beispiele sind vortex und Metas nimble

  • Ich denke, der Titel „Data Engineering for LLMs“ wäre passender

    • Guter Hinweis. Inhaltlich ist „Data Engineering for LLMs“ deutlich präziser, deshalb werde ich das direkt an den Projektleiter weitergeben
  • Vielleicht liegt es an der Übersetzung, aber die Erklärung des „Modern Data Stack“ am Anfang hat bei mir kein Vertrauen geweckt
    Der Abschnitt 1_2_data_infra.md war etwas vage,
    aber die späteren Abschnitte zu Datenbereinigung und RAG-Pipelines waren viel klarer

    • Danke für das ehrliche Feedback
  • Die englische Version ist in README_en.md

    • Danke! Ich habe den oberen Link damit ersetzt. Die ursprünglich eingereichte URL war data_engineering_book
      Der Beitrag war im Spam-Filter hängen geblieben, aber der Autor hat mich per E-Mail informiert, daher habe ich ihn eingeladen, den Hintergrund in einem Kommentar zu teilen. Jetzt ist das oben entsprechend eingearbeitet
    • Danke fürs Teilen des Direktlinks
  • Sehr interessant, ich habe es mir als Lesezeichen gespeichert. Ich frage mich allerdings, ob das README mit ChatGPT geschrieben wurde

    • Ja. Wir sind ein chinesisches Team und haben GPT für die englische Übersetzung verwendet. Danke für das Feedback, dass es etwas nach „künstlicher Wärme“ klang. Künftig werden wir es in einem neutraleren und knapperen Ton überarbeiten
    • Ich hatte auch diesen Eindruck. Es gibt viele Übersichtstabellen und eine künstliche Ausdrucksweise, wodurch es stark nach einem vom LLM geschriebenen Text wirkte. Auch wenn es nicht GPT gewesen wäre, wäre eine umfassende Überarbeitung nötig
  • Der Satz „Data is the new oil, but only if you know how to refine it.“ ist mir aufgefallen
    Da auch Erdöl ohne Raffinierung nutzlos ist, wäre eine Formulierung wie „Daten sind das neue Erdöl, aber erst durch Raffinierung werden sie wertvoll“ natürlicher

  • Der Abschnitt „Vector DB vs Keyword Search“ war interessant. Ich frage mich, wo ihr in Experimenten mit RAG-Pipelines die Grenze zieht
    Nach unserer Erfahrung ist Keyword Search wie BM25 stark bei Entitätsnamen und IDs, während Vektorsuche bei konzeptionellen Anfragen stärker ist. Mich würde interessieren, ob das Buch auch hybride Suche oder Reranking behandelt

    • Gute Frage. In echten Produktionsumgebungen war ein hybrider Ansatz aus BM25+Vektor in den meisten Fällen effektiv. In etwa im Verhältnis 70/30 ist Keyword Search bei exakten Treffern im Vorteil
      Der Schlüssel ist Reranking. Man sollte die Ergebnisse nicht einfach nur zusammenführen, sondern die Scores mit einem Cross-Encoder (z. B. Cohere oder ein benutzerdefiniertes Modell) neu bewerten
      Rein semantische Suche ist vor allem dann im Vorteil, wenn die Anfrage stark auf abstrakte Konzepte ausgerichtet ist
    • Danke für den Einblick. Solche Muster wollen wir in künftigen Updates behandeln. Wir sind gerade in den Feiertagen zum Frühlingsfest, daher könnte es etwas Verzögerung geben
  • Die Abbildungen in den einzelnen Kapiteln sind auf Englisch (mit Ausnahme der Bilder in README_en.md)

    • Danke für den Hinweis! Mir war dieser Unterschied bewusst geworden, und ich habe die Diagramme in README_en.md sofort korrigiert. Jetzt sollten sie korrekt angezeigt werden
  • Parquet allein reicht für modernes Data Engineering nicht aus. Delta und Iceberg sollten ebenfalls enthalten sein

    • Danke für das Feedback! Ich habe es an die zuständige Person für diesen Abschnitt weitergeleitet. Wegen der Feiertage zum Frühlingsfest kann sich das Update etwas verzögern. Ich wünsche ein frohes neues Jahr