43 Punkte von GN⁺ 2025-12-04 | 2 Kommentare | Auf WhatsApp teilen
  • Ein Online-Handbuch zu den wichtigsten Werkzeugen und Techniken der datenwissenschaftlichen Arbeit mit Python, dessen vollständiger Inhalt auf der Website und auf GitHub veröffentlicht ist
  • Es wird im Jupyter-Notebook-Format bereitgestellt und ermöglicht praxisorientiertes Lernen, da Code und Text gemeinsam enthalten sind
  • Der Text wird unter der CC-BY-NC-ND-Lizenz, die Codebeispiele unter der MIT-Lizenz veröffentlicht, wodurch eine freie nichtkommerzielle Nutzung möglich ist
  • Behandelt systematisch zentrale Bibliotheken für Datenanalyse und Machine Learning wie IPython, NumPy, Pandas, Matplotlib und Scikit-Learn
  • Nützliches Material, um vom Einstieg bis zur Praxis den Standard-Workflow des Python-Ökosystems zu erlernen

Überblick

  • Diese Website enthält den vollständigen Inhalt von Jake VanderPlas’ „Python Data Science Handbook“
    • Das Originalbuch erschien bei O’Reilly, die Webversion ist kostenlos verfügbar
    • Sämtliche Inhalte werden im GitHub-Repository in Form von Jupyter-Notebooks bereitgestellt
  • Der Text wird unter der CC-BY-NC-ND-Lizenz, die Codebeispiele unter der MIT-Lizenz veröffentlicht
    • Nichtkommerzielle Nutzung und Wiederverwendung des Codes sind möglich
  • Wenn Leserinnen und Leser den Inhalt nützlich finden, können sie den Autor durch den Kauf des Originalbuchs unterstützen

Aufbau des Inhaltsverzeichnisses

  • Das Buch besteht aus insgesamt fünf Hauptkapiteln und einem Anhang

Kapitel 1: IPython – über normales Python hinaus

  • Erklärt die Funktionen und die Nutzung der IPython-Umgebung
    • Einschließlich Hilfesystem, Tastenkürzel, Magic-Befehle und Shell-Integration
    • Behandelt Ausführungsverlauf von Code, Debugging und Performance-Messung

Kapitel 2: Einführung in NumPy

  • Behandelt die Grundlagen numerischer Berechnungen mit NumPy-Arrays
    • Einschließlich Datentypen, Broadcasting, boolescher Masken, Sortierung und strukturierter Arrays
    • Erklärt die Nutzung arraybasierter Operationen und von Aggregationsfunktionen

Kapitel 3: Datenmanipulation mit Pandas

  • Behandelt die zentralen Objekte und Datenverarbeitungsfunktionen von Pandas
    • Einschließlich Indexierung, Umgang mit fehlenden Werten, Gruppierung, Pivot-Tabellen und Zeitreihenverarbeitung
    • Führt auch leistungsstarke Operationen mit eval() und query() ein

Kapitel 4: Visualisierung mit Matplotlib

  • Erklärt Methoden der Datenvisualisierung mit Matplotlib und Seaborn
    • Einschließlich verschiedener Diagrammtypen wie Liniendiagramme, Streudiagramme, Histogramme und Dichteplots
    • Behandelt fortgeschrittene Funktionen wie Legenden, Farbbalken, Stylesheets, 3D-Grafiken und die Visualisierung geografischer Daten

Kapitel 5: Machine Learning

  • Behandelt grundlegende Konzepte und Algorithmen des Machine Learning mit Schwerpunkt auf Scikit-Learn
    • Einschließlich zentraler Schritte wie Hyperparameter, Modellvalidierung und Feature Engineering
    • Erklärt wichtige Modelle wie Naive Bayes, lineare Regression, SVM, Random Forest, PCA, k-Means und GMM
    • Zeigt anhand eines Beispiels für eine Gesichtserkennungs-Pipeline einen praktischen Anwendungsfall

Anhang: Code für Abbildungen

  • Stellt den im Haupttext verwendeten Visualisierungscode gesammelt bereit
    • Jede Abbildung kann reproduziert und angepasst werden

Bedeutung für die Nutzung

  • Bietet Lernenden im Bereich Data Science ein integriertes Verständnis des Python-Ökosystems
  • Durch das Notebook-Format für praktische Übungen in Lehre, Forschung und Prototyping einsetzbar
  • Durch die Veröffentlichung unter einer Open-Source-Lizenz sind kontinuierliche Erweiterung und Community-Beiträge leicht möglich

2 Kommentare

 
aer0700 2025-12-06

https://product.kyobobook.co.kr/detail/S000201558138
Datenanalyse mit Python-Bibliotheken
Das ist ein Buch von Wes McKinney, dem Schöpfer von Pandas, und auch als Einstieg in Data Science sehr zu empfehlen. Ich habe es gelesen, als die 2. Auflage gerade erschienen war ... und wie ich jetzt sehe, gibt es inzwischen schon die 3. Auflage.

 
GN⁺ 2025-12-04
Hacker-News-Kommentar
  • Ich mochte Jake VanderPlas’ Vortrag Statistics for Hackers wirklich sehr
    Präsentationsfolien ansehen

    • Danke fürs Teilen. Das erinnert daran, wie sehr Denken in Häufigkeiten statt Wahrscheinlichkeiten Fehler reduzieren kann
      Wenn zum Beispiel die Prävalenz einer Krankheit 1/10.000 beträgt und ein Test eine Genauigkeit von 99 % hat, bedeutet ein positives Ergebnis trotzdem nicht, dass die Krankheit mit 99 % Wahrscheinlichkeit vorliegt
  • Solche Bücher sind immer interessant
    Sie behandeln verschiedene Themen wie Datenmanipulation, Visualisierung und Machine Learning breit, aber nicht tief, obwohl jedes einzelne Thema auch ein eigenes Buch füllen könnte
    Es ist schwer, die Balance zwischen Programmierunterricht und Einführung in Konzepte und Theorie zu finden, aber dieses Buch scheint als Einstieg eine gute Balance zu schaffen

  • Dieses Buch war 2017–2018, als ich mit Data Science angefangen habe, wirklich verdammt nützlich
    Jake war ein großartiger Lehrer

  • Interessant, dass man aus heutiger Sicht Pandas gewählt hat
    Vermutlich lag der Fokus eher darauf, allgemeine Konzepte zu vermitteln, als auf neuere Tools

    • Das Buch wurde ursprünglich 2016 veröffentlicht, daher ist es wahrscheinlich noch die 1. Auflage
    • Ich denke, Pandas ist immer noch der Industriestandard. Polars oder Spark sind eher auf Performance im Data Engineering fokussiert und weniger dafür geeignet, das gesamte Feld Data Science abzudecken
    • Das Buch ist schon ziemlich alt, daher ist „heutzutage“ vielleicht nicht ganz die passende Formulierung
    • Ich verstehe nicht so recht, was an Pandas das Problem sein soll
  • In meinem ersten Job habe ich einen Blogpost zu Kernel Density Estimation (KDE) als Referenz genutzt, und der war extrem hilfreich
    Seitdem mag ich Jakes Arbeit

  • Die Online-Version des Buchs ist auf learningds.org verfügbar
    Die Lizenz ist CC-BY-NC-ND

  • Ich verstehe nicht so recht, warum Leute Pandas hassen
    Es ist kein perfektes Tool, aber wir haben tausende Zeilen Pandas-Code in unserer Codebasis und hatten damit fast nie Produktions-Bugs
    Wir betreiben es stabil zusammen mit statischen Schema-Wrappern und Type Checkern

    • Ich würde gern wissen, ob das ein selbstgebauter Schema-Wrapper ist oder ob es ein empfehlenswertes Paket auf PyPI gibt
  • Er war ein großartiger Autor, und ich vermisse seinen Blog
    Besonders sein Artikel über Pivot-Tabellen ist mir in Erinnerung geblieben, und der Inhalt scheint jetzt im Buch enthalten zu sein

    • Er ist auch der Schöpfer der Python-Visualisierungsbibliothek Altair (auf Basis von Vega-Lite)
      Das lässt sich auf der offiziellen Altair-Website nachsehen
  • Dieses Buch wurde zwar vor 8 Jahren geschrieben, aber es gibt eine 2. Auflage vom selben Autor

    • Im GitHub-Repository gibt es eine Notebook-Version der 2. Auflage
      Dort steht „Python Data Science Handbook, 2nd edition, by Jake VanderPlas (O’Reilly). Copyright 2023…“
      Man kann sie mit der Fassung von 2016 unter dem ursprünglichen Link vergleichen
  • Als ich 2020–2021 Data Science gelernt habe, war dies eines der wenigen Bücher, die ich von vorne bis hinten komplett gelesen habe
    Ich kann es auch heute noch empfehlen