Python Data Science Handbook

(jakevdp.github.io)

43 Punkte von GN⁺ 2025-12-04 | 2 Kommentare | Auf WhatsApp teilen

Ein Online-Handbuch zu den wichtigsten Werkzeugen und Techniken der datenwissenschaftlichen Arbeit mit Python, dessen vollständiger Inhalt auf der Website und auf GitHub veröffentlicht ist
Es wird im Jupyter-Notebook-Format bereitgestellt und ermöglicht praxisorientiertes Lernen, da Code und Text gemeinsam enthalten sind
Der Text wird unter der CC-BY-NC-ND-Lizenz, die Codebeispiele unter der MIT-Lizenz veröffentlicht, wodurch eine freie nichtkommerzielle Nutzung möglich ist
Behandelt systematisch zentrale Bibliotheken für Datenanalyse und Machine Learning wie IPython, NumPy, Pandas, Matplotlib und Scikit-Learn
Nützliches Material, um vom Einstieg bis zur Praxis den Standard-Workflow des Python-Ökosystems zu erlernen

Überblick

Diese Website enthält den vollständigen Inhalt von Jake VanderPlas’ „Python Data Science Handbook“
- Das Originalbuch erschien bei O’Reilly, die Webversion ist kostenlos verfügbar
- Sämtliche Inhalte werden im GitHub-Repository in Form von Jupyter-Notebooks bereitgestellt
Der Text wird unter der CC-BY-NC-ND-Lizenz, die Codebeispiele unter der MIT-Lizenz veröffentlicht
- Nichtkommerzielle Nutzung und Wiederverwendung des Codes sind möglich
Wenn Leserinnen und Leser den Inhalt nützlich finden, können sie den Autor durch den Kauf des Originalbuchs unterstützen

Aufbau des Inhaltsverzeichnisses

Das Buch besteht aus insgesamt fünf Hauptkapiteln und einem Anhang

Kapitel 1: IPython – über normales Python hinaus

Erklärt die Funktionen und die Nutzung der IPython-Umgebung
- Einschließlich Hilfesystem, Tastenkürzel, Magic-Befehle und Shell-Integration
- Behandelt Ausführungsverlauf von Code, Debugging und Performance-Messung

Kapitel 2: Einführung in NumPy

Behandelt die Grundlagen numerischer Berechnungen mit NumPy-Arrays
- Einschließlich Datentypen, Broadcasting, boolescher Masken, Sortierung und strukturierter Arrays
- Erklärt die Nutzung arraybasierter Operationen und von Aggregationsfunktionen

Kapitel 3: Datenmanipulation mit Pandas

Behandelt die zentralen Objekte und Datenverarbeitungsfunktionen von Pandas
- Einschließlich Indexierung, Umgang mit fehlenden Werten, Gruppierung, Pivot-Tabellen und Zeitreihenverarbeitung
- Führt auch leistungsstarke Operationen mit eval() und query() ein

Kapitel 4: Visualisierung mit Matplotlib

Erklärt Methoden der Datenvisualisierung mit Matplotlib und Seaborn
- Einschließlich verschiedener Diagrammtypen wie Liniendiagramme, Streudiagramme, Histogramme und Dichteplots
- Behandelt fortgeschrittene Funktionen wie Legenden, Farbbalken, Stylesheets, 3D-Grafiken und die Visualisierung geografischer Daten

Kapitel 5: Machine Learning

Behandelt grundlegende Konzepte und Algorithmen des Machine Learning mit Schwerpunkt auf Scikit-Learn
- Einschließlich zentraler Schritte wie Hyperparameter, Modellvalidierung und Feature Engineering
- Erklärt wichtige Modelle wie Naive Bayes, lineare Regression, SVM, Random Forest, PCA, k-Means und GMM
- Zeigt anhand eines Beispiels für eine Gesichtserkennungs-Pipeline einen praktischen Anwendungsfall

Anhang: Code für Abbildungen

Stellt den im Haupttext verwendeten Visualisierungscode gesammelt bereit
- Jede Abbildung kann reproduziert und angepasst werden

Bedeutung für die Nutzung

Bietet Lernenden im Bereich Data Science ein integriertes Verständnis des Python-Ökosystems
Durch das Notebook-Format für praktische Übungen in Lehre, Forschung und Prototyping einsetzbar
Durch die Veröffentlichung unter einer Open-Source-Lizenz sind kontinuierliche Erweiterung und Community-Beiträge leicht möglich

2 Kommentare

aer0700 2025-12-06

https://product.kyobobook.co.kr/detail/S000201558138
Datenanalyse mit Python-Bibliotheken
Das ist ein Buch von Wes McKinney, dem Schöpfer von Pandas, und auch als Einstieg in Data Science sehr zu empfehlen. Ich habe es gelesen, als die 2. Auflage gerade erschienen war ... und wie ich jetzt sehe, gibt es inzwischen schon die 3. Auflage.

GN⁺ 2025-12-04

Hacker-News-Kommentar

Ich mochte Jake VanderPlas’ Vortrag Statistics for Hackers wirklich sehr
Präsentationsfolien ansehen
- Danke fürs Teilen. Das erinnert daran, wie sehr Denken in Häufigkeiten statt Wahrscheinlichkeiten Fehler reduzieren kann
  Wenn zum Beispiel die Prävalenz einer Krankheit 1/10.000 beträgt und ein Test eine Genauigkeit von 99 % hat, bedeutet ein positives Ergebnis trotzdem nicht, dass die Krankheit mit 99 % Wahrscheinlichkeit vorliegt
Solche Bücher sind immer interessant
Sie behandeln verschiedene Themen wie Datenmanipulation, Visualisierung und Machine Learning breit, aber nicht tief, obwohl jedes einzelne Thema auch ein eigenes Buch füllen könnte
Es ist schwer, die Balance zwischen Programmierunterricht und Einführung in Konzepte und Theorie zu finden, aber dieses Buch scheint als Einstieg eine gute Balance zu schaffen
Dieses Buch war 2017–2018, als ich mit Data Science angefangen habe, wirklich verdammt nützlich
Jake war ein großartiger Lehrer
Interessant, dass man aus heutiger Sicht Pandas gewählt hat
Vermutlich lag der Fokus eher darauf, allgemeine Konzepte zu vermitteln, als auf neuere Tools
- Das Buch wurde ursprünglich 2016 veröffentlicht, daher ist es wahrscheinlich noch die 1. Auflage
- Ich denke, Pandas ist immer noch der Industriestandard. Polars oder Spark sind eher auf Performance im Data Engineering fokussiert und weniger dafür geeignet, das gesamte Feld Data Science abzudecken
- Das Buch ist schon ziemlich alt, daher ist „heutzutage“ vielleicht nicht ganz die passende Formulierung
- Ich verstehe nicht so recht, was an Pandas das Problem sein soll
In meinem ersten Job habe ich einen Blogpost zu Kernel Density Estimation (KDE) als Referenz genutzt, und der war extrem hilfreich
Seitdem mag ich Jakes Arbeit
Die Online-Version des Buchs ist auf learningds.org verfügbar
Die Lizenz ist CC-BY-NC-ND
Ich verstehe nicht so recht, warum Leute Pandas hassen
Es ist kein perfektes Tool, aber wir haben tausende Zeilen Pandas-Code in unserer Codebasis und hatten damit fast nie Produktions-Bugs
Wir betreiben es stabil zusammen mit statischen Schema-Wrappern und Type Checkern
- Ich würde gern wissen, ob das ein selbstgebauter Schema-Wrapper ist oder ob es ein empfehlenswertes Paket auf PyPI gibt
Er war ein großartiger Autor, und ich vermisse seinen Blog
Besonders sein Artikel über Pivot-Tabellen ist mir in Erinnerung geblieben, und der Inhalt scheint jetzt im Buch enthalten zu sein
- Er ist auch der Schöpfer der Python-Visualisierungsbibliothek Altair (auf Basis von Vega-Lite)
  Das lässt sich auf der offiziellen Altair-Website nachsehen
Dieses Buch wurde zwar vor 8 Jahren geschrieben, aber es gibt eine 2. Auflage vom selben Autor
- Im GitHub-Repository gibt es eine Notebook-Version der 2. Auflage
  Dort steht „Python Data Science Handbook, 2nd edition, by Jake VanderPlas (O’Reilly). Copyright 2023…“
  Man kann sie mit der Fassung von 2016 unter dem ursprünglichen Link vergleichen
Als ich 2020–2021 Data Science gelernt habe, war dies eines der wenigen Bücher, die ich von vorne bis hinten komplett gelesen habe
Ich kann es auch heute noch empfehlen