- Ein Online-Handbuch zu den wichtigsten Werkzeugen und Techniken der datenwissenschaftlichen Arbeit mit Python, dessen vollständiger Inhalt auf der Website und auf GitHub veröffentlicht ist
- Es wird im Jupyter-Notebook-Format bereitgestellt und ermöglicht praxisorientiertes Lernen, da Code und Text gemeinsam enthalten sind
- Der Text wird unter der CC-BY-NC-ND-Lizenz, die Codebeispiele unter der MIT-Lizenz veröffentlicht, wodurch eine freie nichtkommerzielle Nutzung möglich ist
- Behandelt systematisch zentrale Bibliotheken für Datenanalyse und Machine Learning wie IPython, NumPy, Pandas, Matplotlib und Scikit-Learn
- Nützliches Material, um vom Einstieg bis zur Praxis den Standard-Workflow des Python-Ökosystems zu erlernen
Überblick
- Diese Website enthält den vollständigen Inhalt von Jake VanderPlas’ „Python Data Science Handbook“
- Das Originalbuch erschien bei O’Reilly, die Webversion ist kostenlos verfügbar
- Sämtliche Inhalte werden im GitHub-Repository in Form von Jupyter-Notebooks bereitgestellt
- Der Text wird unter der CC-BY-NC-ND-Lizenz, die Codebeispiele unter der MIT-Lizenz veröffentlicht
- Nichtkommerzielle Nutzung und Wiederverwendung des Codes sind möglich
- Wenn Leserinnen und Leser den Inhalt nützlich finden, können sie den Autor durch den Kauf des Originalbuchs unterstützen
Aufbau des Inhaltsverzeichnisses
- Das Buch besteht aus insgesamt fünf Hauptkapiteln und einem Anhang
Kapitel 1: IPython – über normales Python hinaus
- Erklärt die Funktionen und die Nutzung der IPython-Umgebung
- Einschließlich Hilfesystem, Tastenkürzel, Magic-Befehle und Shell-Integration
- Behandelt Ausführungsverlauf von Code, Debugging und Performance-Messung
Kapitel 2: Einführung in NumPy
- Behandelt die Grundlagen numerischer Berechnungen mit NumPy-Arrays
- Einschließlich Datentypen, Broadcasting, boolescher Masken, Sortierung und strukturierter Arrays
- Erklärt die Nutzung arraybasierter Operationen und von Aggregationsfunktionen
Kapitel 3: Datenmanipulation mit Pandas
- Behandelt die zentralen Objekte und Datenverarbeitungsfunktionen von Pandas
- Einschließlich Indexierung, Umgang mit fehlenden Werten, Gruppierung, Pivot-Tabellen und Zeitreihenverarbeitung
- Führt auch leistungsstarke Operationen mit
eval() und query() ein
Kapitel 4: Visualisierung mit Matplotlib
- Erklärt Methoden der Datenvisualisierung mit Matplotlib und Seaborn
- Einschließlich verschiedener Diagrammtypen wie Liniendiagramme, Streudiagramme, Histogramme und Dichteplots
- Behandelt fortgeschrittene Funktionen wie Legenden, Farbbalken, Stylesheets, 3D-Grafiken und die Visualisierung geografischer Daten
Kapitel 5: Machine Learning
- Behandelt grundlegende Konzepte und Algorithmen des Machine Learning mit Schwerpunkt auf Scikit-Learn
- Einschließlich zentraler Schritte wie Hyperparameter, Modellvalidierung und Feature Engineering
- Erklärt wichtige Modelle wie Naive Bayes, lineare Regression, SVM, Random Forest, PCA, k-Means und GMM
- Zeigt anhand eines Beispiels für eine Gesichtserkennungs-Pipeline einen praktischen Anwendungsfall
Anhang: Code für Abbildungen
- Stellt den im Haupttext verwendeten Visualisierungscode gesammelt bereit
- Jede Abbildung kann reproduziert und angepasst werden
Bedeutung für die Nutzung
- Bietet Lernenden im Bereich Data Science ein integriertes Verständnis des Python-Ökosystems
- Durch das Notebook-Format für praktische Übungen in Lehre, Forschung und Prototyping einsetzbar
- Durch die Veröffentlichung unter einer Open-Source-Lizenz sind kontinuierliche Erweiterung und Community-Beiträge leicht möglich
2 Kommentare
https://product.kyobobook.co.kr/detail/S000201558138
Datenanalyse mit Python-Bibliotheken
Das ist ein Buch von Wes McKinney, dem Schöpfer von Pandas, und auch als Einstieg in Data Science sehr zu empfehlen. Ich habe es gelesen, als die 2. Auflage gerade erschienen war ... und wie ich jetzt sehe, gibt es inzwischen schon die 3. Auflage.
Hacker-News-Kommentar
Ich mochte Jake VanderPlas’ Vortrag Statistics for Hackers wirklich sehr
Präsentationsfolien ansehen
Wenn zum Beispiel die Prävalenz einer Krankheit 1/10.000 beträgt und ein Test eine Genauigkeit von 99 % hat, bedeutet ein positives Ergebnis trotzdem nicht, dass die Krankheit mit 99 % Wahrscheinlichkeit vorliegt
Solche Bücher sind immer interessant
Sie behandeln verschiedene Themen wie Datenmanipulation, Visualisierung und Machine Learning breit, aber nicht tief, obwohl jedes einzelne Thema auch ein eigenes Buch füllen könnte
Es ist schwer, die Balance zwischen Programmierunterricht und Einführung in Konzepte und Theorie zu finden, aber dieses Buch scheint als Einstieg eine gute Balance zu schaffen
Dieses Buch war 2017–2018, als ich mit Data Science angefangen habe, wirklich verdammt nützlich
Jake war ein großartiger Lehrer
Interessant, dass man aus heutiger Sicht Pandas gewählt hat
Vermutlich lag der Fokus eher darauf, allgemeine Konzepte zu vermitteln, als auf neuere Tools
In meinem ersten Job habe ich einen Blogpost zu Kernel Density Estimation (KDE) als Referenz genutzt, und der war extrem hilfreich
Seitdem mag ich Jakes Arbeit
Die Online-Version des Buchs ist auf learningds.org verfügbar
Die Lizenz ist CC-BY-NC-ND
Ich verstehe nicht so recht, warum Leute Pandas hassen
Es ist kein perfektes Tool, aber wir haben tausende Zeilen Pandas-Code in unserer Codebasis und hatten damit fast nie Produktions-Bugs
Wir betreiben es stabil zusammen mit statischen Schema-Wrappern und Type Checkern
Er war ein großartiger Autor, und ich vermisse seinen Blog
Besonders sein Artikel über Pivot-Tabellen ist mir in Erinnerung geblieben, und der Inhalt scheint jetzt im Buch enthalten zu sein
Das lässt sich auf der offiziellen Altair-Website nachsehen
Dieses Buch wurde zwar vor 8 Jahren geschrieben, aber es gibt eine 2. Auflage vom selben Autor
Dort steht „Python Data Science Handbook, 2nd edition, by Jake VanderPlas (O’Reilly). Copyright 2023…“
Man kann sie mit der Fassung von 2016 unter dem ursprünglichen Link vergleichen
Als ich 2020–2021 Data Science gelernt habe, war dies eines der wenigen Bücher, die ich von vorne bis hinten komplett gelesen habe
Ich kann es auch heute noch empfehlen