Handbuch Data Science mit Python

Grundlegende Tools für die Arbeit mit Daten

Jake VanderPlas

Diese Publikation zitieren

Jake VanderPlas, Handbuch Data Science mit Python (2023), O'Reilly Verlag, Heidelberg, ISBN: 9783960108122

1775
Accesses
63
Quotes

Beschreibung / Abstract


Der unverzichtbare Werkzeugkasten für Data Science in der 2. Auflage



  • Das bewährte Standardwerk jetzt in vollständig aktualisierter Neuauflage

  • Behandelt die neuesten Versionen von IPython, NumPy, pandas, Matplotlib und Scikit-Learn

  • Die leicht nachvollziehbaren Beispiele helfen Ihnen bei der erfolgreichen Einrichtung und Nutzung der Data-Science-Tools

  • Inklusive Jupyter Notebooks, die es Ihnen ermöglichen, den Code direkt beim Lesen auszuprobieren


Für viele Data Scientists ist Python die Sprache der Wahl, weil zahlreiche ausgereifte Bibliotheken zum Speichern, Bearbeiten und Auswerten von Daten verfügbar sind. Jake VanderPlas versammelt in dieser 2. Auflage seines Standardwerks alle wichtigen Datenanalyse Tools in einem Band und erläutert deren Einsatz in der Praxis. Beschrieben werden IPython, Jupyter, NumPy, Pandas, Matplotlib, Scikit Learn und verwandte Werkzeuge.


Für Datenanalystinnen und analysten und Data Cruncher mit Python Kenntnissen ist dieses umfassende Handbuch von unschätzbarem Wert bei der Erledigung ihrer täglichen Aufgaben. Dazu gehören die Manipulation, Umwandlung und Bereinigung von Daten, die Visualisierung verschiedener Datentypen sowie die Nutzung von Daten zum Erstellen von Statistiken und Machine Learning Modellen.


Dieses Handbuch beschreibt die folgenden Tools:



  • IPython und Jupyter bieten eine Umgebung für Berechnungen, die von vielen Data Scientists genutzt wird

  • NumPy stellt das ndarray zum effizienten Speichern und Bearbeiten dicht gepackter Datenarrays bereit

  • Pandas verfügt über das DataFrameObjekt für die Speicherung und Manipulation gelabelter und spaltenorientierter Daten

  • Matplotlib ermöglicht die flexible und vielseitige Visualisierung von Daten

  • ScikitLearn unterstützt bei der Implementierung der wichtigsten und gebräuchlichsten Algorithmen für das Machine Learning


»Jake beschreibt weit mehr als die Grundlagen dieser Open-Source-Tools; er erläutert die zugrunde liegenden Konzepte, Vorgehensweisen und Abstraktionen in klarer Sprache und mit verständlichen Erklärungen.« -- Brian Granger, Physikprofessor und Mitbegründer des Jupyter-Projekts


Beschreibung

Jake VanderPlas ist Software Engineer bei Google Research und arbeitet an Tools, die datenintensive Forschung unterstützen. Er entwickelt Python-Tools für den Einsatz in der Data Science, darunter Pakete wie Scikit-Learn, SciPy, AstroPy, Altair, JAX und viele andere. Er engagiert sich in der Data-Science-Community, konzipiert Tutorials zu Themen des wissenschaftlichen Computings und hält Vorträge auf vielen verschiedenen Konferenzen in der Data-Science-Welt.

Inhaltsverzeichnis

  • BEGINN
  • Titel
  • Inhalt
  • Einleitung
  • Was ist Data Science?
  • An wen richtet sich dieses Buch?
  • Warum Python?
  • Inhaltsübersicht
  • Installation der Software
  • In diesem Buch verwendete Konventionen
  • Verwendung der Codebeispiele
  • TEIL I: Mehr als normales Python: Jupyter
  • Kapitel 1: Der Einstieg in IPython und Jupyter
  • Kapitel 2: Erweiterte interaktive Features
  • Kapitel 3: Debugging und Profiling
  • TEIL II: Einführung in NumPy
  • Kapitel 4: Die Datentypen in Python
  • Kapitel 5: Grundlagen von NumPy-Arrays
  • Kapitel 6: Berechnungen mit NumPy-Arrays: universelle Funktionen
  • Kapitel 7: Aggregationen: Minimum, Maximum und alles dazwischen
  • Kapitel 8: Berechnungen mit Arrays: Broadcasting
  • Kapitel 9: Vergleiche, Maskierungen und boolesche Logik
  • Kapitel 10: Fancy Indexing
  • Kapitel 11: Arrays sortieren
  • Kapitel 12: Strukturierte Daten: NumPys strukturierte Arrays
  • TEIL III: Datenbearbeitung mit Pandas
  • Kapitel 13: Kurz vorgestellt: Pandas-Objekte
  • Kapitel 14: Daten indizieren und auswählen
  • Kapitel 15: Mit Pandas-Daten arbeiten
  • Kapitel 16: Handhabung fehlender Daten
  • Kapitel 17: Hierarchische Indizierung
  • Kapitel 18: Datenmengen kombinieren: concat und append
  • Kapitel 19: Datenmengen kombinieren: merge und join
  • Kapitel 20: Aggregation und Gruppierung
  • Kapitel 21: Pivot-Tabellen
  • Kapitel 22: Vektorisierte String-Operationen
  • Kapitel 23: Zeitreihen verwenden
  • Kapitel 24: Leistungsstarkes Pandas: eval und query
  • TEIL IV: Visualisierung mit Matplotlib
  • Kapitel 25: Allgemeine Tipps zu Matplotlib
  • Kapitel 26: Einfache Liniendiagramme
  • Kapitel 27: Einfache Streudiagramme
  • Kapitel 28: Dichtediagramme und Konturdiagramme
  • Kapitel 29: Anpassen der Legende
  • Kapitel 30: Anpassen von Farbskalen
  • Kapitel 31: Untergeordnete Diagramme
  • Kapitel 32: Text und Beschriftungen
  • Kapitel 33: Achsenmarkierungen anpassen
  • Kapitel 34: Matplotlib anpassen: Konfigurationen und Stylesheets
  • Kapitel 35: Dreidimensionale Diagramme in Matplotlib
  • Kapitel 36: Visualisierung mit Seaborn
  • TEIL V: Machine Learning
  • Kapitel 37: Was ist Machine Learning?
  • Kapitel 38: Kurz vorgestellt: Scikit-Learn
  • Kapitel 39: Hyperparameter und Modellvalidierung
  • Kapitel 40: Feature Engineering
  • Kapitel 41: Ausführlich: Naive Bayes-Klassifikation
  • Kapitel 42: Ausführlich: Lineare Regression
  • Kapitel 43: Ausführlich: Support Vector Machines
  • Kapitel 44: Ausführlich: Entscheidungsbäume und Random Forests
  • Kapitel 45: Ausführlich: Hauptkomponentenanalyse
  • Kapitel 46: Ausführlich: Manifold Learning
  • Kapitel 47: Ausführlich: k-Means-Clustering
  • Kapitel 48: Ausführlich: Gaußsche Mixture-Modelle
  • Kapitel 49: Ausführlich: Kerndichteschätzung
  • Kapitel 50: Anwendung: Eine Gesichtserkennungspipeline
  • Index

Ähnliche Titel

    Mehr von diesem Autor