Data Science mit Python

Das Handbuch für den Einsatz von IPython, Jupyter, NumPy, Pandas, Matplotlib und Scikit-Learn

Jake VanderPlas

Diese Publikation zitieren

Jake VanderPlas, Data Science mit Python (2017), mitp-Verlag, Frechen, ISBN: 9783958456969

7156
Accesses
67
Quotes

Beschreibung / Abstract

Die wichtigsten Tools für die Datenanalyse und-bearbeitung im praktischen Einsatz
Python effizient für datenintensive Berechnungen einsetzen mit IPython und Jupyter
Laden, Speichern und Bearbeiten von Daten und numerischen Arrays mit NumPy und Pandas
Visualisierung von Daten mit Matplotlib



Python ist für viele die erste Wahl für Data Science, weil eine Vielzahl von Ressourcen und Bibliotheken zum Speichern, Bearbeiten und Auswerten von Daten verfügbar ist. In diesem Buch erläutert der Autor den Einsatz der wichtigsten Tools.
Für Datenanalytiker und Wissenschaftler ist dieses umfassende Handbuch von unschätzbarem Wert für jede Art von Berechnung mit Python sowie bei der Erledigung alltäglicher Aufgaben. Dazu gehören das Bearbeiten, Umwandeln und Bereinigen von Daten, die Visualisierung verschiedener Datentypen und die Nutzung von Daten zum Erstellen von Statistiken oder Machine-Learning-Modellen.
Dieses Handbuch erläutert die Verwendung der folgenden Tools:

IPython und Jupyter für datenintensive Berechnungen
NumPy und Pandas zum effizienten Speichern und Bearbeiten von Daten und Datenarrays in Python
Matplotlib für vielfältige Möglichkeiten der Visualisierung von Daten
Scikit-Learn zur effizienten und sauberen Implementierung der wichtigsten und am meisten verbreiteten Algorithmen des Machine Learnings

Der Autor zeigt Ihnen, wie Sie die zum Betreiben von Data Science verfügbaren Pakete nutzen, um Daten effektiv zu speichern, zu handhaben und Einblick in diese Daten zu gewinnen. Grundlegende Kenntnisse in Python werden dabei vorausgesetzt.

Leserstimme zum Buch:
»Wenn Sie Data Science mit Python betreiben möchten, ist dieses Buch ein hervorragender Ausgangspunkt. Ich habe es sehr erfolgreich beim Unterrichten von Informatik- und Statistikstudenten eingesetzt. Jake geht weit
über die Grundlagen der Open-Source-Tools hinaus und erläutert die grundlegenden Konzepte, Vorgehensweisen und Abstraktionen in klarer Sprache und mit verständlichen Erklärungen.«
– Brian Granger, Physikprofessor, California Polytechnic State University, Mitbegründer des Jupyter-Projekts

Beschreibung

Jake VanderPlas ist seit Langem User und Entwickler von SciPy. Derzeit ist er als interdisziplinärer Forschungsdirektor an der Universität Washington tätig, führt eigene astronomische Forschungsarbeiten durch und berät dort ansässige Wissenschaftler, die in vielen verschiedenen Fachgebieten arbeiten.

Inhaltsverzeichnis

  • Cover
  • Titel
  • Impressum
  • Inhaltsverzeichnis
  • Einleitung
  • Über den Autor
  • Kapitel 1: Mehr als normales Python: IPython
  • 1.1 Shell oder Notebook?
  • 1.2 Hilfe und Dokumentation in IPython
  • 1.3 Tastaturkürzel in der IPython-Shell
  • 1.4 Magische Befehle in IPython
  • 1.5 Verlauf der Ein- und Ausgabe
  • 1.6 IPython und Shell-Befehle
  • 1.7 Magische Befehle für die Shell
  • 1.8 Fehler und Debugging
  • 1.9 Profiling und Timing von Code
  • 1.10 Weitere IPython-Ressourcen
  • Kapitel 2: Einführung in NumPy
  • 2.1 Die Datentypen in Python
  • 2.2 Grundlagen von NumPy-Arrays
  • 2.3 Berechnungen mit NumPy-Arrays: universelle Funktionen
  • 2.4 Aggregationen: Minimum, Maximum und alles dazwischen
  • 2.5 Berechnungen mit Arrays: Broadcasting
  • 2.6 Vergleiche, Maskierungen und boolesche Logik
  • 2.7 Fancy Indexing
  • 2.8 Arrays sortieren
  • 2.9 Strukturierte Daten: NumPys strukturierte Arrays
  • Kapitel 3: Datenbearbeitung mit Pandas
  • 3.1 Pandas installieren und verwenden
  • 3.2 Kurz vorgestellt: Pandas-Objekte
  • 3.3 Daten indizieren und auswählen
  • 3.4 Mit Pandas-Daten arbeiten
  • 3.5 Handhabung fehlender Daten
  • 3.6 Hierarchische Indizierung
  • 3.7 Datenmengen kombinieren: concat und append
  • 3.8 Datenmengen kombinieren: Merge und Join
  • 3.9 Aggregation und Gruppierung
  • 3.10 Pivot-Tabellen
  • 3.11 Vektorisierte String-Operationen
  • 3.12 Zeitreihen verwenden
  • 3.13 Leistungsstarkes Pandas: eval() und query()
  • 3.14 Weitere Ressourcen
  • Kapitel 4: Visualisierung mit Matplotlib
  • 4.1 Allgemeine Tipps zu Matplotlib
  • 4.2 Zwei Seiten derselben Medaille
  • 4.3 Einfache Liniendiagramme
  • 4.4 Einfache Streudiagramme
  • 4.5 Visualisierung von Fehlern
  • 4.6 Dichtediagramme und Konturdiagramme
  • 4.7 Histogramme, Binnings und Dichte
  • 4.8 Anpassen der Legende
  • 4.9 Anpassen von Farbskalen
  • 4.10 Untergeordnete Diagramme
  • 4.11 Text und Beschriftungen
  • 4.12 Achsenmarkierungen anpassen
  • 4.13 Matplotlib anpassen: Konfigurationen und Stylesheets
  • 4.14 Dreidimensionale Diagramme in Matplotlib
  • 4.15 Basemap: geografische Daten verwenden
  • 4.16 Visualisierung mit Seaborn
  • 4.17 Weitere Ressourcen
  • Kapitel 5: Machine Learning
  • 5.1 Was ist Machine Learning?
  • 5.2 Kurz vorgestellt: Scikit-Learn
  • 5.3 Hyperparameter und Modellvalidierung
  • 5.4 Merkmalserstellung
  • 5.5 Ausführlich: Naive Bayes-Klassifikation
  • 5.6 Ausführlich: Lineare Regression
  • 5.7 Ausführlich: Support Vector Machines
  • 5.8 Ausführlich: Entscheidungsbäume und Random Forests
  • 5.9 Ausführlich: Hauptkomponentenanalyse
  • 5.10 Ausführlich: Manifold Learning
  • 5.11 Ausführlich: k-Means-Clustering
  • 5.12 Ausführlich: Gau߆™sche Mixture-Modelle
  • 5.13 Ausführlich: Kerndichteschätzung
  • 5.14 Anwendung: Eine Gesichtserkennungs-Pipeline
  • 5.15 Weitere Machine-Learning-Ressourcen
  • Stichwortverzeichnis

Mehr von dieser Serie

    Ähnliche Titel

      Mehr von diesem Autor