Datenanalyse mit Python

Auswertung von Daten mit Pandas, NumPy und IPython

Wes McKinney

Diese Publikation zitieren

Wes McKinney, Datenanalyse mit Python (2018), O'Reilly Verlag, Heidelberg, ISBN: 9783960102137

22555
Accesses
447
Quotes

Beschreibung / Abstract


Erfahren Sie alles über das Manipulieren, Bereinigen, Verarbeiten und Aufbereiten von Datensätzen mit Python: Aktualisiert auf Python 3.6, zeigt Ihnen dieses konsequent praxisbezogene Buch anhand konkreter Fallbeispiele, wie Sie eine Vielzahl von typischen Datenanalyse-Problemen effektiv lösen. Gleichzeitig lernen Sie die neuesten Versionen von pandas, NumPy, IPython und Jupyter kennen.


Geschrieben von Wes McKinney, dem Begründer des pandas-Projekts, bietet Datenanalyse mit Python einen praktischen Einstieg in die Data-Science-Tools von Python. Das Buch eignet sich sowohl für Datenanalysten, für die Python Neuland ist, als auch für Python-Programmierer, die sich in Data Science und Scientific Computing einarbeiten wollen. Daten und zugehöriges Material des Buchs sind auf GitHub verfügbar.


Aus dem Inhalt:



  • Nutzen Sie die IPython-Shell und Jupyter Notebook für das explorative Computing

  • Lernen Sie Grundfunktionen und fortgeschrittene Features von NumPy kennen

  • Setzen Sie die Datenanalyse-Tools der pandasBibliothek ein

  • Verwenden Sie flexible Werkzeuge zum Laden, Bereinigen, Transformieren, Zusammenführen und Umformen von Daten

  • Erstellen Sie interformative Visualisierungen mit matplotlib

  • Wenden Sie die GroupBy-Mechanismen von pandas an, um Datensätzen zurechtzuschneiden, umzugestalten und zusammenzufassen

  • Analysieren und manipulieren Sie verschiedenste Zeitreihen-Daten


Für diese aktualisierte 2. Auflage wurde der gesamte Code an Python 3.6 und die neuesten Versionen der pandas-Bibliothek angepasst. Neu in dieser Auflage: Informationen zu fortgeschrittenen pandas-Tools sowie eine kurze Einführung in statsmodels und scikit-learn.


Beschreibung


Wes McKinney ist Softwareentwickler und Unternehmer und lebt in New York. Nach dem Abschluss seines Mathematikstudiums am MIT im Jahre 2007 arbeitete er im Bereich der quantitativen Finanzen bei AQR Capital Management in Greenwich, Connecticut. Frustriert von umständlichen Datenanalysewerkzeugen lernte er Python und startete das pandas-Projekt. Inzwischen ist er ein aktives Mitglied der wissenschaftlichen Python-Community und ein Verfechter des Einsatzes von Python in Datenanalyse, Finanzen und Statistikanwendungen.


Später war Wes Mitbegründer und CEO von DataPad, das im Jahre 2014 von Cloudera übernommen wurde. Seitdem befasst er sich auch mit der Big-Data-Technologie und ist Teil der Projektmanagementkomitees für die Projekte Apache Arrow und Apache Parquet in der Apache Software Foundation. 2016 ist er zu Two Sigma Investments in New York City gewechselt, wo er weiterhin daran arbeitet, die Datenanalyse durch Open-Source-Software schneller und einfacher zu machen.


Inhaltsverzeichnis

  • BEGINN
  • Vorwort
  • Kapitel 1: Einleitung
  • 1.1 Worum geht es in diesem Buch?
  • 1.2 Warum Python für die Datenanalyse?
  • 1.3 Grundlegende Python-Bibliotheken
  • 1.4 Installation und Einrichtung
  • 1.5 Community und Konferenzen
  • 1.6 Navigation durch dieses Buch
  • Kapitel 2: Grundlagen von Python, IPython und Jupyter-Notebooks
  • 2.1 Der Python-Interpreter
  • 2.2 IPython-Grundlagen
  • 2.3 Grundlagen der Sprache Python
  • Kapitel 3: In Python integrierte Datenstrukturen, Funktionen und Dateien
  • 3.1 Datenstrukturen und Sequenzen
  • 3.2 Funktionen
  • 3.3 Dateien und das Betriebssystem
  • 3.4 Schlussbemerkung
  • Kapitel 4: Grundlagen von NumPy: Arrays und vektorisierte Berechnung
  • 4.1 Das ndarray von NumPy: ein mehrdimensionales Array-Objekt
  • 4.2 Universelle Funktionen: schnelle elementweise Array-Funktionen
  • 4.3 Array-orientierte Programmierung mit Arrays
  • 4.4 Dateiein- und -ausgabe bei Arrays
  • 4.5 Lineare Algebra
  • 4.6 Erzeugen von Pseudozufallszahlen
  • 4.7 Beispiel: Random Walks
  • 4.8 Schlussbemerkung
  • Kapitel 5: Erste Schritte mit pandas
  • 5.1 Einführung in die pandas-Datenstrukturen
  • 5.2 Wesentliche Funktionalität
  • 5.3 Zusammenfassen und Berechnen deskriptiver Statistiken
  • 5.4 Schlussbemerkung
  • Kapitel 6: Laden und Speichern von Daten sowie Dateiformate
  • 6.1 Lesen und Schreiben von Daten im Textformat
  • 6.2 Binäre Datenformate
  • 6.3 Interaktion mit Web-APIs
  • 6.4 Interaktion mit Datenbanken
  • 6.5 Schlussbemerkung
  • Kapitel 7: Daten bereinigen und vorbereiten
  • 7.1 Der Umgang mit fehlenden Daten
  • 7.2 Datentransformation
  • 7.3 Manipulation von Strings
  • 7.4 Schlussbemerkung
  • Kapitel 8: Datenaufbereitung: Verknüpfen, Kombinieren und Umformen
  • 8.1 Hierarchische Indizierung
  • 8.2 Kombinieren und Verknüpfen von Datensätzen
  • 8.3 Umformen und Transponieren
  • 8.4 Schlussbemerkung
  • Kapitel 9: Plotten und Visualisieren
  • 9.1 Kurze Einführung in die matplotlib-API
  • 9.2 Plotten mit pandas und seaborn
  • 9.3 Andere Visualisierungswerkzeuge in Python
  • 9.4 Schlussbemerkung
  • Kapitel 10: Aggregation von Daten und Gruppenoperationen
  • 10.1 GroupBy-Mechanismen
  • 10.2 Aggregation von Daten
  • 10.3 Apply: Allgemeine Operationen vom Typ split-apply-combine
  • 10.4 Pivot-Tabellen und Kreuztabellierung
  • 10.5 Schlussbemerkung
  • Kapitel 11: Zeitreihen
  • 11.1 Datentypen und Werkzeuge für Datum und Zeit
  • 11.2 Grundlagen von Zeitreihen
  • 11.3 Datumsbereiche, Frequenzen und Verschiebungen
  • 11.4 Berücksichtigung von Zeitzonen
  • 11.5 Perioden und Arithmetik von Perioden
  • 11.6 Resampling und Konvertieren von Frequenzen
  • 11.7 Funktionen mit gleitenden Fenstern
  • 11.8 Schlussbemerkung
  • Kapitel 12: pandas für Fortgeschrittene
  • 12.1 Kategorische Daten
  • 12.2 Erweiterter Einsatz von GroupBy
  • 12.3 Techniken für die Verkettung von Methoden
  • 12.4 Schlussbemerkung
  • Kapitel 13: Einführung in Modellierungsbibliotheken in Python
  • 13.1 Die Kopplung zwischen pandas und dem Modellcode
  • 13.2 Modellbeschreibungen mit Patsy herstellen
  • 13.3 Einführung in statsmodels
  • 13.4 Einführung in scikit-learn
  • 13.5 Ihre Ausbildung fortsetzen
  • Kapitel 14: Beispiele aus der Datenanalyse
  • 14.1 1.USA.gov-Daten von Bitly
  • 14.2 MovieLens-1M-Datensatz
  • 14.3 US-Babynamen von 1880–2010
  • 14.4 Die USDA-Nahrungsmitteldatenbank
  • 14.5 Datenbank des US-Wahlausschusses von 2012
  • 14.6 Schlussbemerkung
  • Anhang A: NumPy für Fortgeschrittene
  • Anhang B: Mehr zum IPython-System
  • Index
  • Über den Autor
  • Kolophon

Mehr von dieser Serie

    Ähnliche Titel

      Mehr von diesem Autor