Einführung in Data Science

Grundprinzipien der Datenanalyse mit Python

Joel Grus

Diese Publikation zitieren

Joel Grus, Einführung in Data Science (2016), O'Reilly Verlag, Heidelberg, ISBN: 9783960100249

7648
Accesses
15
Quotes

Beschreibung / Abstract

Dieses Buch führt Sie in Data Science ein, indem es grundlegende Prinzipien der Datenanalyse erläutert und Ihnen geeignete Techniken und Werkzeuge vorstellt. Sie lernen nicht nur, wie Sie Bibliotheken, Frameworks, Module und Toolkits konkret einsetzen, sondern implementieren sie auch selbst. Dadurch entwickeln Sie ein tieferes Verständnis für die Zusammenhänge und erfahren, wie essenzielle Tools und Algorithmen der Datenanalyse im Kern funktionieren.

Falls Sie Programmierkenntnisse und eine gewisse Sympathie für Mathematik mitbringen, unterstützt Joel Grus Sie dabei, mit den mathematischen und statistischen Grundlagen der Data Science vertraut zu werden und sich Programmierfähigkeiten anzueignen, die Sie für die Praxis benötigen. Dabei verwendet er Python: Die weitverbreitete Sprache ist leicht zu erlernen und bringt zahlreiche Bibliotheken für Data Science mit.

Aus dem Inhalt:
- Absolvieren Sie einen Crashkurs in Python
- Lernen Sie die Grundlagen von linearer Algebra, Statistik und Wahrscheinlichkeitsrechnung kennen und erfahren Sie, wie diese in Data Science eingesetzt werden
- Sammeln, untersuchen, bereinigen, bearbeiten und manipulieren Sie Daten
- Tauchen Sie in die Welt des maschinellen Lernens ein
- Implementieren Sie Modelle wie k-nearest Neighbors, Naive Bayes, lineare und logistische Regression, Entscheidungsbäume, neuronale Netzwerke und Clustering
- Entdecken Sie Empfehlungssysteme, Sprachverarbeitung, Netzwerkanalyse, MapReduce und Datenbanken

Beschreibung

Joel Grus ist Softwareentwickler bei Google, zuvor arbeitete er als Data Scientist für eine Reihe von Startups. Er lebt in Seattle, wo er regelmäßig an Treffen zu Datenanalyse-Themen teilnimmt. Er schreibt gelegentlich Artikel für sein Blog joelgrus.com und twittert täglich unter @joelgrus.

Inhaltsverzeichnis

  • BEGINN
  • Inhalt
  • Vorwort
  • Data Science
  • Bei Null starten
  • In diesem Buch verwendete Konventionen
  • Verwenden von Codebeispielen
  • Danksagungen
  • Kapitel 1 – Einführung
  • Der Aufstieg der Daten
  • Was ist Data Science?
  • Ein motivierendes Szenario: DataSciencester
  • Kapitel 2 – Ein Crashkurs in Python
  • Grundlagen
  • Über die Grundlagen hinaus
  • Weiterführendes Material
  • Kapitel 3 – Daten visualisieren
  • matplotlib
  • Balkendiagramme
  • Liniendiagramme
  • Scatterplots
  • Weiterführendes Material
  • Kapitel 4 – Lineare Algebra
  • Vektoren
  • Matrizen
  • Weiterführendes Material
  • Kapitel 5 – Statistik
  • Einen einzelnen Datensatz beschreiben
  • Korrelation
  • Das Simpson-Paradoxon
  • Weitere Fallstricke von Korrelationen
  • Korrelation und Kausalität
  • Weiterführendes Material
  • Kapitel 6 – Wahrscheinlichkeit
  • Abhängigkeit und Unabhängigkeit
  • Bedingte Wahrscheinlichkeit
  • Der Satz von Bayes
  • Zufallsvariablen
  • Kontinuierliche Wahrscheinlichkeitsverteilungen
  • Die Normalverteilung
  • Der zentrale Grenzwertsatz
  • Weiterführendes Material
  • Kapitel 7 – Hypothesen und Schlussfolgerungen
  • Testen statistischer Hypothesen
  • Beispiel: Münzwürfe
  • p-Werte
  • Konfidenzintervalle
  • P-Hacking
  • Beispiel: Durchführen eines A/B-Tests
  • Bayessche Inferenz
  • Weiterführendes Material
  • Kapitel 8 – Die Gradientenmethode
  • Die Idee hinter der Gradientenmethode
  • Abschätzen des Gradienten
  • Den Gradienten verwenden
  • Auswahl der richtigen Schrittweite
  • Anwendungsbeispiel
  • Stochastische Gradientenmethode
  • Weiterführendes Material
  • Kapitel 9 – Daten sammeln
  • stdin und stdout
  • Einlesen von Dateien
  • Auslesen von Webseiten
  • Verwenden von APIs
  • Beispiel: Verwenden der Twitter-APIs
  • Weiterführendes Material
  • Kapitel 10 – Arbeiten mit Daten
  • Erkunden Ihrer Daten
  • Bereinigen und Umformen
  • Manipulieren von Daten
  • Umskalieren
  • Hauptkomponentenanalyse
  • Weiterführendes Material
  • Kapitel 11 – Maschinelles Lernen
  • Modellieren
  • Was ist maschinelles Lernen?
  • Overfitting und Underfitting
  • Genauigkeit
  • Der Kompromiss zwischen Bias und Varianz
  • Extraktion und Auswahl von Eigenschaften
  • Weiterführendes Material
  • Kapitel 12 – k-Nächste-Nachbarn
  • Das Modell
  • Beispiel: bevorzugte Programmiersprachen
  • Der Fluch der Dimensionalität
  • Weiterführendes Material
  • Kapitel 13 – Naive Bayes-Klassifikatoren
  • Ein wirklich primitiver Spam-Filter
  • Ein anspruchsvollerer Spam-Filter
  • Implementierung
  • Testen des Modells
  • Weiterführendes Material
  • Kapitel 14 – Einfache lineare Regression
  • Das Modell
  • Anwenden des Gradientenverfahrens
  • Maximum-Likelihood-Methode
  • Weiterführendes Material
  • Kapitel 15 – Multiple Regression
  • Das Modell
  • Weitere Annahmen bei der Methode der kleinsten Quadrate
  • Anpassen des Modells
  • Interpretation des Modells
  • Anpassungsgüte
  • Exkurs: Bootstrapping
  • Standardfehler von Regressionskoeffizienten
  • Regularisierung
  • Weiterführendes Material
  • Kapitel 16 – Logistische Regression
  • Die Aufgabe
  • Die logistische Funktion
  • Anwendung des Modells
  • Anpassungsgüte
  • Support Vector Machines
  • Weiterführendes Material
  • Kapitel 17 – Entscheidungsbäume
  • Was ist ein Entscheidungsbaum?
  • Entropie
  • Die Entropie einer Partition
  • Einen Entscheidungsbaum erzeugen
  • Verallgemeinerung des Verfahrens
  • Random Forests
  • Weiterführendes Material
  • Kapitel 18 – Neuronale Netzwerke
  • Perzeptrons
  • Feed-forward-Netze
  • Backpropagation
  • Beispiel: Bezwingen eines CAPTCHA
  • Weiterführendes Material
  • Kapitel 19 – Clustering
  • Die Idee
  • Das Modell
  • Beispiel: Meetups
  • Die Auswahl von k
  • Beispiel: Clustern von Farben
  • Agglomeratives hierarchisches Clustering
  • Weiterführendes Material
  • Kapitel 20 – Linguistische Datenverarbeitung
  • Wortwolken
  • N-Gramm-Modelle
  • Grammatiken
  • Exkurs: Gibbs-Sampling
  • Themenmodellierung
  • Weiterführendes Material
  • Kapitel 21 – Graphenanalyse
  • Betweenness-Zentralität
  • Eigenvektor-Zentralität
  • Gerichtete Graphen und PageRank
  • Weiterführendes Material
  • Kapitel 22 – Empfehlungssysteme
  • Manuelle Pflege
  • Empfehlen, was beliebt ist
  • Nutzerbasiertes kollaboratives Filtern
  • Gegenstandsbasiertes kollaboratives Filtern
  • Weiterführendes Material
  • Kapitel 23 – Datenbanken und SQL
  • CREATE TABLE und INSERT
  • UPDATE
  • DELETE
  • SELECT
  • GROUP BY
  • ORDER BY
  • JOIN
  • Subqueries
  • Indexstrukturen
  • Optimierung von Anfragen
  • NoSQL
  • Weiterführendes Material
  • Kapitel 24 – MapReduce
  • Beispiel: Wörter zählen
  • Warum MapReduce?
  • MapReduce verallgemeinert
  • Beispiel: Statusmeldungen analysieren
  • Beispiel: Matrizenmultiplikation
  • Eine Randbemerkung: Combiners
  • Weiterführendes Material
  • Kapitel 25 – Gehet hin und praktizieret Data Science
  • IPython
  • Mathematik
  • Nicht bei null starten
  • Finden Sie Daten
  • Data Science in der Praxis
  • Index
  • Über den Autor/Übersetzer/Kolophon

Ähnliche Titel

    Mehr von diesem Autor