Einführung in Data Science

Joel Grus

Einführung in Data Science

Grundprinzipien der Datenanalyse mit Python

Joel Grus

Produktinformationen

Autor: Joel Grus
ISBN: 9783960100249
Verlag: O'Reilly Verlag
Erscheinungstermin: 2016-03-21
Erscheinungstermin (elektronische Fassung): 2016-03-31
Erscheinungsjahr (elektronische Fassung): 2016
Seiten: 348
Paket: Data Science & Deep Learning [2198]

P-ISBN: 9783960090212

Diese Publikation zitieren

Joel Grus, Einführung in Data Science (2016), O'Reilly Verlag, Heidelberg, ISBN: 9783960100249

7648
Accesses

15
Quotes

Beschreibung / Abstract

Dieses Buch führt Sie in Data Science ein, indem es grundlegende Prinzipien der Datenanalyse erläutert und Ihnen geeignete Techniken und Werkzeuge vorstellt. Sie lernen nicht nur, wie Sie Bibliotheken, Frameworks, Module und Toolkits konkret einsetzen, sondern implementieren sie auch selbst. Dadurch entwickeln Sie ein tieferes Verständnis für die Zusammenhänge und erfahren, wie essenzielle Tools und Algorithmen der Datenanalyse im Kern funktionieren.

Falls Sie Programmierkenntnisse und eine gewisse Sympathie für Mathematik mitbringen, unterstützt Joel Grus Sie dabei, mit den mathematischen und statistischen Grundlagen der Data Science vertraut zu werden und sich Programmierfähigkeiten anzueignen, die Sie für die Praxis benötigen. Dabei verwendet er Python: Die weitverbreitete Sprache ist leicht zu erlernen und bringt zahlreiche Bibliotheken für Data Science mit.

Aus dem Inhalt:
- Absolvieren Sie einen Crashkurs in Python
- Lernen Sie die Grundlagen von linearer Algebra, Statistik und Wahrscheinlichkeitsrechnung kennen und erfahren Sie, wie diese in Data Science eingesetzt werden
- Sammeln, untersuchen, bereinigen, bearbeiten und manipulieren Sie Daten
- Tauchen Sie in die Welt des maschinellen Lernens ein
- Implementieren Sie Modelle wie k-nearest Neighbors, Naive Bayes, lineare und logistische Regression, Entscheidungsbäume, neuronale Netzwerke und Clustering
- Entdecken Sie Empfehlungssysteme, Sprachverarbeitung, Netzwerkanalyse, MapReduce und Datenbanken

Beschreibung

Joel Grus ist Softwareentwickler bei Google, zuvor arbeitete er als Data Scientist für eine Reihe von Startups. Er lebt in Seattle, wo er regelmäßig an Treffen zu Datenanalyse-Themen teilnimmt. Er schreibt gelegentlich Artikel für sein Blog joelgrus.com und twittert täglich unter @joelgrus.

Inhaltsverzeichnis

BEGINN
Inhalt
Vorwort
Data Science
Bei Null starten
In diesem Buch verwendete Konventionen
Verwenden von Codebeispielen
Danksagungen
Kapitel 1 – Einführung
Der Aufstieg der Daten
Was ist Data Science?
Ein motivierendes Szenario: DataSciencester
Kapitel 2 – Ein Crashkurs in Python
Grundlagen
Über die Grundlagen hinaus
Weiterführendes Material
Kapitel 3 – Daten visualisieren
matplotlib
Balkendiagramme
Liniendiagramme
Scatterplots
Weiterführendes Material
Kapitel 4 – Lineare Algebra
Vektoren
Matrizen
Weiterführendes Material
Kapitel 5 – Statistik
Einen einzelnen Datensatz beschreiben
Korrelation
Das Simpson-Paradoxon
Weitere Fallstricke von Korrelationen
Korrelation und Kausalität
Weiterführendes Material
Kapitel 6 – Wahrscheinlichkeit
Abhängigkeit und Unabhängigkeit
Bedingte Wahrscheinlichkeit
Der Satz von Bayes
Zufallsvariablen
Kontinuierliche Wahrscheinlichkeitsverteilungen
Die Normalverteilung
Der zentrale Grenzwertsatz
Weiterführendes Material
Kapitel 7 – Hypothesen und Schlussfolgerungen
Testen statistischer Hypothesen
Beispiel: Münzwürfe
p-Werte
Konfidenzintervalle
P-Hacking
Beispiel: Durchführen eines A/B-Tests
Bayessche Inferenz
Weiterführendes Material
Kapitel 8 – Die Gradientenmethode
Die Idee hinter der Gradientenmethode
Abschätzen des Gradienten
Den Gradienten verwenden
Auswahl der richtigen Schrittweite
Anwendungsbeispiel
Stochastische Gradientenmethode
Weiterführendes Material
Kapitel 9 – Daten sammeln
stdin und stdout
Einlesen von Dateien
Auslesen von Webseiten
Verwenden von APIs
Beispiel: Verwenden der Twitter-APIs
Weiterführendes Material
Kapitel 10 – Arbeiten mit Daten
Erkunden Ihrer Daten
Bereinigen und Umformen
Manipulieren von Daten
Umskalieren
Hauptkomponentenanalyse
Weiterführendes Material
Kapitel 11 – Maschinelles Lernen
Modellieren
Was ist maschinelles Lernen?
Overfitting und Underfitting
Genauigkeit
Der Kompromiss zwischen Bias und Varianz
Extraktion und Auswahl von Eigenschaften
Weiterführendes Material
Kapitel 12 – k-Nächste-Nachbarn
Das Modell
Beispiel: bevorzugte Programmiersprachen
Der Fluch der Dimensionalität
Weiterführendes Material
Kapitel 13 – Naive Bayes-Klassifikatoren
Ein wirklich primitiver Spam-Filter
Ein anspruchsvollerer Spam-Filter
Implementierung
Testen des Modells
Weiterführendes Material
Kapitel 14 – Einfache lineare Regression
Das Modell
Anwenden des Gradientenverfahrens
Maximum-Likelihood-Methode
Weiterführendes Material
Kapitel 15 – Multiple Regression
Das Modell
Weitere Annahmen bei der Methode der kleinsten Quadrate
Anpassen des Modells
Interpretation des Modells
Anpassungsgüte
Exkurs: Bootstrapping
Standardfehler von Regressionskoeffizienten
Regularisierung
Weiterführendes Material
Kapitel 16 – Logistische Regression
Die Aufgabe
Die logistische Funktion
Anwendung des Modells
Anpassungsgüte
Support Vector Machines
Weiterführendes Material
Kapitel 17 – Entscheidungsbäume
Was ist ein Entscheidungsbaum?
Entropie
Die Entropie einer Partition
Einen Entscheidungsbaum erzeugen
Verallgemeinerung des Verfahrens
Random Forests
Weiterführendes Material
Kapitel 18 – Neuronale Netzwerke
Perzeptrons
Feed-forward-Netze
Backpropagation
Beispiel: Bezwingen eines CAPTCHA
Weiterführendes Material
Kapitel 19 – Clustering
Die Idee
Das Modell
Beispiel: Meetups
Die Auswahl von k
Beispiel: Clustern von Farben
Agglomeratives hierarchisches Clustering
Weiterführendes Material
Kapitel 20 – Linguistische Datenverarbeitung
Wortwolken
N-Gramm-Modelle
Grammatiken
Exkurs: Gibbs-Sampling
Themenmodellierung
Weiterführendes Material
Kapitel 21 – Graphenanalyse
Betweenness-Zentralität
Eigenvektor-Zentralität
Gerichtete Graphen und PageRank
Weiterführendes Material
Kapitel 22 – Empfehlungssysteme
Manuelle Pflege
Empfehlen, was beliebt ist
Nutzerbasiertes kollaboratives Filtern
Gegenstandsbasiertes kollaboratives Filtern
Weiterführendes Material
Kapitel 23 – Datenbanken und SQL
CREATE TABLE und INSERT
UPDATE
DELETE
SELECT
GROUP BY
ORDER BY
JOIN
Subqueries
Indexstrukturen
Optimierung von Anfragen
NoSQL
Weiterführendes Material
Kapitel 24 – MapReduce
Beispiel: Wörter zählen
Warum MapReduce?
MapReduce verallgemeinert
Beispiel: Statusmeldungen analysieren
Beispiel: Matrizenmultiplikation
Eine Randbemerkung: Combiners
Weiterführendes Material
Kapitel 25 – Gehet hin und praktizieret Data Science
IPython
Mathematik
Nicht bei null starten
Finden Sie Daten
Data Science in der Praxis
Index
Über den Autor/Übersetzer/Kolophon

Einführung in Data Science

Grundprinzipien der Datenanalyse mit Python

Produktinformationen

Diese Publikation zitieren

Beschreibung / Abstract

Beschreibung

Inhaltsverzeichnis

Ähnliche Titel

Mehr von diesem Autor