Einführung in Data Science

Joel Grus

Einführung in Data Science

Grundprinzipien der Datenanalyse mit Python

Joel Grus

Product information

Author: Joel Grus
ISBN: 9783960103363
Publisher: O'Reilly Verlag
Publishing date: 2019-11-18
Publishing date (electronic): 2019-11-20
Related year (electronic): 2019
Edition: Auflage
Pages: 401
Package: Neuheiten 2020_1 [2521]

P-ISBN: 9783960091233

Cite this publication as

Joel Grus, Einführung in Data Science (2019), O'Reilly Verlag, Heidelberg, ISBN: 9783960103363

22762
accesses

165
quotes

Description / Abstract

Neuauflage des Standardwerks, jetzt zu Python 3.6

Dieses Buch führt Sie in Data Science ein, indem es grundlegende Prinzipien der Datenanalyse erläutert und Ihnen geeignete Techniken und Werkzeuge vorstellt. Sie lernen nicht nur, wie Sie Bibliotheken, Frameworks, Module und Toolkits konkret einsetzen, sondern implementieren sie auch selbst. Dadurch entwickeln Sie ein tieferes Verständnis für die Zusammenhänge und erfahren, wie essenzielle Tools und Algorithmen der Datenanalyse im Kern funktionieren.
Falls Sie Programmierkenntnisse und eine gewisse Sympathie für Mathematik mitbringen, unterstützt Joel Grus Sie dabei, mit den mathematischen und statistischen Grundlagen der Data Science vertraut zu werden und sich Programmierfähigkeiten anzueignen, die Sie für die Praxis benötigen. Dabei verwendet er Python: Die weit verbreitete Sprache ist leicht zu erlernen und bringt zahlreiche Bibliotheken für Data Science mit.

Description

Joel Grus ist Forschungsingenieur am Allen Institute for Artificial Intelligence. Zuvor arbeitete er als Softwareentwickler bei Google und als Data Scientist für eine Reihe von Start-ups. Er lebt in Seattle, wo er regelmäßig an Treffen zu Datenanalysethemen teilnimmt. Er schreibt gelegentlich Artikel für sein Blog joelgrus.com und twittert täglich unter @joelgrus ("twitter.com/joelgrus").

Table of content

BEGINN
Inhalt
Vorwort zur 2. Auflage
Vorwort zur 1. Auflage
Kapitel 1: Einführung
Der Aufstieg der Daten
Was ist Data Science?
Ein motivierendes Szenario: DataSciencester
Kapitel 2: Ein Crashkurs in Python
Zen und Python
Python installieren
Virtuelle Umgebungen
Formatieren durch Leerzeichen
Module
Funktionen
Strings
Exceptions
Listen
Tupel
Dictionaries
Counter
Sets
Kontrollfluss
Wahrheitswerte
Sortieren
List Comprehensions
Automatisierte Tests und assert
Objektorientierte Programmierung
Iterables und Generatoren
Zufall
Reguläre Ausdrücke
Funktionale Programmierung
zip und Entpacken von Argumenten
args und kwargs
Type Annotations
Willkommen bei DataSciencester!
Weiterführendes Material
Kapitel 3: Daten visualisieren
matplotlib
Balkendiagramme
Liniendiagramme
Scatterplots
Weiterführendes Material
Kapitel 4: Lineare Algebra
Vektoren
Matrizen
Weiterführendes Material
Kapitel 5: Statistik
Einen einzelnen Datensatz beschreiben
Korrelation
Das Simpson-Paradoxon
Weitere Fallstricke von Korrelationen
Korrelation und Kausalität
Weiterführendes Material
Kapitel 6: Wahrscheinlichkeit
Abhängigkeit und Unabhängigkeit
Bedingte Wahrscheinlichkeit
Der Satz von Bayes
Zufallsvariablen
Kontinuierliche Wahrscheinlichkeitsverteilungen
Die Normalverteilung
Der zentrale Grenzwertsatz
Weiterführendes Material
Kapitel 7: Hypothesen und Schlussfolgerungen
Testen statistischer Hypothesen
Beispiel: Münzwürfe
p-Werte
Konfidenzintervalle
p-Hacking
Beispiel: Durchführen eines A/B-Tests
Bayessche Inferenz
Weiterführendes Material
Kapitel 8: Die Gradientenmethode
Die Idee hinter der Gradientenmethode
Abschätzen des Gradienten
Den Gradienten verwenden
Auswahl der richtigen Schrittweite
Mit der Gradientenmethode Modelle anpassen
Minibatch und stochastische Gradientenmethode
Weiterführendes Material
Kapitel 9: Daten sammeln
stdin und stdout
Einlesen von Dateien
Auslesen von Webseiten
Verwenden von APIs
Beispiel: Verwenden der Twitter-APIs
Weiterführendes Material
Kapitel 10: Arbeiten mit Daten
Erkunden Ihrer Daten
NamedTuples
Datenklassen
Bereinigen und Umformen
Manipulieren von Daten
Umskalieren
Exkurs: tqdm
Hauptkomponentenanalyse
Weiterführendes Material
Kapitel 11: Maschinelles Lernen
Modellieren
Was ist maschinelles Lernen?
Overfitting und Underfitting
Genauigkeit
Der Kompromiss zwischen Bias und Varianz
Extraktion und Auswahl von Eigenschaften
Weiterführendes Material
Kapitel 12: k-Nächste-Nachbarn
Das Modell
Beispiel: Der Iris-Datensatz
Der Fluch der Dimensionalität
Weiterführendes Material
Kapitel 13: Naive Bayes-Klassifikatoren
Ein wirklich primitiver Spam-Filter
Ein anspruchsvollerer Spam-Filter
Implementierung
Das Modell testen
Das Modell verwenden
Weiterführendes Material
Kapitel 14: Einfache lineare Regression
Das Modell
Anwenden des Gradientenverfahrens
Maximum-Likelihood-Methode
Weiterführendes Material
Kapitel 15: Multiple Regression
Das Modell
Weitere Annahmen bei der Methode der kleinsten Quadrate
Anpassen des Modells
Interpretation des Modells
Anpassungsgüte
Exkurs: Bootstrapping
Standardfehler von Regressionskoeffizienten
Regularisierung
Weiterführendes Material
Kapitel 16: Logistische Regression
Die Aufgabe
Die logistische Funktion
Anwendung des Modells
Anpassungsgüte
Support Vector Machines
Weiterführendes Material
Kapitel 17: Entscheidungsbäume
Was ist ein Entscheidungsbaum?
Entropie
Die Entropie einer Partition
Einen Entscheidungsbaum erzeugen
Verallgemeinerung des Verfahrens
Random Forests
Weiterführendes Material
Kapitel 18: Neuronale Netzwerke
Perzeptrons
Feed-forward-Netze
Backpropagation
Beispiel: Fizz Buzz
Weiterführendes Material
Kapitel 19: Deep Learning
Der Tensor
Die Layer-Abstrahierung
Der lineare Layer
Neuronale Netzwerke als Abfolge von Layern
Verlust und Optimierung
Beispiel XOR überarbeitet
Andere Aktivierungsfunktionen
Beispiel: Fizz Buzz überarbeitet
Softmaxes und Kreuz-Entropie
Dropout
Beispiel: MNIST
Modelle sichern und laden
Weiterführendes Material
Kapitel 20: Clustering
Die Idee
Das Modell
Beispiel: Meet-ups
Die Auswahl von k
Beispiel: Clustern von Farben
Agglomeratives hierarchisches Clustering
Weiterführendes Material
Kapitel 21: Linguistische Datenverarbeitung
Wortwolken
N-Gramm-Sprachmodelle
Grammatiken
Exkurs: Gibbs-Sampling
Themenmodellierung
Wortvektoren
Rekurrente neuronale Netzwerke
Beispiel: Ein RNN auf Zeichenebene verwenden
Weiterführendes Material
Kapitel 22: Graphenanalyse
Betweenness-Zentralität
Eigenvektor-Zentralität
Gerichtete Graphen und PageRank
Weiterführendes Material
Kapitel 23: Empfehlungssysteme
Manuelle Pflege
Empfehlen, was beliebt ist
Nutzerbasiertes kollaboratives Filtern
Gegenstandsbasiertes kollaboratives Filtern
Matrixfaktorisierung
Weiterführendes Material
Kapitel 24: Datenbanken und SQL
CREATE TABLE und INSERT
UPDATE
DELETE
SELECT
GROUP BY
ORDER BY
JOIN
Subqueries
Indexstrukturen
Optimierung von Anfragen
NoSQL
Weiterführendes Material
Kapitel 25: MapReduce
Beispiel: Wörter zählen
Warum MapReduce?
MapReduce verallgemeinert
Beispiel: Statusmeldungen analysieren
Beispiel: Matrizenmultiplikation
Eine Randbemerkung: Combiners
Weiterführendes Material
Kapitel 26: Datenethik
Was ist Datenethik?
Jetzt aber wirklich: Was ist Datenethik?
Sollte ich mir über Datenethik Gedanken machen?
Schlechte Produkte bauen
Genauigkeit und Fairness abwägen
Zusammenarbeit
Interpretierbarkeit
Empfehlungen
Tendenziöse Daten
Datenschutz
Zusammenfassung
Weiterführendes Material
Kapitel 27: Gehet hin und praktizieret Data Science
IPython
Mathematik
Nicht bei null starten
Finden Sie Daten
Data Science in der Praxis
Index

Einführung in Data Science

Grundprinzipien der Datenanalyse mit Python

Product information

Cite this publication as

Description / Abstract

Description

Table of content

Related titles

More of this author(s)