Einführung in Data Science

Grundprinzipien der Datenanalyse mit Python

Joel Grus

Cite this publication as

Joel Grus, Einführung in Data Science (2019), O'Reilly Verlag, Heidelberg, ISBN: 9783960103363

22762
accesses
165
quotes

Description / Abstract

Neuauflage des Standardwerks, jetzt zu Python 3.6


Dieses Buch führt Sie in Data Science ein, indem es grundlegende Prinzipien der Datenanalyse erläutert und Ihnen geeignete Techniken und Werkzeuge vorstellt. Sie lernen nicht nur, wie Sie Bibliotheken, Frameworks, Module und Toolkits konkret einsetzen, sondern implementieren sie auch selbst. Dadurch entwickeln Sie ein tieferes Verständnis für die Zusammenhänge und erfahren, wie essenzielle Tools und Algorithmen der Datenanalyse im Kern funktionieren.
Falls Sie Programmierkenntnisse und eine gewisse Sympathie für Mathematik mitbringen, unterstützt Joel Grus Sie dabei, mit den mathematischen und statistischen Grundlagen der Data Science vertraut zu werden und sich Programmierfähigkeiten anzueignen, die Sie für die Praxis benötigen. Dabei verwendet er Python: Die weit verbreitete Sprache ist leicht zu erlernen und bringt zahlreiche Bibliotheken für Data Science mit.

Description

Joel Grus ist Forschungsingenieur am Allen Institute for Artificial Intelligence. Zuvor arbeitete er als Softwareentwickler bei Google und als Data Scientist für eine Reihe von Start-ups. Er lebt in Seattle, wo er regelmäßig an Treffen zu Datenanalysethemen teilnimmt. Er schreibt gelegentlich Artikel für sein Blog joelgrus.com und twittert täglich unter @joelgrus ("twitter.com/joelgrus").

Table of content

  • BEGINN
  • Inhalt
  • Vorwort zur 2. Auflage
  • Vorwort zur 1. Auflage
  • Kapitel 1: Einführung
  • Der Aufstieg der Daten
  • Was ist Data Science?
  • Ein motivierendes Szenario: DataSciencester
  • Kapitel 2: Ein Crashkurs in Python
  • Zen und Python
  • Python installieren
  • Virtuelle Umgebungen
  • Formatieren durch Leerzeichen
  • Module
  • Funktionen
  • Strings
  • Exceptions
  • Listen
  • Tupel
  • Dictionaries
  • Counter
  • Sets
  • Kontrollfluss
  • Wahrheitswerte
  • Sortieren
  • List Comprehensions
  • Automatisierte Tests und assert
  • Objektorientierte Programmierung
  • Iterables und Generatoren
  • Zufall
  • Reguläre Ausdrücke
  • Funktionale Programmierung
  • zip und Entpacken von Argumenten
  • args und kwargs
  • Type Annotations
  • Willkommen bei DataSciencester!
  • Weiterführendes Material
  • Kapitel 3: Daten visualisieren
  • matplotlib
  • Balkendiagramme
  • Liniendiagramme
  • Scatterplots
  • Weiterführendes Material
  • Kapitel 4: Lineare Algebra
  • Vektoren
  • Matrizen
  • Weiterführendes Material
  • Kapitel 5: Statistik
  • Einen einzelnen Datensatz beschreiben
  • Korrelation
  • Das Simpson-Paradoxon
  • Weitere Fallstricke von Korrelationen
  • Korrelation und Kausalität
  • Weiterführendes Material
  • Kapitel 6: Wahrscheinlichkeit
  • Abhängigkeit und Unabhängigkeit
  • Bedingte Wahrscheinlichkeit
  • Der Satz von Bayes
  • Zufallsvariablen
  • Kontinuierliche Wahrscheinlichkeitsverteilungen
  • Die Normalverteilung
  • Der zentrale Grenzwertsatz
  • Weiterführendes Material
  • Kapitel 7: Hypothesen und Schlussfolgerungen
  • Testen statistischer Hypothesen
  • Beispiel: Münzwürfe
  • p-Werte
  • Konfidenzintervalle
  • p-Hacking
  • Beispiel: Durchführen eines A/B-Tests
  • Bayessche Inferenz
  • Weiterführendes Material
  • Kapitel 8: Die Gradientenmethode
  • Die Idee hinter der Gradientenmethode
  • Abschätzen des Gradienten
  • Den Gradienten verwenden
  • Auswahl der richtigen Schrittweite
  • Mit der Gradientenmethode Modelle anpassen
  • Minibatch und stochastische Gradientenmethode
  • Weiterführendes Material
  • Kapitel 9: Daten sammeln
  • stdin und stdout
  • Einlesen von Dateien
  • Auslesen von Webseiten
  • Verwenden von APIs
  • Beispiel: Verwenden der Twitter-APIs
  • Weiterführendes Material
  • Kapitel 10: Arbeiten mit Daten
  • Erkunden Ihrer Daten
  • NamedTuples
  • Datenklassen
  • Bereinigen und Umformen
  • Manipulieren von Daten
  • Umskalieren
  • Exkurs: tqdm
  • Hauptkomponentenanalyse
  • Weiterführendes Material
  • Kapitel 11: Maschinelles Lernen
  • Modellieren
  • Was ist maschinelles Lernen?
  • Overfitting und Underfitting
  • Genauigkeit
  • Der Kompromiss zwischen Bias und Varianz
  • Extraktion und Auswahl von Eigenschaften
  • Weiterführendes Material
  • Kapitel 12: k-Nächste-Nachbarn
  • Das Modell
  • Beispiel: Der Iris-Datensatz
  • Der Fluch der Dimensionalität
  • Weiterführendes Material
  • Kapitel 13: Naive Bayes-Klassifikatoren
  • Ein wirklich primitiver Spam-Filter
  • Ein anspruchsvollerer Spam-Filter
  • Implementierung
  • Das Modell testen
  • Das Modell verwenden
  • Weiterführendes Material
  • Kapitel 14: Einfache lineare Regression
  • Das Modell
  • Anwenden des Gradientenverfahrens
  • Maximum-Likelihood-Methode
  • Weiterführendes Material
  • Kapitel 15: Multiple Regression
  • Das Modell
  • Weitere Annahmen bei der Methode der kleinsten Quadrate
  • Anpassen des Modells
  • Interpretation des Modells
  • Anpassungsgüte
  • Exkurs: Bootstrapping
  • Standardfehler von Regressionskoeffizienten
  • Regularisierung
  • Weiterführendes Material
  • Kapitel 16: Logistische Regression
  • Die Aufgabe
  • Die logistische Funktion
  • Anwendung des Modells
  • Anpassungsgüte
  • Support Vector Machines
  • Weiterführendes Material
  • Kapitel 17: Entscheidungsbäume
  • Was ist ein Entscheidungsbaum?
  • Entropie
  • Die Entropie einer Partition
  • Einen Entscheidungsbaum erzeugen
  • Verallgemeinerung des Verfahrens
  • Random Forests
  • Weiterführendes Material
  • Kapitel 18: Neuronale Netzwerke
  • Perzeptrons
  • Feed-forward-Netze
  • Backpropagation
  • Beispiel: Fizz Buzz
  • Weiterführendes Material
  • Kapitel 19: Deep Learning
  • Der Tensor
  • Die Layer-Abstrahierung
  • Der lineare Layer
  • Neuronale Netzwerke als Abfolge von Layern
  • Verlust und Optimierung
  • Beispiel XOR überarbeitet
  • Andere Aktivierungsfunktionen
  • Beispiel: Fizz Buzz überarbeitet
  • Softmaxes und Kreuz-Entropie
  • Dropout
  • Beispiel: MNIST
  • Modelle sichern und laden
  • Weiterführendes Material
  • Kapitel 20: Clustering
  • Die Idee
  • Das Modell
  • Beispiel: Meet-ups
  • Die Auswahl von k
  • Beispiel: Clustern von Farben
  • Agglomeratives hierarchisches Clustering
  • Weiterführendes Material
  • Kapitel 21: Linguistische Datenverarbeitung
  • Wortwolken
  • N-Gramm-Sprachmodelle
  • Grammatiken
  • Exkurs: Gibbs-Sampling
  • Themenmodellierung
  • Wortvektoren
  • Rekurrente neuronale Netzwerke
  • Beispiel: Ein RNN auf Zeichenebene verwenden
  • Weiterführendes Material
  • Kapitel 22: Graphenanalyse
  • Betweenness-Zentralität
  • Eigenvektor-Zentralität
  • Gerichtete Graphen und PageRank
  • Weiterführendes Material
  • Kapitel 23: Empfehlungssysteme
  • Manuelle Pflege
  • Empfehlen, was beliebt ist
  • Nutzerbasiertes kollaboratives Filtern
  • Gegenstandsbasiertes kollaboratives Filtern
  • Matrixfaktorisierung
  • Weiterführendes Material
  • Kapitel 24: Datenbanken und SQL
  • CREATE TABLE und INSERT
  • UPDATE
  • DELETE
  • SELECT
  • GROUP BY
  • ORDER BY
  • JOIN
  • Subqueries
  • Indexstrukturen
  • Optimierung von Anfragen
  • NoSQL
  • Weiterführendes Material
  • Kapitel 25: MapReduce
  • Beispiel: Wörter zählen
  • Warum MapReduce?
  • MapReduce verallgemeinert
  • Beispiel: Statusmeldungen analysieren
  • Beispiel: Matrizenmultiplikation
  • Eine Randbemerkung: Combiners
  • Weiterführendes Material
  • Kapitel 26: Datenethik
  • Was ist Datenethik?
  • Jetzt aber wirklich: Was ist Datenethik?
  • Sollte ich mir über Datenethik Gedanken machen?
  • Schlechte Produkte bauen
  • Genauigkeit und Fairness abwägen
  • Zusammenarbeit
  • Interpretierbarkeit
  • Empfehlungen
  • Tendenziöse Daten
  • Datenschutz
  • Zusammenfassung
  • Weiterführendes Material
  • Kapitel 27: Gehet hin und praktizieret Data Science
  • IPython
  • Mathematik
  • Nicht bei null starten
  • Finden Sie Daten
  • Data Science in der Praxis
  • Index

Related titles

    More of this author(s)