Data-Science-Crashkurs
Eine interaktive und praktische Einführung
Diese Publikation zitieren
Accesses
Quotes
Beschreibung / Abstract
Data Science praxisnah erklärt
- Praxisnaher Einstieg mit anschaulichen Erklärungen und zahlreichen Anwendungsbeispielen, unterstützt durch interaktive Elemente
- für alle, die mehr über die Möglichkeiten der Datenanalyse lernen wollen, ohne gleich tief in die Theorie oder bestimmte Methoden einzusteigen
Dieses Buch bietet einen praxisnahen Einstieg in Data Science, angereichert mit interaktiven Elementen, der die Breite der Möglichkeiten der Datenanalyse aufzeigt und tief genug geht, um Vorteile, Nachteile und Risiken zu verstehen, aber dennoch nicht zu tief in die zugrunde liegende Mathematik einsteigt. Es wird nicht nur erklärt, wofür wichtige Begriffe wie Big Data, machinelles Lernen oder Klassifikation stehen, sondern auch anschaulich mit zahlreichen Beispielen aufgezeigt, wie Daten analysiert werden. Ein breiter Überblick über Analysemethoden vermittelt das nötige Wissen, um in eigenen Projekten geeignete Methoden auszuwählen und anzuwenden, um das gewünschte Ergebnis zu erreichen.
Der benötigte Python-Quelltext, der z.B. zur Durchführung von Analysen oder zur Erstellung von Visualisierungen verwendet wird, ist in Form von Jupyter-Notebooks frei verfügbar.
Beschreibung
Inhaltsverzeichnis
- BEGINN
- Vorwort
- Inhaltsübersicht
- Inhaltsverzeichnis
- Inhaltsverzeichnis
- 1 Big Data und Data Science
- 1.1 Einführung in Big Data
- 1.2 Einführung in Data Science
- 1.3 Fähigkeiten von Data Scientists
- 2 Der Prozess von Data-Science-Projekten
- Abb. 2 1 Beziehung von Menschen, Techniken und Prozessen
- 2.1 Der generische Data-Science-Prozess
- 2.2 Rollen in Data-Science-Projekten
- 2.3 Deliverables
- 3 Allgemeines zur Datenanalyse
- 3.1 Das No-free-Lunch-Theorem
- 3.2 Definition von maschinellem Lernen
- 3.3 Merkmale
- 3.4 Trainings- und Testdaten
- 3.5 Kategorien von Algorithmen
- 3.6 Übung
- 4 Erkunden der Daten
- 4.1 Texteditoren und die Kommandozeile
- 4.2 Deskriptive Statistik
- 4.3 Visualisierung
- 4.4 Übung
- 5 Assoziationsregeln
- Abb. 5 1 Warenkörbe als Beispiel für Assoziationen
- Abb. 5 2 Konzept der Assoziationsanalyse
- 5.1 Der Apriori-Algorithmus
- 5.2 Bewertung von Assoziationsregeln
- 5.3 Übung
- 6 Clusteranalyse
- Abb. 6 1 Gruppieren von Emoticons als Beispiel für das Clustern
- Abb. 6 2 Konzept des Clusterings
- 6.1 Ähnlichkeitsmaße
- 6.2 Städte und Häuser
- 6.3 k-Means-Algorithmus
- 6.4 EM-Clustering
- 6.5 DBSCAN
- 6.6 Single Linkage Clustering
- 6.7 Vergleich der Algorithmen
- 6.8 Übung
- 7 Klassifikation
- Abb. 7 1 Zuweisung der Kategorien Wal und Bär zu Bildern
- Abb. 7 2 Abstraktes Konzept der Klassifikation
- Abb. 7 3 Beispiel für Merkmale, die für eine Hypothese über das Objekt verwendet werden können.
- 7.1 Binäre Klassifikation und Grenzwerte
- 7.2 Gütemaße
- 7.3 Decision Surfaces
- 7.4 k-Nearest Neighbor
- 7.5 Entscheidungsbäume
- 7.6 Random Forests
- 7.7 Logistische Regression
- 7.8 Naive Bayes
- 7.9 Support Vector Machines (SVMs)
- 7.10 Neuronale Netzwerke
- 7.11 Vergleich der Klassifikationsalgorithmen
- 7.12 Übung
- 8 Regression
- Abb. 8 1 Beziehung von Spritverbrauch und Höchstgeschwindigkeit
- Abb. 8 2 Beziehung von Spritverbrauch und Höchstgeschwindigkeit
- 8.1 Güte von Regressionen
- 8.2 Lineare Regression
- 8.3 Jenseits von linearer Regression
- 8.4 Übung
- 9 Zeitreihenanalyse
- Abb. 9 1 Entwicklung der Passagierzahlen bei einer amerikanischen Fluggesellschaft
- Abb. 9 2 Konzept der Zeitreihenanalyse
- 9.1 Box-Jenkins-Verfahren
- 9.2 Trends und saisonale Effekte
- 9.3 Autokorrelationen mit ARMA
- 9.4 Jenseits von Box-Jenkins
- 9.5 Übung
- 10 Text Mining
- 10.1 Preprocessing
- 10.2 Herausforderungen des Text Mining
- 10.3 Übung
- 11 Statistik
- 11.1 Hypothesentests
- 11.2 Effektstärke
- 11.3 Konfidenzintervalle
- 11.4 Gute Beschreibung von Ergebnissen
- 11.5 Übung
- 12 Big Data Processing
- 12.1 Parallelisierung
- 12.2 Verteiltes Rechnen zur Datenanalyse
- 12.3 Datenlokalität
- 12.4 MapReduce
- 12.5 Apache Hadoop
- 12.6 Apache Spark
- 12.7 Jenseits von Hadoop und Spark
- 13 Weiterführende Konzepte
- Anhang
- A Selbst ausführen
- B Notationen
- C Abkürzungen
- D Literatur
- Index