Data-Science-Crashkurs

Steffen Herbold

Data-Science-Crashkurs

Eine interaktive und praktische Einführung

Steffen Herbold

Produktinformationen

Autor: Steffen Herbold
ISBN: 9783969106181
Verlag: dpunkt.verlag
Erscheinungstermin: 2021-10-01
Erscheinungstermin (elektronische Fassung): 2022-01-08
Erscheinungsjahr (elektronische Fassung): 2022
Seiten: 346
Paket: Softwareentwicklung 2021_2 [3211]

P-ISBN: 9783864908620

Diese Publikation zitieren

Steffen Herbold, Data-Science-Crashkurs (2022), dpunkt.verlag, Heidelberg, ISBN: 9783969106181

6742
Accesses

54
Quotes

Beschreibung / Abstract

Data Science praxisnah erklärt

Praxisnaher Einstieg mit anschaulichen Erklärungen und zahlreichen Anwendungsbeispielen, unterstützt durch interaktive Elemente

für alle, die mehr über die Möglichkeiten der Datenanalyse lernen wollen, ohne gleich tief in die Theorie oder bestimmte Methoden einzusteigen

Dieses Buch bietet einen praxisnahen Einstieg in Data Science, angereichert mit interaktiven Elementen, der die Breite der Möglichkeiten der Datenanalyse aufzeigt und tief genug geht, um Vorteile, Nachteile und Risiken zu verstehen, aber dennoch nicht zu tief in die zugrunde liegende Mathematik einsteigt. Es wird nicht nur erklärt, wofür wichtige Begriffe wie Big Data, machinelles Lernen oder Klassifikation stehen, sondern auch anschaulich mit zahlreichen Beispielen aufgezeigt, wie Daten analysiert werden. Ein breiter Überblick über Analysemethoden vermittelt das nötige Wissen, um in eigenen Projekten geeignete Methoden auszuwählen und anzuwenden, um das gewünschte Ergebnis zu erreichen.
Der benötigte Python-Quelltext, der z.B. zur Durchführung von Analysen oder zur Erstellung von Visualisierungen verwendet wird, ist in Form von Jupyter-Notebooks frei verfügbar.

Beschreibung

Dr. Steffen Herbold ist Professor für Methoden und Anwendungen maschinellen Lernens am Institut für Software und Systems Engineering der Technischen Universität Clausthal, wo er die Forschungsgruppe AI Engineering leitet. Zuvor hat er an der Universität Göttingen promoviert und habilitiert und am Karlsruher Institut für Technologie einen Lehrstuhl vertreten. In der Forschung beschäftigt er sich mit der Entwicklung und Qualitätssicherung der Lösung von Problemen durch maschinelles Lernen, z.B. zur effizienteren Softwareentwicklung, der Prognose von Ernteerträgen oder auch der Erkennung von aeroakustischen Geräuschquellen.

Inhaltsverzeichnis

BEGINN
Vorwort
Inhaltsübersicht
Inhaltsverzeichnis
Inhaltsverzeichnis
1 Big Data und Data Science
1.1 Einführung in Big Data
1.2 Einführung in Data Science
1.3 Fähigkeiten von Data Scientists
2 Der Prozess von Data-Science-Projekten
Abb. 2 1 Beziehung von Menschen, Techniken und Prozessen
2.1 Der generische Data-Science-Prozess
2.2 Rollen in Data-Science-Projekten
2.3 Deliverables
3 Allgemeines zur Datenanalyse
3.1 Das No-free-Lunch-Theorem
3.2 Definition von maschinellem Lernen
3.3 Merkmale
3.4 Trainings- und Testdaten
3.5 Kategorien von Algorithmen
3.6 Übung
4 Erkunden der Daten
4.1 Texteditoren und die Kommandozeile
4.2 Deskriptive Statistik
4.3 Visualisierung
4.4 Übung
5 Assoziationsregeln
Abb. 5 1 Warenkörbe als Beispiel für Assoziationen
Abb. 5 2 Konzept der Assoziationsanalyse
5.1 Der Apriori-Algorithmus
5.2 Bewertung von Assoziationsregeln
5.3 Übung
6 Clusteranalyse
Abb. 6 1 Gruppieren von Emoticons als Beispiel für das Clustern
Abb. 6 2 Konzept des Clusterings
6.1 Ähnlichkeitsmaße
6.2 Städte und Häuser
6.3 k-Means-Algorithmus
6.4 EM-Clustering
6.5 DBSCAN
6.6 Single Linkage Clustering
6.7 Vergleich der Algorithmen
6.8 Übung
7 Klassifikation
Abb. 7 1 Zuweisung der Kategorien Wal und Bär zu Bildern
Abb. 7 2 Abstraktes Konzept der Klassifikation
Abb. 7 3 Beispiel für Merkmale, die für eine Hypothese über das Objekt verwendet werden können.
7.1 Binäre Klassifikation und Grenzwerte
7.2 Gütemaße
7.3 Decision Surfaces
7.4 k-Nearest Neighbor
7.5 Entscheidungsbäume
7.6 Random Forests
7.7 Logistische Regression
7.8 Naive Bayes
7.9 Support Vector Machines (SVMs)
7.10 Neuronale Netzwerke
7.11 Vergleich der Klassifikationsalgorithmen
7.12 Übung
8 Regression
Abb. 8 1 Beziehung von Spritverbrauch und Höchstgeschwindigkeit
Abb. 8 2 Beziehung von Spritverbrauch und Höchstgeschwindigkeit
8.1 Güte von Regressionen
8.2 Lineare Regression
8.3 Jenseits von linearer Regression
8.4 Übung
9 Zeitreihenanalyse
Abb. 9 1 Entwicklung der Passagierzahlen bei einer amerikanischen Fluggesellschaft
Abb. 9 2 Konzept der Zeitreihenanalyse
9.1 Box-Jenkins-Verfahren
9.2 Trends und saisonale Effekte
9.3 Autokorrelationen mit ARMA
9.4 Jenseits von Box-Jenkins
9.5 Übung
10 Text Mining
10.1 Preprocessing
10.2 Herausforderungen des Text Mining
10.3 Übung
11 Statistik
11.1 Hypothesentests
11.2 Effektstärke
11.3 Konfidenzintervalle
11.4 Gute Beschreibung von Ergebnissen
11.5 Übung
12 Big Data Processing
12.1 Parallelisierung
12.2 Verteiltes Rechnen zur Datenanalyse
12.3 Datenlokalität
12.4 MapReduce
12.5 Apache Hadoop
12.6 Apache Spark
12.7 Jenseits von Hadoop und Spark
13 Weiterführende Konzepte
Anhang
A Selbst ausführen
B Notationen
C Abkürzungen
D Literatur
Index

Data-Science-Crashkurs

Eine interaktive und praktische Einführung

Produktinformationen

Diese Publikation zitieren

Beschreibung / Abstract

Data Science praxisnah erklärt

Beschreibung

Inhaltsverzeichnis

Ähnliche Titel

Mehr von diesem Autor