Data-Science-Crashkurs

Eine interaktive und praktische Einführung

Steffen Herbold

Diese Publikation zitieren

Steffen Herbold, Data-Science-Crashkurs (2022), dpunkt.verlag, Heidelberg, ISBN: 9783969106181

6742
Accesses
54
Quotes

Beschreibung / Abstract


Data Science praxisnah erklärt



  • Praxisnaher Einstieg mit anschaulichen Erklärungen und zahlreichen Anwendungsbeispielen, unterstützt durch interaktive Elemente

  • für alle, die mehr über die Möglichkeiten der Datenanalyse lernen wollen, ohne gleich tief in die Theorie oder bestimmte Methoden einzusteigen



Dieses Buch bietet einen praxisnahen Einstieg in Data Science, angereichert mit interaktiven Elementen, der die Breite der Möglichkeiten der Datenanalyse aufzeigt und tief genug geht, um Vorteile, Nachteile und Risiken zu verstehen, aber dennoch nicht zu tief in die zugrunde liegende Mathematik einsteigt. Es wird nicht nur erklärt, wofür wichtige Begriffe wie Big Data, machinelles Lernen oder Klassifikation stehen, sondern auch anschaulich mit zahlreichen Beispielen aufgezeigt, wie Daten analysiert werden. Ein breiter Überblick über Analysemethoden vermittelt das nötige Wissen, um in eigenen Projekten geeignete Methoden auszuwählen und anzuwenden, um das gewünschte Ergebnis zu erreichen.
Der benötigte Python-Quelltext, der z.B. zur Durchführung von Analysen oder zur Erstellung von Visualisierungen verwendet wird, ist in Form von Jupyter-Notebooks frei verfügbar.

Beschreibung

Dr. Steffen Herbold ist Professor für Methoden und Anwendungen maschinellen Lernens am Institut für Software und Systems Engineering der Technischen Universität Clausthal, wo er die Forschungsgruppe AI Engineering leitet. Zuvor hat er an der Universität Göttingen promoviert und habilitiert und am Karlsruher Institut für Technologie einen Lehrstuhl vertreten. In der Forschung beschäftigt er sich mit der Entwicklung und Qualitätssicherung der Lösung von Problemen durch maschinelles Lernen, z.B. zur effizienteren Softwareentwicklung, der Prognose von Ernteerträgen oder auch der Erkennung von aeroakustischen Geräuschquellen.

Inhaltsverzeichnis

  • BEGINN
  • Vorwort
  • Inhaltsübersicht
  • Inhaltsverzeichnis
  • Inhaltsverzeichnis
  • 1 Big Data und Data Science
  • 1.1 Einführung in Big Data
  • 1.2 Einführung in Data Science
  • 1.3 Fähigkeiten von Data Scientists
  • 2 Der Prozess von Data-Science-Projekten
  • Abb. 2 1 Beziehung von Menschen, Techniken und Prozessen
  • 2.1 Der generische Data-Science-Prozess
  • 2.2 Rollen in Data-Science-Projekten
  • 2.3 Deliverables
  • 3 Allgemeines zur Datenanalyse
  • 3.1 Das No-free-Lunch-Theorem
  • 3.2 Definition von maschinellem Lernen
  • 3.3 Merkmale
  • 3.4 Trainings- und Testdaten
  • 3.5 Kategorien von Algorithmen
  • 3.6 Übung
  • 4 Erkunden der Daten
  • 4.1 Texteditoren und die Kommandozeile
  • 4.2 Deskriptive Statistik
  • 4.3 Visualisierung
  • 4.4 Übung
  • 5 Assoziationsregeln
  • Abb. 5 1 Warenkörbe als Beispiel für Assoziationen
  • Abb. 5 2 Konzept der Assoziationsanalyse
  • 5.1 Der Apriori-Algorithmus
  • 5.2 Bewertung von Assoziationsregeln
  • 5.3 Übung
  • 6 Clusteranalyse
  • Abb. 6 1 Gruppieren von Emoticons als Beispiel für das Clustern
  • Abb. 6 2 Konzept des Clusterings
  • 6.1 Ähnlichkeitsmaße
  • 6.2 Städte und Häuser
  • 6.3 k-Means-Algorithmus
  • 6.4 EM-Clustering
  • 6.5 DBSCAN
  • 6.6 Single Linkage Clustering
  • 6.7 Vergleich der Algorithmen
  • 6.8 Übung
  • 7 Klassifikation
  • Abb. 7 1 Zuweisung der Kategorien Wal und Bär zu Bildern
  • Abb. 7 2 Abstraktes Konzept der Klassifikation
  • Abb. 7 3 Beispiel für Merkmale, die für eine Hypothese über das Objekt verwendet werden können.
  • 7.1 Binäre Klassifikation und Grenzwerte
  • 7.2 Gütemaße
  • 7.3 Decision Surfaces
  • 7.4 k-Nearest Neighbor
  • 7.5 Entscheidungsbäume
  • 7.6 Random Forests
  • 7.7 Logistische Regression
  • 7.8 Naive Bayes
  • 7.9 Support Vector Machines (SVMs)
  • 7.10 Neuronale Netzwerke
  • 7.11 Vergleich der Klassifikationsalgorithmen
  • 7.12 Übung
  • 8 Regression
  • Abb. 8 1 Beziehung von Spritverbrauch und Höchstgeschwindigkeit
  • Abb. 8 2 Beziehung von Spritverbrauch und Höchstgeschwindigkeit
  • 8.1 Güte von Regressionen
  • 8.2 Lineare Regression
  • 8.3 Jenseits von linearer Regression
  • 8.4 Übung
  • 9 Zeitreihenanalyse
  • Abb. 9 1 Entwicklung der Passagierzahlen bei einer amerikanischen Fluggesellschaft
  • Abb. 9 2 Konzept der Zeitreihenanalyse
  • 9.1 Box-Jenkins-Verfahren
  • 9.2 Trends und saisonale Effekte
  • 9.3 Autokorrelationen mit ARMA
  • 9.4 Jenseits von Box-Jenkins
  • 9.5 Übung
  • 10 Text Mining
  • 10.1 Preprocessing
  • 10.2 Herausforderungen des Text Mining
  • 10.3 Übung
  • 11 Statistik
  • 11.1 Hypothesentests
  • 11.2 Effektstärke
  • 11.3 Konfidenzintervalle
  • 11.4 Gute Beschreibung von Ergebnissen
  • 11.5 Übung
  • 12 Big Data Processing
  • 12.1 Parallelisierung
  • 12.2 Verteiltes Rechnen zur Datenanalyse
  • 12.3 Datenlokalität
  • 12.4 MapReduce
  • 12.5 Apache Hadoop
  • 12.6 Apache Spark
  • 12.7 Jenseits von Hadoop und Spark
  • 13 Weiterführende Konzepte
  • Anhang
  • A Selbst ausführen
  • B Notationen
  • C Abkürzungen
  • D Literatur
  • Index

Ähnliche Titel

    Mehr von diesem Autor