Machine Learning – Die Referenz

Matt Harrison

Machine Learning – Die Referenz

Mit strukturierten Daten in Python arbeiten

Matt Harrison

Produktinformationen

Autor: Matt Harrison
ISBN: 9783960104087
Verlag: O'Reilly Verlag
Erscheinungstermin: 2020-10-26
Erscheinungstermin (elektronische Fassung): 2020-10-28
Erscheinungsjahr (elektronische Fassung): 2020
Seiten: 246
Paket: Neuheiten 2020_2 [2856]

P-ISBN: 9783960091356

Diese Publikation zitieren

Matt Harrison, Machine Learning – Die Referenz (2020), O'Reilly Verlag, Heidelberg, ISBN: 9783960104087

10035
Accesses

16
Quotes

Beschreibung / Abstract

Das praktische Nachschlagewerk zum Machine Learning mit strukturierten Daten
Konzentriert sich auf Themen, die für den praktizierenden Machine-Learning-Anwender interessant sind
Enthält eine große Anzahl wertvoller Codebeispiele für strukturierte Daten, die in der Praxis konkret weiterhelfen/ul>
Zeigt, wie verschiedene Bibliotheken zur Lösung praktischer Fragestellungen eingesetzt werden
Diese praktische Referenz ist eine Sammlung von Methoden, Ressourcen und Codebeispielen zur Lösung gängiger Machine-Learning-Probleme mit strukturierten Daten. Der Autor Matt Harrison hat einen wertvollen Leitfaden zusammengestellt, den Sie als zusätzliche Unterstützung während eines Machine-Learning-Kurses nutzen können oder als Nachschlagewerk, wenn Sie Ihr nächstes ML-Projekt mit Python starten.
Das Buch ist ideal für Data Scientists, Softwareentwickler und Datenanalysten, die Machine Learning praktisch anwenden. Es bietet einen Überblick über den kompletten Machine-Learning-Prozess und führt Sie durch die Klassifizierung strukturierter Daten. Sie lernen dann unter anderem Methoden zur Modellauswahl, zur Regression, zur Reduzierung der Dimensionalität und zum Clustering kennen. Die Codebeispiele sind so kompakt angelegt, dass Sie sie für Ihre eigenen Projekte verwenden und auch gut anpassen können.

Beschreibung

Matt Harrison leitet MetaSnake, ein Trainings- und Beratungsunternehmen für Python und Data Science. Er setzt Python seit 2000 in einer Vielzahl von Bereichen ein: Data Science, BI, Speicherung, Testing und Automatisierung, Open-Source-Stack-Management und Finanzen.

Inhaltsverzeichnis

BEGINN
Inhalt
Vorwort
Kapitel 1: Einleitung
Verwendete Bibliotheken
Installation mit pip
Installation mit conda
Kapitel 2: Der Vorgang des maschinellen Lernens: Überblick
Kapitel 3: Klassifikation Schritt für Schritt: der Titanic-Datensatz
Vorschlag für das Projektlayout
Importe
Eine Frage stellen
Begriffe und Bezeichnungen für die Daten
Daten sammeln
Daten säubern
Merkmale gewinnen
Stichproben von Daten nehmen
Daten auffüllen
Daten normalisieren
Refaktorieren
Vergleichsmodell
Verschiedene Algorithmenfamilien
Stacking
Ein Modell erstellen
Das Modell auswerten
Das Modell optimieren
Wahrheitsmatrix
Grenzwertoptimierungskurve (ROC-Kurve)
Trainingskurve
Das Modell einsetzen
Kapitel 4: Fehlende Daten
Fehlende Daten untersuchen
Fehlende Daten entfernen
Daten auffüllen
Indikatorspalten hinzufügen
Kapitel 5: Daten säubern
Spaltennamen
Fehlende Werte ersetzen
Kapitel 6: Erkunden
Datenmenge
Zusammenfassende Statistiken
Histogramm
Streudiagramm
Kombidiagramm
Paarmatrix
Kasten- und Violinendiagramme
Vergleich zweier Ordinalwerte
Korrelation
RadViz
Parallele Koordinaten
Kapitel 7: Daten vorverarbeiten
Standardisieren
Den Wertebereich skalieren
Dummy-Variablen
Markierungen codieren
Häufigkeitscodierung
Kategorien aus Text gewinnen
Weitere kategoriale Codierungen
Datumsmerkmale konstruieren
Ein Merkmal col_na hinzufügen
Manuelle Merkmalskonstruktion
Kapitel 8: Merkmalsauswahl
Kollineare Spalten
Lasso-Regression
Rekursiver Ausschluss von Merkmalen
Wechselseitige Aussagekraft
Hauptkomponentenverfahren
Merkmalsgewichtung
Kapitel 9: Unausgeglichene Klassen
Eine andere Metrik anwenden
Baumalgorithmen und Ensembles
Modelle mit Strafpunkten
Minderheiten erweitern
Minderheitsdaten erzeugen
Mehrheiten verkleinern
Erweitern und danach verkleinern
Kapitel 10: Klassifikation
Logistische Regression
Naiver Bayes-Klassifikator
Supportvektormaschine
K-nächste Nachbarn
Entscheidungsbaum
Random-Forest
XGBoost
Gradientenverstärkung mit LightGBM
TPOT
Kapitel 11: Modellauswahl
Validierungskurve
Lernkurve
Kapitel 12: Metriken und Beurteilung der Klassifikation
Wahrheitsmatrix
Metriken
Vertrauenswahrscheinlichkeit
Trefferquote
Genauigkeit
F1 (F-Maß)
Klassifikationstafel
ROC-Kurve (Grenzwertoptimierungskurve)
Kurve der Genauigkeit über der Trefferquote
Kumulatives Gain-Diagramm
Lift-Kurve
Ausgeglichenheit der Klassen
Klassenvorhersagefehler
Ansprechschwelle
Kapitel 13: Interpretation von Modellen
Regressionskoeffizienten
Merkmalsgewichtung
LIME
Interpretation von Bäumen
Partielle Abhängigkeitsdiagramme
Stellvertretermodelle
Shapley
Kapitel 14: Regression
Vergleichsmodell
Lineare Regression
Supportvektormaschinen (SVM)
K-nächste Nachbarn
Entscheidungsbaum
Random-Forest
XGBoost-Regression
Regression mit LightGBM
Kapitel 15: Metriken und Bewertung der Regression
Metriken
Residuendiagramm
Varianzheterogenität
Normalverteilte Residuen
Diagramm des Vorhersagefehlers
Kapitel 16: Interpretation von Regressionsmodellen
Shapley
Kapitel 17: Dimensionsreduktion
Hauptkomponentenverfahren (PCA)
UMAP
t-SNE
PHATE
Kapitel 18: Clustern
K-Means-Algorithmus
Agglomeratives (hierarchisches) Clustern
Cluster verstehen
Kapitel 19: Pipelines
Klassifikationspipeline
Regressionspipeline
Pipeline für das Hauptkomponentenverfahren
Index

Machine Learning – Die Referenz

Mit strukturierten Daten in Python arbeiten

Produktinformationen

Diese Publikation zitieren

Beschreibung / Abstract

Beschreibung

Inhaltsverzeichnis

Ähnliche Titel

Mehr von diesem Autor