Machine Learning – Die Referenz

Mit strukturierten Daten in Python arbeiten

Matt Harrison

Diese Publikation zitieren

Matt Harrison, Machine Learning – Die Referenz (2020), O'Reilly Verlag, Heidelberg, ISBN: 9783960104087

10035
Accesses
16
Quotes

Beschreibung / Abstract

Das praktische Nachschlagewerk zum Machine Learning mit strukturierten Daten
Konzentriert sich auf Themen, die für den praktizierenden Machine-Learning-Anwender interessant sind
Enthält eine große Anzahl wertvoller Codebeispiele für strukturierte Daten, die in der Praxis konkret weiterhelfen/ul>
Zeigt, wie verschiedene Bibliotheken zur Lösung praktischer Fragestellungen eingesetzt werden
Diese praktische Referenz ist eine Sammlung von Methoden, Ressourcen und Codebeispielen zur Lösung gängiger Machine-Learning-Probleme mit strukturierten Daten. Der Autor Matt Harrison hat einen wertvollen Leitfaden zusammengestellt, den Sie als zusätzliche Unterstützung während eines Machine-Learning-Kurses nutzen können oder als Nachschlagewerk, wenn Sie Ihr nächstes ML-Projekt mit Python starten.
Das Buch ist ideal für Data Scientists, Softwareentwickler und Datenanalysten, die Machine Learning praktisch anwenden. Es bietet einen Überblick über den kompletten Machine-Learning-Prozess und führt Sie durch die Klassifizierung strukturierter Daten. Sie lernen dann unter anderem Methoden zur Modellauswahl, zur Regression, zur Reduzierung der Dimensionalität und zum Clustering kennen. Die Codebeispiele sind so kompakt angelegt, dass Sie sie für Ihre eigenen Projekte verwenden und auch gut anpassen können.

Beschreibung

Matt Harrison leitet MetaSnake, ein Trainings- und Beratungsunternehmen für Python und Data Science. Er setzt Python seit 2000 in einer Vielzahl von Bereichen ein: Data Science, BI, Speicherung, Testing und Automatisierung, Open-Source-Stack-Management und Finanzen.

Inhaltsverzeichnis

  • BEGINN
  • Inhalt
  • Vorwort
  • Kapitel 1: Einleitung
  • Verwendete Bibliotheken
  • Installation mit pip
  • Installation mit conda
  • Kapitel 2: Der Vorgang des maschinellen Lernens: Überblick
  • Kapitel 3: Klassifikation Schritt für Schritt: der Titanic-Datensatz
  • Vorschlag für das Projektlayout
  • Importe
  • Eine Frage stellen
  • Begriffe und Bezeichnungen für die Daten
  • Daten sammeln
  • Daten säubern
  • Merkmale gewinnen
  • Stichproben von Daten nehmen
  • Daten auffüllen
  • Daten normalisieren
  • Refaktorieren
  • Vergleichsmodell
  • Verschiedene Algorithmenfamilien
  • Stacking
  • Ein Modell erstellen
  • Das Modell auswerten
  • Das Modell optimieren
  • Wahrheitsmatrix
  • Grenzwertoptimierungskurve (ROC-Kurve)
  • Trainingskurve
  • Das Modell einsetzen
  • Kapitel 4: Fehlende Daten
  • Fehlende Daten untersuchen
  • Fehlende Daten entfernen
  • Daten auffüllen
  • Indikatorspalten hinzufügen
  • Kapitel 5: Daten säubern
  • Spaltennamen
  • Fehlende Werte ersetzen
  • Kapitel 6: Erkunden
  • Datenmenge
  • Zusammenfassende Statistiken
  • Histogramm
  • Streudiagramm
  • Kombidiagramm
  • Paarmatrix
  • Kasten- und Violinendiagramme
  • Vergleich zweier Ordinalwerte
  • Korrelation
  • RadViz
  • Parallele Koordinaten
  • Kapitel 7: Daten vorverarbeiten
  • Standardisieren
  • Den Wertebereich skalieren
  • Dummy-Variablen
  • Markierungen codieren
  • Häufigkeitscodierung
  • Kategorien aus Text gewinnen
  • Weitere kategoriale Codierungen
  • Datumsmerkmale konstruieren
  • Ein Merkmal col_na hinzufügen
  • Manuelle Merkmalskonstruktion
  • Kapitel 8: Merkmalsauswahl
  • Kollineare Spalten
  • Lasso-Regression
  • Rekursiver Ausschluss von Merkmalen
  • Wechselseitige Aussagekraft
  • Hauptkomponentenverfahren
  • Merkmalsgewichtung
  • Kapitel 9: Unausgeglichene Klassen
  • Eine andere Metrik anwenden
  • Baumalgorithmen und Ensembles
  • Modelle mit Strafpunkten
  • Minderheiten erweitern
  • Minderheitsdaten erzeugen
  • Mehrheiten verkleinern
  • Erweitern und danach verkleinern
  • Kapitel 10: Klassifikation
  • Logistische Regression
  • Naiver Bayes-Klassifikator
  • Supportvektormaschine
  • K-nächste Nachbarn
  • Entscheidungsbaum
  • Random-Forest
  • XGBoost
  • Gradientenverstärkung mit LightGBM
  • TPOT
  • Kapitel 11: Modellauswahl
  • Validierungskurve
  • Lernkurve
  • Kapitel 12: Metriken und Beurteilung der Klassifikation
  • Wahrheitsmatrix
  • Metriken
  • Vertrauenswahrscheinlichkeit
  • Trefferquote
  • Genauigkeit
  • F1 (F-Maß)
  • Klassifikationstafel
  • ROC-Kurve (Grenzwertoptimierungskurve)
  • Kurve der Genauigkeit über der Trefferquote
  • Kumulatives Gain-Diagramm
  • Lift-Kurve
  • Ausgeglichenheit der Klassen
  • Klassenvorhersagefehler
  • Ansprechschwelle
  • Kapitel 13: Interpretation von Modellen
  • Regressionskoeffizienten
  • Merkmalsgewichtung
  • LIME
  • Interpretation von Bäumen
  • Partielle Abhängigkeitsdiagramme
  • Stellvertretermodelle
  • Shapley
  • Kapitel 14: Regression
  • Vergleichsmodell
  • Lineare Regression
  • Supportvektormaschinen (SVM)
  • K-nächste Nachbarn
  • Entscheidungsbaum
  • Random-Forest
  • XGBoost-Regression
  • Regression mit LightGBM
  • Kapitel 15: Metriken und Bewertung der Regression
  • Metriken
  • Residuendiagramm
  • Varianzheterogenität
  • Normalverteilte Residuen
  • Diagramm des Vorhersagefehlers
  • Kapitel 16: Interpretation von Regressionsmodellen
  • Shapley
  • Kapitel 17: Dimensionsreduktion
  • Hauptkomponentenverfahren (PCA)
  • UMAP
  • t-SNE
  • PHATE
  • Kapitel 18: Clustern
  • K-Means-Algorithmus
  • Agglomeratives (hierarchisches) Clustern
  • Cluster verstehen
  • Kapitel 19: Pipelines
  • Klassifikationspipeline
  • Regressionspipeline
  • Pipeline für das Hauptkomponentenverfahren
  • Index

Ähnliche Titel

    Mehr von diesem Autor