Merkmalskonstruktion für Machine Learning

Prinzipien und Techniken der Datenaufbereitung

Alice Zheng und Amanda Casari

Diese Publikation zitieren

Alice Zheng, Amanda Casari, Merkmalskonstruktion für Machine Learning (2019), O'Reilly Verlag, Heidelberg, ISBN: 9783960102496

5810
Accesses
53
Quotes

Beschreibung / Abstract

Die Merkmalskonstruktion, auch Feature Engineering genannt, ist ein entscheidender Arbeitsschritt bei der Datenaufbereitung für das maschinelle Lernen, der die Leistung der Modelle stark beeinflusst. In diesem praxisnahen Buch lernen Sie Techniken, um Merkmale – numerische Repräsentationen eines bestimmten Aspekts von Rohdaten – zu gewinnen und mit maschinellen Lernmodellen nutzbar zu machen. Jedes Kapitel führt Sie durch eine spezifische Aufgabe der Datenanalyse wie etwa die Darstellung von Text- oder Bilddaten. Diese Beispiele veranschaulichen die wichtigsten Prinzipien der Merkmalskonstruktion.
Statt diese Prinzipien nur zu beschreiben, legen die Autorinnen Alice Zheng und Amanda Casari im gesamten Buch den Schwerpunkt auf die praktische Anwendung mit Übungen. Das Schlusskapitel vertieft das Gelernte, indem es verschiedene Techniken der Merkmalskonstruktion auf einen realen, strukturierten Datensatz anwendet. In den Beispielen werden Python-Pakete wie numpy, Pandas, scikit-learn und Matplotlib verwendet.
Aus dem Inhalt:

- Merkmalskonstruktion an numerischen Daten: Filter, Klasseneinteilung, Skalierung, logarithmische und Potenz-Transformationen
- Techniken für natürlichen Text: Bag-of-Words-Modelle, n-Gramme und Phrasenerkennung
- Frequenzfilterung und Merkmalsskalierung zum Entfernen aussageloser Merkmale
- Kodierungstechniken für Kategorievariablen, darunter Merkmals-Hashing und Klassenzählung
- Modellgesteuerte Merkmalskonstruktion mit der Hauptkomponentenanalyse
- Das Konzept der Modellkombination mit dem k-Means-Algorithmus als Technik zur Merkmalserzeugung
- Gewinnung von Bildmerkmalen anhand manueller und Deep-Learning-Techniken

Beschreibung

Alice Zheng ist technische Leiterin für angewandtes Machine Learning und beschäftigt sich mit Algorithmen und Plattformentwicklung. Derzeit ist sie Forschungsmanagerin bei Amazon Advertisement. Zuvor war sie bei GraphLab/Dato/Turi mit der Werkzeugentwicklung und der Weiterbildung von Anwendern betraut und forschte über maschinelles Lernen bei Microsoft Research. Sie besitzt einen Doktortitel für Elektrotechnik und Informatik sowie einen Bachelor-Abschluss in Informatik und Mathematik von der University of California, Berkeley.
Amanda Casari ist eine führende Ingenieurin, die technisches Neuland erkundet und danach fragt, wie man die Auswirkungen dieser Neuerungen am besten aufzeigen kann. Sie ist derzeit leitende Produktmanagerin und Datenanalytikerin bei Concur Labs und Mitbegründerin der KI-Forschungsgruppe von Concur Labs bei SAP Concur. Über die letzten 16 Jahre arbeitete sie in einer Vielzahl funktionsübergreifender Rollen und technischer Fachgebiete, darunter Datenanalyse, maschinelles Lernen, komplexe Systeme und Robotik. Amanda besitzt einen Abschluss als Bachelor of Science in Steuersystemtechnik von der United States Naval Academy und als Master of Science in Elektrotechnik von der University of Vermont.

Inhaltsverzeichnis

  • BEGINN
  • Vorwort
  • Kapitel 1: Die Machine-Learning-Pipeline
  • Daten
  • Aufgaben
  • Modelle
  • Merkmale
  • Modellbewertung
  • Kapitel 2: Tricksereien mit einfachen Zahlen
  • Skalare, Vektoren und Räume
  • Der Umgang mit Zählern
  • Die Logarithmustransformation
  • Merkmalsskalierung oder -normierung
  • Kreuzmerkmale
  • Merkmalsauswahl
  • Zusammenfassung
  • Literatur
  • Kapitel 3: Textdaten: Einebnen, Filtern und Wortgruppensuche
  • Bag-of-X: von natürlichem Text zu flachen Vektoren
  • Reinere Merkmale durch Filtern
  • Bedeutungseinheiten: von Wörtern über n-Gramme zu Phrasen
  • Zusammenfassung
  • Literatur
  • Kapitel 4: Auswirkungen der Merkmalsskalierung: von Bag-of-Words zu TF-IDF
  • TF-IDF: eine kleine Variation von Bag-of-Words
  • Ein Praxistest
  • Der Sache auf den Grund gegangen: Was geht hier vor?
  • Zusammenfassung
  • Literatur
  • Kapitel 5: Kategoriale Variablen: Eier zählen im Roboterzeitalter
  • Kodierung kategorialer Variablen
  • Große kategoriale Variablen
  • Zusammenfassung
  • Literatur
  • Kapitel 6: Dimensionsreduktion: Mit dem Hauptkomponentenverfahren die Datenwolke flach drücken
  • Die Grundidee
  • Herleitung
  • Das Hauptkomponentenverfahren am Werk
  • Weißen und Nullphasenverfahren
  • Bedingungen und Grenzen des Hauptkomponentenverfahrens
  • Anwendungsfälle
  • Zusammenfassung
  • Literatur
  • Kapitel 7: Nichtlineare Merkmalsgewinnung mittels k-Means-Modellstapelung
  • Clustern mit k-Means
  • Clustern als Flächenzerlegung
  • Merkmalsgewinnung mit k-Means zur Klassifikation
  • Vorteile, Nachteile und Stolperfallen
  • Zusammenfassung
  • Literatur
  • Kapitel 8: Automatisierte Merkmalsgewinnung: Bildmerkmale und Deep Learning
  • Die einfachsten Bildmerkmale (und der Grund, warum sie nicht funktionieren)
  • Manuelle Merkmalsgewinnung: SIFT und HOG
  • Erlernen von Bildmerkmalen mit tiefen neuronalen Netzen
  • Zusammenfassung
  • Literatur
  • Kapitel 9: Die fabelhafte Welt der Merkmale: ein Empfehlungsalgorithmus für akademische Aufsätze
  • Artikelbezogenes kollaboratives Filtern
  • Erster Durchgang: Datenimport, Säuberung und Merkmalsgewinnung
  • Zweiter Durchgang: Mehr Konstruktion und ein intelligenteres Modell
  • Dritter Durchgang: Mehr Merkmale bedeuten mehr Information
  • Zusammenfassung
  • Literatur
  • Anhang: Lineare Modellierung und Grundlagen der linearen Algebra
  • Index
  • Über die Autoren
  • Über den Übersetzer
  • Kolophon

Mehr von dieser Serie

    Ähnliche Titel

      Mehr von diesem Autor