Einführung in Machine Learning mit Python

Praxiswissen Data Science

Andreas C. Müller und Sarah Guido

Diese Publikation zitieren

Andreas C. Müller, Sarah Guido, Einführung in Machine Learning mit Python (2017), O'Reilly Verlag, Heidelberg, ISBN: 9783960101116

13390
Accesses
367
Quotes

Beschreibung / Abstract

Machine Learning ist zu einem wichtigen Bestandteil vieler kommerzieller Anwendungen und Forschungsprojekte geworden, von der medizinischen Diagnostik bis hin zur Suche nach Freunden in sozialen Netzwerken. Um Machine-Learning-Anwendungen zu entwickeln, braucht es keine großen Expertenteams: Wenn Sie Python-Grundkenntnisse mitbringen, zeigt Ihnen dieses Praxisbuch, wie Sie Ihre eigenen Machine-Learning-Lösungen erstellen.

Mit Python und der scikit-learn-Bibliothek erarbeiten Sie sich alle Schritte, die für eine erfolgreiche Machine-Learning-Anwendung notwendig sind. Die Autoren Andreas Müller und Sarah Guido konzentrieren sich bei der Verwendung von Machine-Learning-Algorithmen auf die praktischen Aspekte statt auf die Mathematik dahinter. Wenn Sie zusätzlich mit den Bibliotheken NumPy und matplotlib vertraut sind, hilft Ihnen dies, noch mehr aus diesem Tutorial herauszuholen.

Das Buch zeigt Ihnen:
- grundlegende Konzepte und Anwendungen von Machine Learning
- Vor- und Nachteile weit verbreiteter maschineller Lernalgorithmen
- wie sich die von Machine Learning verarbeiteten Daten repräsentieren lassen und auf welche Aspekte der Daten Sie sich konzentrieren sollten
- fortgeschrittene Methoden zur Auswertung von Modellen und zum Optimieren von Parametern
- das Konzept von Pipelines, mit denen Modelle verkettet und Arbeitsabläufe gekapselt werden
- Arbeitsmethoden für Textdaten, insbesondere textspezifische Verarbeitungstechniken
- Möglichkeiten zur Verbesserung Ihrer Fähigkeiten in den Bereichen Machine Learning und Data Science

Dieses Buch ist eine fantastische, super praktische Informationsquelle für jeden, der mit Machine Learning in Python starten möchte – ich wünschte nur, es hätte schon existiert, als ich mit scikit-learn anfing!
Hanna Wallach, Senior Researcher, Microsoft Research

Beschreibung

Andreas C. Müller hat an der Universität Bonn in Machine Learning promoviert. Bei Amazon hat er an
Anwendungen für rechnergestütztes Sehen gearbeitet, heute ist er am Center for Data Science an der New
York University tätig. Er ist als Core Contributor an der Entwicklung und Wartung von scikit-learn beteiligt.

Sarah Guido ist als Data Scientist tätig und hat viel für Start-ups gearbeitet, zuletzt als Lead Data Scientist bei Bitly. Sie ist eine erfahrene Konferenzrednerin und hat einen Master-Abschluss im Fach Information an der University of Michigan erworben.

Inhaltsverzeichnis

  • BEGINN
  • Inhalt
  • Vorwort
  • Kapitel 1: Einführung
  • Warum Machine Learning?
  • Warum Python?
  • scikit-learn
  • Grundlegende Bibliotheken und Werkzeuge
  • Python 2 versus Python 3
  • In diesem Buch verwendete Versionen
  • Eine erste Anwendung: Klassifizieren von Iris-Spezies
  • Zusammenfassung und Ausblick
  • Kapitel 2: Überwachtes Lernen
  • Klassifikation und Regression
  • Verallgemeinerung, Overfitting und Underfitting
  • Algorithmen zum überwachten Lernen
  • Schätzungen der Unsicherheit von Klassifikatoren
  • Zusammenfassung und Ausblick
  • Kapitel 3: Unüberwachtes Lernen und Vorverarbeitung
  • Arten von unüberwachtem Lernen
  • Herausforderungen beim unüberwachten Lernen
  • Vorverarbeiten und Skalieren
  • Dimensionsreduktion, Extraktion von Merkmalen und Manifold Learning
  • Clusteranalyse
  • Zusammenfassung und Ausblick
  • Kapitel 4: Repräsentation von Daten und Merkmalsgenerierung
  • Kategorische Variablen
  • Binning, Diskretisierung, lineare Modelle und Bäume
  • Interaktionen und Polynome
  • Univariate nichtlineare Transformation
  • Automatische Auswahl von Merkmalen
  • Berücksichtigen von Expertenwissen
  • Zusammenfassung und Ausblick
  • Kapitel 5: Evaluierung und Verbesserung von Modellen
  • Kreuzvalidierung
  • Gittersuche
  • Evaluationsmetriken
  • Zusammenfassung und Ausblick
  • Kapitel 6: Verkettete Algorithmen und Pipelines
  • Parameterauswahl mit Vorverarbeitung
  • Erstellen von Pipelines
  • Pipelines zur Gittersuche einsetzen
  • Die allgemeine Pipeline-Schnittstelle
  • Gittersuche für Vorverarbeitungsschritte und Modellparameter
  • Gittersuche nach dem richtigen Modell
  • Zusammenfassung und Ausblick
  • Kapitel 7: Verarbeiten von Textdaten
  • Arten von als Strings repräsentierter Daten
  • Anwendungsbeispiel: Meinungsanalyse zu Filmbewertungen
  • Repräsentation von Text als Bag-of-Words
  • Stoppwörter
  • Umskalieren der Daten mit tf-idf
  • Untersuchen der Koeffizienten des Modells
  • Bag-of-Words mit mehr als einem Wort (n-Gramme)
  • Fortgeschrittene Tokenisierung, Stemming und Lemmatisierung
  • Modellierung von Themen und Clustering von Dokumenten
  • Zusammenfassung und Ausblick
  • Kapitel 8: Zusammenfassung und weiterführende Ressourcen
  • Herangehensweise an eine Fragestellung beim maschinellen Lernen
  • Vom Prototyp zum Produktivsystem
  • Testen von Produktivsystemen
  • Konstruieren eines eigenen Estimators
  • Wie geht es von hier aus weiter?
  • Schlussbemerkung
  • Index
  • Über die Autoren
  • Über die Übersetzer
  • Kolophon

Mehr von dieser Serie

    Ähnliche Titel

      Mehr von diesem Autor