Data Science mit AWS

End-to-End-Pipelines für Continuous Machine Learning implementieren

Chris Fregly und Antje Barth

Diese Publikation zitieren

Chris Fregly, Antje Barth, Data Science mit AWS (2022), O'Reilly Verlag, Heidelberg, ISBN: 9783960106555

2928
Accesses
4
Quotes

Beschreibung / Abstract

Von der ersten Idee bis zur konkreten Anwendung: Ihre Data-Science-Projekte in der AWS-Cloud realisieren


Der US-Besteller zu Amazon Web Services jetzt auf Deutsch
Beschreibt alle wichtigen Konzepte und die wichtigsten AWS-Dienste mit vielen Beispielen aus der Praxis
Deckt den kompletten End-to-End-Prozess von der Entwicklung der Modelle bis zum ihrem konkreten Einsatz ab
Mit Best Practices für alle Aspekte der Modellerstellung einschließlich Training, Deployment, Sicherheit und MLOps


Mit diesem Buch lernen Machine-Learning- und KI-Praktiker, wie sie erfolgreich Data-Science-Projekte mit Amazon Web Services erstellen und in den produktiven Einsatz bringen. Es bietet einen detaillierten Einblick in den KI- und Machine-Learning-Stack von Amazon, der Data Science, Data Engineering und Anwendungsentwicklung vereint. Chris Fregly und Antje Barth beschreiben verständlich und umfassend, wie Sie das breite Spektrum an AWS-Tools nutzbringend für Ihre ML-Projekte einsetzen.Der praxisorientierte Leitfaden zeigt Ihnen konkret, wie Sie ML-Pipelines in der Cloud erstellen und die Ergebnisse dann innerhalb von Minuten in Anwendungen integrieren. Sie erfahren, wie Sie alle Teilschritte eines Workflows zu einer wiederverwendbaren MLOps-Pipeline bündeln, und Sie lernen zahlreiche reale Use Cases zum Beispiel aus den Bereichen Natural Language Processing, Computer Vision oder Betrugserkennung kennen. Im gesamten Buch wird zudem erläutert, wie Sie Kosten senken und die Performance Ihrer Anwendungen optimieren können.

Beschreibung

Chris Fregly ist Principal Developer Advocate für KI und Machine Learning bei AWS in San Francisco. Er spricht regelmäßig auf Konferenzen auf der ganzen Welt zu KI und Machine Learning, unter anderem bei der O'Reilly AI Superstream Series. Zuvor hat er PipelineAI gegründet, war Solutions Engineer bei Databricks und Software Engineer bei Netflix. In den letzten zehn Jahren hat er sich auf den Aufbau von KI- und Machine-Learning-Pipelines mit AWS konzentriert. Antje Barth ist Senior Developer Advocate für KI und Machine Learning bei AWS in Düsseldorf. Sie ist Mitbegründerin der Düsseldorfer Gruppe von "Women in Big Data" und spricht häufig auf KI- und Machine Learning-Konferenzen und Meetups auf der ganzen Welt. Außerdem leitet und kuratiert sie Inhalte für O'Reilly-AI-Superstream-Veranstaltungen. Zuvor war sie als Software Engineer bei Cisco und MapR tätig und beschäftigte sich mit Infrastrukturen für Rechenzentren, Big Data und KI-Anwendungen.

Inhaltsverzeichnis

  • BEGINN
  • Inhalt
  • Vorwort
  • Kapitel 1: Data Science mit AWS – eine Einführung
  • Vorzüge des Cloud Computing
  • Data-Science-Pipelines und -Workflows
  • Best Practices für MLOps
  • Amazons KI-Services und AutoML mit Amazon SageMaker
  • Datenaufnahme, -exploration und -aufbereitung in AWS
  • Modelle mit Amazon SageMaker trainieren und feintunen
  • Modelle mit Amazon SageMaker und AWS Lambda Functions deployen
  • Streaming-Analysen und Machine Learning mit AWS
  • AWS-Infrastruktur und individuell zusammengestellte Hardware
  • Kosten mit Tags, Budgets und Alerts einsparen
  • Zusammenfassung
  • Kapitel 2: Anwendungsbeispiele aus dem Bereich Data Science
  • Innovationen in allen Branchen
  • Personalisierte Produktempfehlungen
  • Unangemessene Videos mit Amazon Rekognition erkennen
  • Bedarfsprognose
  • Betrügerische Benutzerkonten mit Amazon Fraud Detector identifizieren
  • Datenschutzlücken mit Amazon Macie erkennen
  • Conversational Devices und Sprachassistenten
  • Textanalyse und Natural Language Processing
  • Cognitive Search und Natural Language Understanding
  • Intelligente Kundenbetreuungszentren
  • Industrielle KI-Services und vorausschauende Wartung (Predictive Maintenance)
  • Heimautomatisierung mit AWS IoT und Amazon SageMaker
  • Medizinische Informationen aus Gesundheitsdokumenten auslesen
  • Selbstoptimierende und intelligente Cloud-Infrastruktur
  • Kognitive und prädiktive Business Intelligence (BI)
  • Die nächste Generation von KI- und ML-Entwicklern ausbilden
  • Mithilfe von Quantencomputern das Betriebssystem der Natur programmieren
  • Kosten einsparen und die Leistung verbessern
  • Zusammenfassung
  • Kapitel 3: Automatisiertes Machine Learning
  • Automatisiertes Machine Learning mit SageMaker Autopilot
  • Experimente mit SageMaker Autopilot tracken
  • Einen Textklassifikator mit SageMaker Autopilot trainieren und deployen
  • Automatisiertes Machine Learning mit Amazon Comprehend
  • Zusammenfassung
  • Kapitel 4: Datenaufnahme in die Cloud
  • Data Lakes
  • Amazon-S3-basierte Data Lakes mit Amazon Athena abfragen
  • Mit dem AWS Glue Crawler kontinuierlich neue Daten aufnehmen
  • Mit Amazon Redshift Spectrum ein Lake House aufbauen
  • Zwischen Amazon Athena und Amazon Redshift wählen
  • Kosten einsparen und die Leistung verbessern
  • Zusammenfassung
  • Kapitel 5: Exploration des Datensatzes
  • Tools für die explorative Datenanalyse in AWS
  • Mit SageMaker Studio Daten aus dem Data Lake visualisieren
  • Abfragen auf unserem Data Warehouse durchführen
  • Dashboards mit Amazon QuickSight erstellen
  • Probleme im Hinblick auf die Datenqualität mithilfe von Amazon SageMaker und Apache Spark erkennen
  • Bias in unserem Datensatz erkennen
  • Verschiedene Arten von Drift mit SageMaker Clarify erkennen
  • Unsere Daten mit AWS Glue DataBrew analysieren
  • Kosten einsparen und die Leistung verbessern
  • Zusammenfassung
  • Kapitel 6: Vorbereitung des Datensatzes für das Modelltraining
  • Feature Selection und Feature Engineering
  • Das Feature Engineering mithilfe von SageMaker Processing Jobs skalieren
  • Features über den SageMaker Feature Store gemeinsam nutzen
  • Daten mit SageMaker Data Wrangler einlesen und transformieren
  • Artefakt- und Experiment-Lineage mit Amazon SageMaker tracken
  • Daten mit AWS Glue DataBrew aufnehmen und transformieren
  • Zusammenfassung
  • Kapitel 7: Das erste Modell trainieren
  • Die Infrastruktur von SageMaker verstehen
  • Ein vortrainiertes BERT-Modell mit SageMaker JumpStart deployen
  • Modelle in SageMaker entwickeln
  • Ein kurzer Überblick über die historische Entwicklung des Natural Language Processing
  • Die Transformer-Architektur von BERT
  • BERT von Grund auf trainieren
  • Feintuning eines vortrainierten BERT-Modells
  • Das Trainingsskript erstellen
  • Das Trainingsskript aus einem SageMaker-Notebook ausführen
  • Modelle evaluieren
  • Debugging und Profiling des Modelltrainings mit SageMaker Debugger
  • Modellvorhersagen interpretieren und erklären
  • Bias in Modellen erkennen und Vorhersagen erklären
  • Weitere Möglichkeiten im Rahmen des Trainings von BERT
  • Kosten einsparen und die Leistung verbessern
  • Zusammenfassung
  • Kapitel 8: Modelle in großem Maßstab trainieren und optimieren
  • Automatisch nach den besten Hyperparametern von Modellen suchen
  • Einen Warmstart für zusätzliche SageMaker-HPT- Jobs verwenden
  • Das Training mit SageMaker Distributed Training verteilen und skalieren
  • Kosten einsparen und die Leistung verbessern
  • Zusammenfassung
  • Kapitel 9: Deployment von Modellen in die Produktion
  • Zwischen Vorhersagen in Echtzeit oder Batch-Vorhersagen wählen
  • Echtzeitvorhersagen mit SageMaker Endpoints
  • SageMaker Endpoints automatisch mit Amazon CloudWatch skalieren
  • Strategien für das Deployment neuer oder aktualisierter Modelle
  • Neue Modelle testen und vergleichen
  • Monitoring der Modellleistung und Drift erkennen
  • Die Qualität der ein- und ausgehenden Daten der im Einsatz befindlichen SageMaker Endpoints überwachen
  • Monitoring der Modellqualität von im Einsatz befindlichen SageMaker Endpoints
  • Monitoring der Bias-Drift von im Einsatz befindlichen SageMaker Endpoints
  • Monitoring der Drift der Feature Attribution von im Einsatz befindlichen SageMaker Endpoints
  • Batch-Vorhersagen mit SageMaker Batch Transform durchführen
  • AWS Lambda Functions und Amazon API Gateway
  • Modelle auf Edge-Geräten optimieren und verwalten
  • PyTorch-Modelle mit TorchServe deployen
  • Inferenz für TensorFlow-basierte BERT-Modelle mit der AWS-Deep-Java-Bibliothek
  • Kosten einsparen und die Leistung verbessern
  • Zusammenfassung
  • Kapitel 10: Pipelines und MLOps
  • Machine Learning Operations (MLOps)
  • Software-Pipelines
  • Machine-Learning-Pipelines
  • Pipelines mit SageMaker Pipelines orchestrieren
  • Pipelines mit SageMaker Pipelines automatisieren
  • Weitere Optionen für Pipelines
  • Human-in-the-Loop-Workflows
  • Kosten einsparen und die Leistung verbessern
  • Zusammenfassung
  • Kapitel 11: Streaming-Analysen und Machine Learning
  • Unterschiede zwischen Online Learning und Offline Learning
  • Streaming-Anwendungen
  • Windowed Queries für Streaming-Daten
  • Streaming-Analysen und Machine Learning mit AWS
  • Produktrezensionen in Echtzeit mit Amazon Kinesis, AWS Lambda und Amazon SageMaker klassifizieren
  • Streaming-Daten mit Amazon Kinesis Data Firehose aufnehmen
  • Zusammenfassende Metriken für Produktrezensionen mithilfe von Streaming-Analysen in Echtzeit ermitteln
  • Amazon Kinesis Data Analytics einrichten
  • Amazon-Kinesis-Data-Analytics-Anwendungen
  • Produktrezensionen mit Apache Kafka, AWS Lambda und Amazon SageMaker klassifizieren
  • Kosten einsparen und die Leistung verbessern
  • Zusammenfassung
  • Kapitel 12: Sicherheit von Data-Science-Projekten auf AWS
  • Modell der geteilten Verantwortung zwischen AWS und seinen Kunden
  • AWS Identity and Access Management (IAM) anwenden
  • Rechen- und Netzwerkumgebungen isolieren
  • Zugriff auf Daten von Amazon S3 schützen
  • Verschlüsselung im Ruhezustand (Encryption at Rest)
  • Verschlüsselung bei der Übertragung von Daten (Encryption in Transit)
  • SageMaker-Notebook-Instanzen schützen
  • SageMaker Studio schützen
  • SageMaker-Jobs und Modelle schützen
  • Daten mit AWS Lake Formation schützen
  • Datenbankzugangsdaten mit AWS Secrets Manager schützen
  • Governance
  • Auditierbarkeit
  • Kosten einsparen und die Leistung verbessern
  • Zusammenfassung
  • Index

Ähnliche Titel

    Mehr von diesem Autor