Handbuch Data Engineering

Robuste Datensysteme planen und erstellen

Joe Reis und Matt Housley

Diese Publikation zitieren

Joe Reis, Matt Housley, Handbuch Data Engineering (2023), O'Reilly Verlag, Heidelberg, ISBN: 9783960107682

3446
Accesses
20
Quotes

Beschreibung / Abstract


Der praxisnahe Überblick über die gesamte Data-Engineering-Landschaft



  • Das Buch vermittelt grundlegende Konzepte des Data Engineering und beschreibt Best Practices für jede Phase des Datenlebenszyklus

  • Mit dem Data-Engineering-Lifecycle bietet es einen konzeptionellen Rahmen, der langfristig Gültigkeit haben wird

  • Es unterstützt Sie - jenseits des Hypes - bei der Auswahl der richtigen Datentechnologien, Architekturen und Prozesse und verfolgt den Cloud-First-Ansatz


Data Engineering hat sich in den letzten zehn Jahren rasant weiterentwickelt, so dass viele Softwareentwickler, Data Scientists und Analysten nach einer zusammenfassenden Darstellung grundlegender Techniken suchen. Dieses praxisorientierte Buch bietet einen umfassenden Überblick über das Data Engineering und gibt Ihnen mit dem Data-Engineering-Lifecycle ein Framework an die Hand, das die Evaluierung und Auswahl der besten Technologien für reale Geschäftsprobleme erleichtert. Sie erfahren, wie Sie Systeme so planen und entwickeln, dass sie den Anforderungen Ihres Unternehmens und Ihrer Kunden optimal gerecht werden.

Die Autoren Joe Reis und Matt Housley führen Sie durch den Data-Engineering-Lebenszyklus und zeigen Ihnen, wie Sie eine Vielzahl von Cloud-Technologien kombinieren können, um die Bedürfnisse von Datenkonsumenten zu erfüllen. Sie lernen, die Konzepte der Datengenerierung, -aufnahme, -orchestrierung, -transformation, -speicherung und -verwaltung anzuwenden, die in jeder Datenumgebung unabhängig von der verwendeten Technologie von entscheidender Bedeutung sind. Darüber hinaus erfahren Sie, wie Sie Data Governance und Sicherheit in den gesamten Datenlebenszyklus integrieren.


Beschreibung

Joe Reis ist ein businessorientierter Daten-Nerd, der seit 20 Jahren in der Datenbranche tätig ist. Seine Tätigkeitsbereiche umfassen statistische Modellierung, Prognosen, Machine Learning, Data Engineering, Datenarchitektur und fast alles, was dazwischen liegt. Joe Reis ist der CEO und Mitbegründer von Ternary Data, einem Beratungsunternehmen für Data Engineering und Datenarchitektur mit Sitz in Salt Lake City, Utah. Er engagiert sich ehrenamtlich in verschiedenen Technologiegruppen und unterrichtet an der University of Utah. In seiner Freizeit geht Joe gerne klettern, produziert elektronische Musik und unternimmt mit seinen Kindern verrückte Abenteuer. Matt Housley ist Consultant für Data Engineering und ein Experte für die Cloud. Nach ersten Programmiererfahrungen mit Logo, Basic und 6502-Assembler hat er an der University of Utah in Mathematik promoviert. Danach begann Matt Housley im Bereich der Data Science zu arbeiten und spezialisierte sich schließlich auf Cloud-basiertes Data Engineering. Zusammen mit Joe Reis gründete er Ternary Data, wo er seine Lehrerfahrung nutzt, um künftige Data Engineers auszubilden und Teams zu einer robusten Datenarchitektur zu beraten. Matt und Joe referieren außerdem im "The Monday Morning Data Chat" über alles, was mit Daten zu tun hat.

Inhaltsverzeichnis

  • BEGINN
  • Lob für das Handbuch Data Engineering
  • Inhalt
  • Vorwort
  • Was dieses Buch nicht ist
  • Worum es in diesem Buch geht
  • Für wen ist dieses Buch gedacht?
  • Voraussetzungen
  • Was Sie lernen werden und wie Sie Ihre Kenntnisse erweitern können
  • Wegweiser durch dieses Buch
  • In diesem Buch verwenden wir folgende Konventionen
  • Danksagung
  • Teil I: Grundlagen und Bausteine
  • Kapitel 1: Data Engineering - eine Beschreibung
  • Was ist Data Engineering?
  • Data Engineering - Fähigkeiten und Tätigkeiten
  • Data Engineers innerhalb eines Unternehmens
  • Fazit
  • Weitere Quellen
  • Kapitel 2: Der Data Engineering Lifecycle
  • Was ist der Data Engineering Lifecycle?
  • Die wesentlichen Unterströmungen innerhalb des Data Engineering Lifecycle
  • Fazit
  • Weitere Quellen
  • Kapitel 3: Konzeption einer guten Datenarchitektur
  • Was ist Datenarchitektur?
  • Die Grundsätze guter Datenarchitektur
  • Wichtige Konzepte der Architektur
  • Beispiele und Arten der Datenarchitektur
  • Wer ist an der Gestaltung einer Datenarchitektur beteiligt?
  • Fazit
  • Weitere Quellen
  • Kapitel 4: Wahl der Technologien für den kompletten Data Engineering Lifecycle
  • Größe und Fähigkeiten des Teams
  • Schnelle Markteinführung
  • Interoperabilität
  • Kostenoptimierung und Geschäftswert
  • Gegenwart versus Zukunft: unveränderliche versus vergängliche Technologien
  • Standort
  • Eigenentwicklung oder Kauf
  • Monolithisch versus modular
  • Serverlos versus Server
  • Optimierung, Leistung und Benchmarking
  • Die Unterströmungen und ihre Auswirkungen auf die Wahl der Technologien
  • Fazit
  • Weitere Quellen
  • Teil II: Der Data Engineering Lifecycle im Detail
  • Kapitel 5: Datengenerierung in den Quellsystemen
  • Datenquellen: Wie entstehen Daten?
  • Quellsysteme: zentrale Aspekte
  • Quellsysteme - praktische Details
  • Mit wem arbeiten Sie zusammen?
  • Die Bedeutung der Unterströmungen für Quellsysteme
  • Fazit
  • Weitere Quellen
  • Kapitel 6: Speicherung
  • Komponenten der Datenspeicherung
  • Datenspeichersysteme
  • Speicherkonzepte im Data Engineering
  • Große Ideen und Trends in der Speicherung
  • Mit wem arbeiten Sie zusammen?
  • Unterströmungen
  • Fazit
  • Weitere Quellen
  • Kapitel 7: Ingestion
  • Was versteht man unter Ingestion?
  • Wichtige technische Überlegungen für die Ingestionsphase
  • Überlegungen zur Batch-Ingestion
  • Überlegungen zur Ingestion von Nachrichten und Streams
  • Möglichkeiten der Dateningestion
  • Mit wem arbeiten Sie zusammen?
  • Unterströmungen
  • Fazit
  • Weitere Quellen
  • Kapitel 8: Queries, Modellierung und Transformation
  • Queries
  • Datenmodellierung
  • Transformationen
  • Mit wem arbeiten Sie zusammen?
  • Unterströmungen
  • Fazit
  • Weitere Quellen
  • Kapitel 9: Bereitstellung von Daten für Analysen, Machine Learning und Reverse ETL
  • Allgemeine Überlegungen zur Bereitstellung von Daten
  • Analytik
  • Machine Learning
  • Was ein Data Engineer über ML wissen sollte
  • Wege der Datenbereitstellung für Analyse und ML
  • Reverse ETL
  • Mit wem arbeiten Sie zusammen?
  • Unterströmungen
  • Fazit
  • Weitere Quellen
  • Teil III: Sicherheit, Datenschutz und die Zukunft des Data Engineering
  • Kapitel 10: Sicherheit und Datenschutz
  • Menschen
  • Prozesse
  • Technologie
  • Fazit
  • Weitere Quellen
  • Kapitel 11: Die Zukunft des Data Engineering
  • Der Data Engineering Lifecycle bleibt
  • Geringere Komplexität und benutzerfreundliche Datenwerkzeuge
  • Daten-OS in der Cloud und verbesserte Interoperabilität
  • »Unternehmerisches« Data Engineering
  • Titel und Zuständigkeiten verändern sich ...
  • Vom Modern Data Stack zum Live Data Stack
  • Fazit
  • Anhang A: Serialisierung und Kompression - technische Details
  • Serialisierungsformate
  • Datenbank-Speicher-Engines
  • Kompression: gzip, bzip2, Snappy usw.
  • Anhang B: Cloud-Vernetzung
  • Topologie des Cloud-Netzes
  • CDNs
  • Die Zukunft der Egress-Gebühren
  • Index
  • Über die Autoren
  • Kolophon

Ähnliche Titel

    Mehr von diesem Autor