UID:
kobvindex_ERBEBC7276861
Format:
1 online resource (492 pages)
ISBN:
9783960107682
Note:
Intro -- Lob für das Handbuch Data Engineering -- Inhalt -- Vorwort -- Was dieses Buch nicht ist -- Worum es in diesem Buch geht -- Für wen ist dieses Buch gedacht? -- Voraussetzungen -- Was Sie lernen werden und wie Sie Ihre Kenntnisse erweitern können -- Wegweiser durch dieses Buch -- In diesem Buch verwenden wir folgende Konventionen -- Danksagung -- Teil I: Grundlagen und Bausteine -- Kapitel 1: Data Engineering - eine Beschreibung -- Was ist Data Engineering? -- Data Engineering - eine Definition -- Der Data Engineering Lifecycle -- Die Entwicklung des Data Engineers -- Data Engineering und Data Science -- Data Engineering - Fähigkeiten und Tätigkeiten -- Datenreife und der Data Engineer -- Der berufliche Werdegang und die Kompetenzen eines Data Engineers -- Geschäftliche Verantwortlichkeiten -- Technische Verantwortlichkeiten -- Das Kontinuum der Rollen im Data Engineering - von A nach B -- Data Engineers innerhalb eines Unternehmens -- Nach innen gerichtete versus nach außen gerichtete Data Engineers -- Data Engineers und andere technische Rollen -- Data Engineers und die Unternehmensführung -- Fazit -- Weitere Quellen -- Kapitel 2: Der Data Engineering Lifecycle -- Was ist der Data Engineering Lifecycle? -- Datenlebenszyklus versus Data Engineering Lifecycle -- Generierung: Quellsysteme -- Speicherung -- Ingestion -- Transformation -- Bereitstellung -- Die wesentlichen Unterströmungen innerhalb des Data Engineering Lifecycle -- Sicherheit -- Datenmanagement -- DataOps -- Datenarchitektur -- Orchestrierung -- Softwareentwicklung -- Fazit -- Weitere Quellen -- Kapitel 3: Konzeption einer guten Datenarchitektur -- Was ist Datenarchitektur? -- Definition der Unternehmensarchitektur -- Definition der Datenarchitektur -- »Gute« Datenarchitektur -- Die Grundsätze guter Datenarchitektur
,
Grundsatz 1: Wählen Sie gängige Komponenten mit Bedacht aus. -- Grundsatz 2: Planen Sie Ausfälle ein. -- Grundsatz 3: Planen Sie für Skalierbarkeit. -- Grundsatz 4: Architektur heißt Führung. -- Grundsatz 5: Seien Sie immer Architekt. -- Grundsatz 6: Entwickeln Sie lose gekoppelte Systeme. -- Grundsatz 7: Treffen Sie reversible Entscheidungen. -- Grundsatz 8: Priorisieren Sie das Thema Sicherheit. -- Grundsatz 9: Nutzen Sie FinOps. -- Wichtige Konzepte der Architektur -- Domänen und Dienste -- Verteilte Systeme, Skalierbarkeit und Ausfallsicherheit -- Enge versus lockere Kopplung: Schichten, Monolithen und Microservices -- Benutzerzugriff: Einzelmandant versus Mehrmandanten -- Ereignisgesteuerte Architektur -- Brownfield- versus Greenfield-Projekte -- Beispiele und Arten der Datenarchitektur -- Data Warehouse -- Data Lake -- Konvergenz, Data Lakes der nächsten Generation und die Datenplattform -- Modern Data Stack -- Lambda-Architektur -- Kappa-Architektur -- Das Dataflow-Modell und die Vereinheitlichung von Batch und Streaming -- Architektur für IoT -- Data Mesh -- Weitere Beispiele von Datenarchitekturen -- Wer ist an der Gestaltung einer Datenarchitektur beteiligt? -- Fazit -- Weitere Quellen -- Kapitel 4: Wahl der Technologien für den kompletten Data Engineering Lifecycle -- Größe und Fähigkeiten des Teams -- Schnelle Markteinführung -- Interoperabilität -- Kostenoptimierung und Geschäftswert -- Gesamtbetriebskosten -- Total Opportunity Cost of Ownership -- FinOps -- Gegenwart versus Zukunft: unveränderliche versus vergängliche Technologien -- Unser Rat -- Standort -- Vor Ort -- Cloud -- Hybride Cloud -- Multicloud -- Dezentralisiert: Blockchain und Edge -- Unser Rat -- Argumente für die Cloud-Rückführung -- Eigenentwicklung oder Kauf -- Open Source -- Proprietäre geschlossene Systeme -- Unser Rat -- Monolithisch versus modular -- Monolith
,
Modularität -- Der verteilte Monolith -- Unser Rat -- Serverlos versus Server -- Serverless -- Container -- Wie bewertet man Server versus Serverless? -- Unser Rat -- Optimierung, Leistung und Benchmarking -- Big Data ... für die 1990er -- Absurde Kostenvergleiche -- Asymmetrische Optimierung -- Ausschluss der Gewährleistung -- Die Unterströmungen und ihre Auswirkungen auf die Wahl der Technologien -- Datenmanagement -- DataOps -- Datenarchitektur -- Beispiel für Orchestrierung: Airflow -- Softwareentwicklung -- Fazit -- Weitere Quellen -- Teil II: Der Data Engineering Lifecycle im Detail -- Kapitel 5: Datengenerierung in den Quellsystemen -- Datenquellen: Wie entstehen Daten? -- Quellsysteme: zentrale Aspekte -- Dateien und unstrukturierte Daten -- APIs -- Anwendungsdatenbanken (OLTP-Systeme) -- Das OLAP-System -- CDC -- Protokolle -- Datenbankprotokolle -- CRUD -- Insert-only -- Nachrichten und Streams -- Zeittypen -- Quellsysteme - praktische Details -- Datenbanken -- APIs -- Datenfreigabe -- Datenquellen von Drittanbietern -- Plattformen für das Streaming von Nachrichten und Ereignissen -- Mit wem arbeiten Sie zusammen? -- Die Bedeutung der Unterströmungen für Quellsysteme -- Sicherheit -- Datenmanagement -- DataOps -- Datenarchitektur -- Orchestrierung -- Softwareentwicklung -- Fazit -- Weitere Quellen -- Kapitel 6: Speicherung -- Komponenten der Datenspeicherung -- Magnetische Festplatten -- Solid State Drive -- Direktzugriffsspeicher -- Netzwerke und CPU -- Serialisierung -- Kompression -- Caching -- Datenspeichersysteme -- Einzelner Rechner versus verteilte Speicherung -- Eventuelle versus starke Konsistenz -- Dateispeicher -- Blockspeicher -- Objektspeicher -- Cache- und RAM-basierte Speichersysteme -- Hadoop -- Streaming-Storage -- Indizes, Partitionen und Cluster -- Speicherkonzepte im Data Engineering -- Data Warehouse -- Data Lake
,
Data Lakehouse -- Datenplattformen -- Stream-to-Batch-Speicherarchitektur -- Große Ideen und Trends in der Speicherung -- Datenkatalog -- Datenfreigabe -- Schema -- Trennung von Verarbeitung und Speicherung -- Lebenszyklus der Datenspeicherung und die Datenaufbewahrung -- Mandantenfähiger versus mehrmandantenfähiger Speicher -- Mit wem arbeiten Sie zusammen? -- Unterströmungen -- Sicherheit -- Datenmanagement -- DataOps -- Datenarchitektur -- Orchestrierung -- Softwareentwicklung -- Fazit -- Weitere Quellen -- Kapitel 7: Ingestion -- Was versteht man unter Ingestion? -- Wichtige technische Überlegungen für die Ingestionsphase -- Begrenzte und nicht begrenzte Daten -- Häufigkeit -- Synchrone und asynchrone Ingestion -- Serialisierung und Deserialisierung -- Durchsatz und Skalierbarkeit -- Zuverlässigkeit und Beständigkeit -- Nutzdaten -- Push, Pull und Polling -- Überlegungen zur Batch-Ingestion -- Snapshot oder differenzielle Extraktion -- Dateibasierter Export und Ingestion -- ETL und ELT -- Inserts, Updates und Batch-Größe -- Datenmigration -- Überlegungen zur Ingestion von Nachrichten und Streams -- Weiterentwicklung des Schemas -- Verspätet eingegangene Daten -- Reihenfolge und mehrfache Zustellung -- Replay -- Time to Live -- Nachrichtengröße -- Fehlerbehandlung und Dead-Letter-Queues -- Pull und Push für Verbraucher -- Standort -- Möglichkeiten der Dateningestion -- Direkte Datenbankverbindung -- Change Data Capture -- APIs -- Nachrichtenwarteschlangen und Event-Streaming-Plattformen -- Verwaltete Datenkonnektoren -- Verschieben von Daten mithilfe des Objektspeichers -- EDI -- Datenbanken und Dateiexport -- Probleme mit gängigen Dateiformaten -- Shell -- SSH -- SFTP und SCP -- Webhooks -- Webinterface -- Web Scraping -- Transfer Appliances für die Datenmigration -- Datenfreigabe -- Mit wem arbeiten Sie zusammen? -- Vorgelagerte Stakeholder
,
Nachgelagerte Stakeholder -- Unterströmungen -- Sicherheit -- Datenmanagement -- DataOps -- Orchestrierung -- Softwareentwicklung -- Fazit -- Weitere Quellen -- Kapitel 8: Queries, Modellierung und Transformation -- Queries -- Was ist eine Query? -- Ablauf einer Abfrage -- Der Abfrageoptimierer -- Die Abfrageleistung verbessern -- Abfragen von Streaming-Daten -- Datenmodellierung -- Was ist ein Datenmodell? -- Konzeptuelle, logische und physische Datenmodelle -- Normalisierung -- Methoden der Datenmodellierung für die Batch-Analyse -- Modellierung von Streaming-Daten -- Transformationen -- Batch-Transformationen -- Materialized Views, Federation und Query Virtualization -- Transformationen und Verarbeitung von Datenströmen -- Mit wem arbeiten Sie zusammen? -- Vorgelagerte Stakeholder -- Nachgelagerte Stakeholder -- Unterströmungen -- Sicherheit -- Datenmanagement -- DataOps -- Datenarchitektur -- Orchestrierung -- Softwareentwicklung -- Fazit -- Weitere Quellen -- Kapitel 9: Bereitstellung von Daten für Analysen, Machine Learning und Reverse ETL -- Allgemeine Überlegungen zur Bereitstellung von Daten -- Vertrauen -- Was ist der Anwendungsfall, und wer ist der Anwender? -- Datenprodukte -- Self-Service oder nicht? -- Datendefinitionen und -logik -- Data Mesh -- Analytik -- Business Analytics -- Operational Analytics -- Embedded Analytics -- Machine Learning -- Was ein Data Engineer über ML wissen sollte -- Wege der Datenbereitstellung für Analyse und ML -- Austausch von Dateien -- Datenbanken -- Streaming-Systeme -- Abfrageverbund -- Datenfreigabe -- Semantische und metrische Schichten -- Datenbereitstellung in Notebooks -- Reverse ETL -- Mit wem arbeiten Sie zusammen? -- Unterströmungen -- Sicherheit -- Datenmanagement -- DataOps -- Datenarchitektur -- Orchestrierung -- Softwareentwicklung -- Fazit -- Weitere Quellen
,
Teil III: Sicherheit, Datenschutz und die Zukunft des Data Engineering
Additional Edition:
Print version: Reis, Joe Handbuch Data Engineering Heidelberg : o'Reilly,c2023 ISBN 9783960092162
Keywords:
Electronic books.
URL:
https://ebookcentral.proquest.com/lib/th-brandenburg/detail.action?docID=7276861