Schulungsübersicht
Einführung
- Einführung in Cloud Computing und Big Data-Lösungen
- Überblick über Apache Hadoop Funktionen und Architektur
Einrichten Hadoop
- Planung eines Hadoop-Clusters (vor Ort, in der Cloud usw.)
- Auswahl des Betriebssystems und der Hadoop-Distribution
- Bereitstellung von Ressourcen (Hardware, Netzwerk, etc.)
- Herunterladen und Installieren der Software
- Dimensionierung des Clusters für Flexibilität
Arbeiten mit HDFS
- Verstehen des Hadoop verteilten Dateisystems (HDFS)
- Überblick über die HDFS-Befehlsreferenz
- Zugriff auf HDFS
- Grundlegende Dateioperationen auf HDFS durchführen
- Verwendung von S3 als Ergänzung zu HDFS
Überblick über MapReduce
- Verstehen des Datenflusses im MapReduce Framework
- Map, Shuffle, Sortieren und Reduzieren
- Demo: Berechnung von Spitzengehältern
Arbeiten mit YARN
- Verstehen der Ressourcenverwaltung in Hadoop
- Arbeiten mit ResourceManager, NodeManager, Application Master
- Planen von Aufträgen unter YARN
- Scheduling für eine große Anzahl von Knoten und Clustern
- Demo: Job-Scheduling
Integration von Hadoop mit Spark
- Einrichten von Speicherplatz für Spark (HDFS, Amazon, S3, NoSQL, usw.)
- Verstehen von robusten verteilten Datensätzen (RDDs)
- Erstellen eines RDDs
- Implementieren von RDD-Transformationen
- Demo: Implementieren eines Textsuchprogramms für Filmtitel
Verwaltung eines Hadoop Clusters
- Überwachung Hadoop
- Sichern eines Hadoop Clusters
- Hinzufügen und Entfernen von Knoten
- Ausführen eines Leistungsbenchmarks
- Abstimmen eines Hadoop-Clusters zur Optimierung der Leistung
- Sicherung, Wiederherstellung und Planung der Geschäftskontinuität
- Sicherstellung der Hochverfügbarkeit (HA)
Aufrüstung und Migration eines Hadoop Clusters
- Bewertung der Arbeitslastanforderungen
- Aufrüsten Hadoop
- Umstellung von On-Premise auf Cloud und umgekehrt
- Wiederherstellung nach Ausfällen
Fehlersuche
Zusammenfassung und Schlussfolgerung
Voraussetzungen
- Erfahrung in der Systemverwaltung
- Erfahrung mit der Linux-Befehlszeile
- Verständnis von Big-Data-Konzepten
Publikum
- Systemverwalter
- DBAs
Erfahrungsberichte (5)
Viele praktische Beispiele, verschiedene Wege, das gleiche Problem anzugehen, und manchmal nicht so offensichtliche Tricks, wie man die aktuelle Lösung verbessern kann
Rafal - Nordea
Kurs - Apache Spark MLlib
Maschinelle Übersetzung
very interactive...
Richard Langford
Kurs - SMACK Stack for Data Science
Sufficient hands on, trainer is knowledgable
Chris Tan
Kurs - A Practical Introduction to Stream Processing
Trainer's preparation & organization, and quality of materials provided on github.
Mateusz Rek - MicroStrategy Poland Sp. z o.o.
Kurs - Impala for Business Intelligence
Get to learn spark streaming , databricks and aws redshift