Schulungsübersicht
Abschnitt 1: Einführung in Hadoop
- Hadoop-Geschichte, Konzepte
- Ökosystem
- Distributionen
- High-Level-Architektur
- Hadoop-Mythen
- hadoop-herausforderungen
- Hardware/Software
- labor: erster blick auf Hadoop
Abschnitt 2: HDFS
- Entwurf und Architektur
- Konzepte (horizontale Skalierung, Replikation, Datenlokalität, Rack Awareness)
- Daemons : Namensknoten, sekundärer Namensknoten, Datenknoten
- Kommunikation / Heartbeats
- Datenintegrität
- Lese-/Schreibpfad
- Namenode Hochverfügbarkeit (HA), Föderation
- Praktika : Interaktion mit HDFS
Abschnitt 3 : Map Reduce
- Konzepte und Architektur
- Daemonen (MRV1) : Jobtracker / Tasktracker
- Phasen : Treiber, Mapper, Shuffle/Sort, Reducer
- Map Reduce Version 1 und Version 2 (YARN)
- Interna von Map Reduce
- Einführung in Java Map Reduce Programm
- Übungen : Ausführen eines MapReduce-Beispielprogramms
Abschnitt 4 : Pig
- pig vs java map reduce
- pig job flow
- Pig lateinische Sprache
- ETL mit Schwein
- Transformationen und Verknüpfungen
- Benutzerdefinierte Funktionen (UDF)
- Übungen: Schreiben von Pig-Skripten zur Analyse von Daten
Abschnitt 5: Hive
- Architektur und Design
- Datentypen
- SQL Unterstützung in Hive
- Erstellen von Hive Tabellen und Abfragen
- Partitionen
- Verknüpfungen
- Textverarbeitung
- Übungen: verschiedene Übungen zur Datenverarbeitung mit Hive
Abschnitt 6: HBase
- Konzepte und Architektur
- hbase vs RDBMS vs cassandra
- HBase Java API
- Zeitreihendaten auf HBase
- Schema-Entwurf
- Übungen: Interaktion mit HBase mit Hilfe der Shell; Programmierung in HBase Java API; Übung zum Schemaentwurf
Voraussetzungen
- gute Kenntnisse der Java Programmiersprache (die meisten Programmierübungen sind in Java)
- Vertraut mit der Linux-Umgebung (in der Lage sein, in der Linux-Befehlszeile zu navigieren und Dateien mit vi / nano zu bearbeiten)
Labor-Umgebung
Null-Installation: Es besteht keine Notwendigkeit, Hadoop-Software auf den Rechnern der Studierenden zu installieren! Ein funktionierender Hadoop-Cluster wird den Studierenden zur Verfügung gestellt.
Die Studierenden benötigen Folgendes
- einen SSH-Client (Linux und Mac haben bereits SSH-Clients, für Windows wird Putty empfohlen)
- einen Browser für den Zugriff auf den Cluster. Wir empfehlen den Firefox-Browser
Erfahrungsberichte (5)
Die Live-Beispiele
Ahmet Bolat - Accenture Industrial SS
Kurs - Python, Spark, and Hadoop for Big Data
Maschinelle Übersetzung
Während der Übungen erklärte James mir jeden Schritt detaillierter, wo immer ich festsaß. Ich war komplett neu in NIFI. Er erläuterte den tatsächlichen Zweck von NIFI, sogar die Grundlagen wie Open Source. Er ging alle Konzepte von NIFI von Anfänger- bis Entwickler-Level durch.
Firdous Hashim Ali - MOD A BLOCK
Kurs - Apache NiFi for Administrators
Maschinelle Übersetzung
Vorbereitung und Organisation des Trainers sowie die Qualität der bereitgestellten Materialien auf GitHub.
Mateusz Rek - MicroStrategy Poland Sp. z o.o.
Kurs - Impala for Business Intelligence
Maschinelle Übersetzung
Dass ich es überhaupt hatte.
Peter Scales - CACI Ltd
Kurs - Apache NiFi for Developers
Maschinelle Übersetzung
praktische Dinge der Umsetzung, auch die Theorie wurde gut von Ajay vermittelt
Dominik Mazur - Capgemini Polska Sp. z o.o.
Kurs - Hadoop Administration on MapR
Maschinelle Übersetzung