Schulungsübersicht
Einleitung:
- Apache Spark in Hadoop Ökosystem
- Kurze Einführung für Python, Scala
Grundlagen (Theorie):
- Architektur
- RDD
- Transformation und Aktionen
- Stufe, Aufgabe, Abhängigkeiten
Verwendung der Databricks-Umgebung, um die Grundlagen zu verstehen (praktischer Workshop):
- Übungen mit der RDD-API
- Grundlegende Aktions- und Transformationsfunktionen
- PairRDD
- Join
- Caching-Strategien
- Übungen mit der DataFrame-API
- SparkSQL
- DataFrame: Auswählen, Filtern, Gruppieren, Sortieren
- UDF (Benutzerdefinierte Funktion)
- Einblick in die DataSet-API
- Streaming
Verwendung der AWS-Umgebung, um die Bereitstellung zu verstehen (praktischer Workshop):
- Grundlagen von AWS Glue
- Verstehen der Unterschiede zwischen AWS EMR und AWS Glue
- Beispielaufträge in beiden Umgebungen
- Verstehen der Vor- und Nachteile
Extra:
- Einführung in die Apache Airflow Orchestrierung
Voraussetzungen
Programmierkenntnisse (vorzugsweise Python, Scala)
SQL Grundlagen
Erfahrungsberichte (3)
Praktische Sitzungen / Aufgaben
Poornima Chenthamarakshan - Intelligent Medical Objects
Kurs - Apache Spark in the Cloud
Maschinelle Übersetzung
1. Der richtige Ausgleich zwischen oberflächlichen Konzepten und technischen Details. 2. Andras ist sehr bewandert in seinem Unterricht. 3. Übung
Steven Wu - Intelligent Medical Objects
Kurs - Apache Spark in the Cloud
Maschinelle Übersetzung
Lernen Sie Spark Streaming, Databricks und AWS Redshift kennen
Lim Meng Tee - Jobstreet.com Shared Services Sdn. Bhd.
Kurs - Apache Spark in the Cloud
Maschinelle Übersetzung