• Schulungen
  • HDP Developer: Apache Pig, Hive Spark
  • HDP Developer: Apache Pig, Hive Spark

Inhouse

Auf Anfrage

HDP Developer: Apache Pig, Hive Spark

Trainer:
Uwe Printz

Beschreibung

Dieses viertägige Entwickler-Training bietet Ihnen einen idealen Einstieg in die Datenverarbeitung mit der Hortonworks Data Platform (HDP). Nach einem Einstieg über HDFS und YARN, beschäftigen wir uns mit den drei Frameworks Apache Pig, Apache Hive & Apache Spark. Wir lernen alle Frameworks kennen & anwenden und haben am Ende des Trainings einen guten Überblick über deren Anwendungsgebiete und auch Abgrenzungen voneinander.

Dieses praxisorientierte Training wird in Zusammenarbeit mit Hortonworks angeboten und unser erfahrener Trainer teilt sein Wissen und seine Erfahrung in ca. 50 % Theorie & Diskussionen sowie ca. 50 % Labs an einer persönlichen Amazon AWS-Instanz mit Ihnen. Dieser Kurs bereitet auf die Zertifizierung zum HDP Certified Developer (HDPCD) vor, welche nach diesem Training über den Anbieter www.examslocal.com am eigenen Rechner abgelegt werden kann (weitere Details zur Zertifizierung).


Teilnahmevoraussetzungen und Zielgruppe

  • Entwickler & interessierte Analysten, die Big-Data-Fragestellungen mittels Apache Hadoop beantworten wollen
  • Die Teilnehmer sollten mit allgemeinen Programmierprinzipien vertraut sein
  • Kenntnisse in SQL sind hilfreich, aber nicht zwingend notwendig
  • Vorkenntnisse in Apache Hadoop sind nicht notwendig
  • Jeder Teilnehmer bekommt für die Dauer des Trainings eine vorkonfigurierte HDP-Umgebung über Amazon AWS zur Verfügung gestellt. Daher benötigen die Teilnehmer lediglich einen zeitgemäßen Rechner zum Verbinden mit dieser Umgebung:
    • Zeitgemäße CPU mit 2+ GHz (bevorzugt Intel i5/i7 oder äquivalente AMD-Architektur
    • 2+ GB RAM
    • 2 GB freier Speicherplatz
    • Firefox, Chrome oder Safari (Internet Explorer wird aktuell nicht unterstützt)

Inhalte:

Themen:

  • Einführung in Hadoop & HDP und Grundlagen von HDFS & YARN (Tag 1)
  • Apache Pig & Einführung in Apache Hive (Tag 2)
  • Deep Dive in Apache Hive (Tag 3)
  • Apache Spark & Apache Oozie (Tag 4)

Hands-on Labs:

  • Initiales Aufsetzen der Trainingsumgebung & Starten des Clusters
  • Demonstration zu Block Storage
  • Verwendung der HDFS Shell
  • Importieren von RDBMS-Daten nach HDFS mittels Sqoop
  • Exportieren von HDFS-Daten in ein RDBMS mittels Sqoop
  • Importieren von Log-Daten mittels Apache Flume
  • Demonstration zu MapReduce
  • Starten eines MapReduce-Jobs
  • Demonstration zu Apache Pig
  • Einstieg in Apache Pig
  • Exploration von Daten mit Apache Pig
  • Splitten eines Datensets
  • Zusammenführen eines Datensets
  • Vorverarbeitung von Daten für Apache Hive mittels Apache Pig
  • Analyse von Click Stream Daten mit Apache Pig
  • Quantil-Analyse von Marktdaten mit Apache Pig
  • Verständnis für Tabellen mit Apache Hive
  • Partitionierung & Data Skew in Apache Hive
  • Einführung in die Spark-Shell & Apache Zeppelin
  • Arbeiten mit RDDs
  • Arbeiten mit Spark SQL
  • Transformationen auf DataFrames
  • Spark Structured Streaming
  • Definition eines Apache Oozie Workflows

Tag 1

  • Überblick über die Komponenten des Hadoop-Ökosystems
  • Überblick über Ambari & Arbeiten mit Ambari Views
  • Grundlagen von HDFS und WebHDFS
  • Überblick über Data Ingestion
  • Ressourcen-Management mit YARN
  • Grundlagen von MapReduce & Apache Tez
  • Big-Data-Analyses mit Apache Hive
  • Joinen von Tabellen mit Apache Hive
  • Demonstration zur Berechnung von N-Grammen
  • Verarbeitung von Emails im Avro-Format
  • Challenge: Verarbeitung von Filmdaten
  • Hive 2 & LLAP aktivieren
  • Hive-Tabellen mit HBase-Tabellen verknüpfen

Tag 2

  • Überblick über Apache Pig
  • Schreiben von Apache Pig-Skripten zur Datenanalyse und -transformation
  • Fortgeschrittene Programmierung mit Apache Pig
  • Mittels Apache Pig Struktur in unstrukturierte Daten bringen
  • Aufruf von User Defined Functions (UDF) in Pig
  • Überblick über Apache Hive
  • Verständnis für Hive-Tabellen und deren Datenablage

Tag 3

  • Dateiformate in Apache Hive
  • Erzeugen und Befüllen von Hive-Tabellen mit Apache ORC
  • Benutzung und Anwendungsfälle der unterschiedlichen Join-Strategien von Hive
  • Optimierung von Hive-Abfragen
  • Zerlegung von Texten in N-Gramme
  • Benutzung von HCatalog für das übergreifende Speichern von Metadaten
  • Überblick über Hive 2 & LLAP
  • Zusammenspiel von Apache Hive & Apache HBase

Tag 4

  • Überblick über Apache Spark
  • Aufbau von Data Pipelines mit RDDs, Transformationen und Aktionen
  • Programmieren mit Core Spark
  • Data Frames & Spark SQL
  • Einführung in Streaming mit Apache Spark
  • Definition von Workflows mittels Apache Oozie

Schulungssprache

Deutsch, Material auf Englisch


Dauer in Tagen

4


Teilnahmegebühr

2400 € zzgl. MwSt. pro Teilnehmer

Anmeldeformular

Cookies erleichtern die Bereitstellung unserer Dienste. Mit der Nutzung unserer Dienste erklären Sie sich damit einverstanden, dass wir Cookies verwenden. Weitere Informationen

Hinweis: In Ihrem Browser ist JavaScript deaktiviert. Für eine bessere und fehlerfreie Nutzung dieser Webseite, aktivieren Sie bitte JavaScript in Ihrem Browser.