Schulungen

Wissen, das Sie persönlich weiterbringt, weil Sie es sofort anwenden können – das versprechen unsere neuesten Schulungen und Workshops.

HDP Developer: Apache Pig, Hive & Spark

Beschreibung:

Dieses viertägige Entwickler-Training bietet Ihnen einen idealen Einstieg in die Datenverarbeitung mit der Hortonworks Data Platform (HDP). Nach einem Einstieg über HDFS und YARN, beschäftigen wir uns mit den drei Frameworks Apache Pig, Apache Hive & Apache Spark. Wir lernen alle Frameworks kennen & anwenden und haben am Ende des Trainings einen guten Überblick über deren Anwendungsgebiete und auch Abgrenzungen voneinander.

Dieses praxisorientierte Training wird in Zusammenarbeit mit Hortonworks angeboten und unsere erfahrenen Trainer teilen ihr Wissen und ihre Erfahrung in ca. 50 % Theorie & Diskussionen sowie ca. 50 % Labs an einer persönlichen Amazon AWS-Instanz mit Ihnen. Dieser Kurs bereitet auf die Zertifizierung zum HDP Certified Developer (HDPCD) vor, welche nach diesem Training über den Anbieter www.examslocal.com am eigenen Rechner abgelegt werden kann (weitere Details zur Zertifizierung).

Schulungssprache

Deutsch, Material auf Englisch

Termine und Ort

  • 19. – 22.03.2018 - Frankfurt am Main
  • 04. – 07.06.2018 - Solingen

Dauer in Tagen

4

Teilnahmegebühr

2.400 € EUR zzgl. MwSt.

Anmeldeformular


Teilnahmevoraussetzungen und Zielgruppe

  • Entwickler & interessierte Analysten, die Big-Data-Fragestellungen mittels Apache Hadoop beantworten wollen
  • Die Teilnehmer sollten mit allgemeinen Programmierprinzipien vertraut sein
  • Kenntnisse in SQL sind hilfreich, aber nicht zwingend notwendig
  • Vorkenntnisse in Apache Hadoop sind nicht notwendig
  • Jeder Teilnehmer bekommt für die Dauer des Trainings eine vorkonfigurierte HDP-Umgebung über Amazon AWS zur Verfügung gestellt. Daher benötigen die Teilnehmer lediglich einen zeitgemäßen Rechner zum Verbinden mit dieser Umgebung:
    • Zeitgemäße CPU mit 2+ GHz (bevorzugt Intel i5/i7 oder äquivalente AMD-Architektur
    • 2+ GB RAM
    • 2 GB freier Speicherplatz
    • Firefox, Chrome oder Safari (Internet Explorer wird aktuell nicht unterstützt)

Trainer:

Uwe Printz

Uwe Printz ist Data Architect und Trainer. Seit dem ersten Kontakt mit verteilten Systemen lässt seine Begeisterung dafür nicht nach und zurzeit hält er sich bevorzugt im Hadoop-Zoo auf.

Dr. Stephan Kepser

Dr. Stephan Kepser ist Experte für Themen rund um Cloud Computing und Big Data. Zu diesen Themen hat er schon diverse Fach- und Blogartikel verfasst und zudem hat er die Hadoop User Group Rhein-Ruhr gegründet. Seine Interessen reichen von rechtlichen Fragen über Fragen der Architektur und des Systemdesigns bis hin zu den technischen Details von NoSQL-Datenbanken.

Inhalte:

Themen:

  • Einführung in Hadoop & HDP und Grundlagen von HDFS & YARN (Tag 1)
  • Apache Pig & Einführung in Apache Hive (Tag 2)
  • Deep Dive in Apache Hive (Tag 3)
  • Apache Spark & Apache Oozie (Tag 4)

Hands-on Labs:

  • Initiales Aufsetzen der Trainingsumgebung & Starten des Clusters
  • Demonstration zu Block Storage
  • Verwendung der HDFS Shell
  • Importieren von RDBMS-Daten nach HDFS mittels Sqoop
  • Exportieren von HDFS-Daten in ein RDBMS mittels Sqoop
  • Importieren von Log-Daten mittels Apache Flume
  • Demonstration zu MapReduce
  • Starten eines MapReduce-Jobs
  • Demonstration zu Apache Pig
  • Einstieg in Apache Pig
  • Exploration von Daten mit Apache Pig
  • Splitten eines Datensets
  • Zusammenführen eines Datensets
  • Vorverarbeitung von Daten für Apache Hive mittels Apache Pig
  • Analyse von Click Stream Daten mit Apache Pig
  • Quantil-Analyse von Marktdaten mit Apache Pig
  • Verständnis für Tabellen mit Apache Hive
  • Partitionierung & Data Skew in Apache Hive
  • Einführung in die Spark-Shell & Apache Zeppelin
  • Arbeiten mit RDDs
  • Arbeiten mit Spark SQL
  • Transformationen auf DataFrames
  • Spark Structured Streaming
  • Definition eines Apache Oozie Workflows

Tag 1

  • Überblick über die Komponenten des Hadoop-Ökosystems
  • Überblick über Ambari & Arbeiten mit Ambari Views
  • Grundlagen von HDFS und WebHDFS
  • Überblick über Data Ingestion
  • Ressourcen-Management mit YARN
  • Grundlagen von MapReduce & Apache Tez
  • Big-Data-Analyses mit Apache Hive
  • Joinen von Tabellen mit Apache Hive
  • Demonstration zur Berechnung von N-Grammen
  • Verarbeitung von Emails im Avro-Format
  • Challenge: Verarbeitung von Filmdaten
  • Hive 2 & LLAP aktivieren
  • Hive-Tabellen mit HBase-Tabellen verknüpfen

 

Tag 2

  • Überblick über Apache Pig
  • Schreiben von Apache Pig-Skripten zur Datenanalyse und -transformation
  • Fortgeschrittene Programmierung mit Apache Pig
  • Mittels Apache Pig Struktur in unstrukturierte Daten bringen
  • Aufruf von User Defined Functions (UDF) in Pig
  • Überblick über Apache Hive
  • Verständnis für Hive-Tabellen und deren Datenablage

Tag 3

  • Dateiformate in Apache Hive
  • Erzeugen und Befüllen von Hive-Tabellen mit Apache ORC
  • Benutzung und Anwendungsfälle der unterschiedlichen Join-Strategien von Hive
  • Optimierung von Hive-Abfragen
  • Zerlegung von Texten in N-Gramme
  • Benutzung von HCatalog für das übergreifende Speichern von Metadaten
  • Überblick über Hive 2 & LLAP
  • Zusammenspiel von Apache Hive & Apache HBase

Tag 4

  • Überblick über Apache Spark
  • Aufbau von Data Pipelines mit RDDs, Transformationen und Aktionen
  • Programmieren mit Core Spark
  • Data Frames & Spark SQL
  • Einführung in Streaming mit Apache Spark
  • Definition von Workflows mittels Apache Oozie