Schulungen

meet-the-experts-logo-weiss

Wissen, das Sie persönlich weiterbringt, weil Sie es sofort anwenden können – das versprechen unsere neuesten Schulungen und Workshops.

HDP Developer: Data Analysis with Apache Pig, Hive & Spark

Beschreibung:

Apache Hadoop ermöglicht es Unternehmen weltweit, tief gehende Erkenntnisse aus großen Mengen an strukturierten und unstrukturierten Daten zu ziehen. Dabei bietet das Open-Source-Hadoop-Ökosystem einen zuverlässigen Kern zum verteilten Speichern und Verarbeiten großer Datenmengen sowie zahlreiche Werkzeuge für deren Verarbeitung.

Dieses viertägige Entwickler-Training bietet Ihnen einen idealen Einstieg in die Welt der Datenverarbeitung mit der Hortonworks Data Platform (HDP). Wir starten an Tag 1 mit den Grundlagen zu Hadoop und verteilten Systemen und lernen das verteilte Dateisystem HDFS sowie Hadoops „Betriebssystem“ YARN kennen. Darauf aufbauend beschäftigen wir uns an den folgenden drei Tagen mit den Frameworks Pig, Hive und Spark zur Datenverarbeitung und lernen deren Anwendung und auch Abgrenzung voneinander kennen.

Dieses praxisorientierte Training wird in Zusammenarbeit mit Hortonworks angeboten (siehe Original-Kursbeschreibung), und unsere erfahrenen Trainer teilen ihr Wissen und ihre Erfahrung in ca. 50% Theorie & Diskussionen sowie ca. 50% Labs an einer persönlichen Amazon AWS-Instanz mit Ihnen. Dieser Kurs bereitet auf die Zertifizierung zum HDP Certified Developer (HDPCD) vor, welche nach diesem Training über den Anbieter www.examslocal.com am eigenen Rechner abgelegt werden kann (weitere Details zur Zertifizierung).

Schulungssprache

Deutsch, Material auf Englisch

Termine und Ort

  • 29.05.-01.06.2017 - Solingen

Teilnahmegebühr

2.400 € EUR zzgl. MwSt.

Anmeldeformular


Teilnahmevoraussetzungen und Zielgruppe

  • Entwickler & interessierte Analysten, die Big-Data-Fragestellungen mittels Apache Hadoop 2.x beantworten wollen
  • Die Teilnehmer sollten mit allgemeinen Programmierprinzipien vertraut sein
  • Kenntnisse in SQL sind hilfreich, aber nicht zwingend notwendig
  • Vorkenntnisse in Apache Hadoop sind nicht notwendig
  • Jeder Teilnehmer bekommt für die Dauer des Trainings eine vorkonfigurierte HDP-Umgebung über Amazon AWS zur Verfügung gestellt. Daher benötigen die Teilnehmer lediglich einen zeitgemäßen Rechner zum Verbinden mit dieser Umgebung:
    • Zeitgemäße CPU mit 2+ GHz (bevorzugt Intel i5/i7 oder äquivalente AMD-Architektur
    • 2+ GB RAM
    • 2 GB freier Speicherplatz
    • Firefox, Chrome oder Safari (Internet Explorer wird aktuell nicht unterstützt)

Trainer:

Dr. Stephan Kepser

Dr. Stephan Kepser ist Experte für Themen rund um Cloud Computing und Big Data. Zu diesen Themen hat er schon diverse Fach- und Blogartikel verfasst und zudem hat er die Hadoop User Group Rhein-Ruhr gegründet. Seine Interessen reichen von rechtlichen Fragen über Fragen der Architektur und des Systemdesigns bis hin zu den technischen Details von NoSQL-Datenbanken.

Inhalte:

  • Einführung in Hadoop 2.x
  • Erläuterung der Anwendungsfälle für Hadoop 2.x
  • Überblick über die verschiedenen Tools des Hadoop-2.x-Ökosystems
  • Grundlagen des verteilten Dateisystems HDFS (Hadoop Distributed File System)
  • Data Ingestion nach HDFS
  • Verwendung von Sqoop zum Transfer von relationalen Daten nach HDFS
  • Verwendung von Flume zum Transport von Daten nach HDFS
  • Überblick über YARN, das Framework zum Management von Clusterressourcen
  • Einführung in MapReduce
  • Ausführen einer MapReduce-Applikation mittels YARN
  • Überblick über Pig
  • Schreiben von Pig-Skripten zur Datenanalyse und -transformation
  • Definition von fortgeschrittenen Pig-Relationen
  • Mittels Pig Struktur in unstrukturierte Daten bringen
  • Aufruf von User Defined Functions (UDF) mittels Pig
  • Überblick über Hive
  • Verständnis für Hive-Tabellen und deren Datenablage
  • Verständnis für die unterschiedlichen Datenformate von Hive
  • Erzeugen und Befüllen von Hive-Tabellen im Dateiformat ORC
  • Benutzung und Anwendungsfälle der unterschiedlichen Join-Strategien von Hive
  • Optimierung von Hive-Abfragen
  • Zerlegung von Texten in N-Gramme
  • Berechnung von Datenfunktionen (z.B. Quantile, Page Rank) mittels der DataFu-Bibliothek
  • Benutzung von HCatalog für das übergreifende Speichern von Metadaten
  • Überblick über Spark
  • Aufbau von Data Pipelines mit RDDs, Transformationen und Aktionen
  • Programmieren mit Core Spark
  • Data Frames & Spark SQL
  • Einführung in die Spark MLlib
  • Definition eines Workflows mittels Oozie
  • Planung von zeitgesteuerten Workflows mittels des Oozie Coordinators

Tag 1

  • Einführung in Hadoop 2.x und die Hortonworks Data Plattform
  • Das Hadoop Distributed File System (HDFS)
  • Data Ingestion
  • YARN
  • Das MapReduce-Framework

Tag 2

  • Überblick über Pig
  • Programmieren mit Pig
  • Fortgeschrittene Programmierung mit Pig

Tag 3

  • Überblick über Hive
  • Programmieren mit Hive
  • HCatalog
  • Fortgeschrittene Programmierung mit Hive

Tag 4

  • Überblick über Spark
  • Programmieren mit Core Spark
  • Data Frames & Spark SQL
  • Machine Learning mit Spark MLlib
  • Anlegen und Verwalten von Workflows mittels Oozie