Schulungen

meet-the-experts-logo-weiss

Wissen, das Sie persönlich weiterbringt, weil Sie es sofort anwenden können – das versprechen unsere neuesten Schulungen und Workshops.

HDP Developer: Enterprise Apache Spark I

Beschreibung:

Apache Hadoop ermöglicht es Unternehmen weltweit, tiefgehende Erkenntnisse aus großen Mengen an strukturierten und unstrukturierten Daten zu ziehen. Dabei bietet das Open-Source Hadoop-Ökosystem einen zuverlässigen Kern zum verteilten Speichern und Verarbeiten großer Datenmengen sowie zahlreiche Werkzeuge für deren Verarbeitung. Eines der populärsten Mitglieder das Hadoop-Ökosystems ist Apache Spark, ein In-Memory-Framework zum Analysieren von Daten mittels einer API in Scala, Python und Java.
Dieses viertägige Entwicklertraining bietet Ihnen einen idealen Einstieg in die Analyse von Daten mit Apache Spark im Zusammenspiel mit Apache Hadoop. Über einen Einstieg in die Hortonworks Data Platform (HDP) und HDFS und YARN beschäftigen wir uns mit der Spark Core API zur interaktiven Datenexploration. Weiterhin lernen wir die darauf aufbauenden Frameworks Spark SQL und Spark Streaming mit ihren spezifischen Datenstrukturen und Operationen kennen. Auch Alltagsherausforderungen wie die Visualisierung von Daten, die Zusammenarbeit mit anderen Entwicklern, das Bauen und Deployen von Spark-Anwendungen sowie Performance-Monitoring und –Tuning sind Teil des Trainings. Abgeschlossen wird das Training mit einem Überblick über die Machine Learning Library MLlib.
Dieses praxisorientierte Training wird in Zusammenarbeit mit Hortonworks angeboten (siehe Original-Kursbeschreibung), und unsere erfahrenen Trainer teilen ihr Wissen und ihre Erfahrung in ca. 50% Theorie & Diskussionen sowie ca. 50% Labs an einer persönlichen Amazon AWS-Instanz mit Ihnen. Dieser Kurs bereitet auf die Zertifizierung zum HDP Certified Spark Developer (HDPCD:Spark) vor, welche nach diesem Training über den Anbieter www.examslocal.com am eigenen Rechner abgelegt werden kann (weitere Details zur Zertifizierung).

Schulungssprache

Deutsch

Termine und Ort

  • auf Anfrage - Frankfurt am Main

Teilnahmegebühr

2.400 EUR zzgl. Mehrwertsteuer

Anmeldeformular


Teilnahmevoraussetzungen und Zielgruppe

  • Software-Entwickler, die In-Memory-Applikationen für zeitkritische und iterative Data Pipelines auf Basis von Spark & Hadoop aufbauen wollen
  • Die Teilnehmer sollten mit allgemeinen Programmierprinzipien sowie mit Softwareentwicklung in Scala oder Python vertraut sein
  • Kenntnisse in SQL und dem Streamen von Daten sind hilfreich, aber nicht zwingend notwendig
    Vorkenntnisse in Apache Hadoop sind nicht notwendig
  • Jeder Teilnehmer bekommt für die Dauer des Trainings eine vorkonfigurierte HDP-Umgebung über Amazon AWS zur Verfügung gestellt. Daher benötigen die Teilnehmer lediglich einen zeitgemäßen Rechner zum Verbinden mit dieser Umgebung:
    • Zeitgemäße CPU mit 2+ GHz (bevorzugt Intel i5/i7 oder äquivalente AMD-Architektur
    • 2+ GB RAM
    • 2 GB freier Speicherplatz
    • Firefox, Chrome oder Safari (Internet Explorer wird aktuell nicht unterstützt)

Trainer:

Dr. Stephan Kepser

Dr. Stephan Kepser ist Experte für Themen rund um Cloud Computing und Big Data. Zu diesen Themen hat er schon diverse Fach- und Blogartikel verfasst und zudem hat er die Hadoop User Group Rhein-Ruhr gegründet. Seine Interessen reichen von rechtlichen Fragen über Fragen der Architektur und des Systemdesigns bis hin zu den technischen Details von NoSQL-Datenbanken.

Inhalte:

  • Einführung in Hadoop, HDFS, YARN und die Hortonworks Data Platform
  • Erläuterung der Anwendungsfälle für Apache Spark
  • Exploration und Analyse von Daten mit Hilfe von Apache Zeppelin
  • Exploration und Analyse von Daten mit Hilfe der Spark Shell
  • Aufbau und Funktion eines Resilient Distributed Datasets (RDD)
  • Grundlagen der funktionalen Programmierung
  • Anwendung von Transformationen & Aktionen in Spark
  • Verwendung von Pair RDD’s
  • Abfrage von Daten mittels Spark SQL und DataFrames
  • Anwendung von Spark Streaming
  • Visualisierung von Daten, Erzeugen von Reports und Zusammenarbeit mit Apache Zeppelin
  • Monitoring von Spark Applikationen mittels des Spark History Servers
  • Allgemeine Tipps & Tricks zur Optimierung von Spark-Applikationen
  • Anwendung von Data Caching zur Beschleunigung von Spark-Applikationen
  • Bauen und Paketieren von Spark-Applikationen
  • Deployment von Spark-Applikationen im Hadoop-Cluster mittels YARN
  • Übersicht über die Spark MLlib

Die Hands-On Labs können entweder in Python oder Scala durchgeführt werden.

  • Interaktion mit HDFS
  • Verwendung der Spark-Shell
  • Verwendung von Apache Zeppelin
  • Anwendung von Spark Transformationen & Aktionen
  • Verwendung von Pair RDD’s
  • Einführung in Spark SQL
  • Durchführung von zustandslosen Transformationen mit Spark Streaming
  • Durchführung von window-basierten Transformationen mit Spark Streaming
  • Verwendung von Apache Zeppelin für Visualisierung & Reporting
  • Monitoring von Spark-Applikationen mit dem Spark History Server
  • Cachen und Persistieren von Daten
  • Konfiguration von Checkpointing, Broadcast-Variablenund Executoren
  • Bauen und übermitteln einer Spark-Applikation an YARN
  • Ausführen von Spark MLlib Applikationen