Training: Administration von Apache Hadoop 2.x

Teilnahmevoraussetzungen und Zielgruppe

  • Administratoren, DevOps und Personen, die verantwortlich sind für die Installation, den Betrieb und den Support von Hadoop-2.x-Clustern in Linux-Umgebungen
  • Basiskenntnisse in Linux werden vorausgesetzt
  • Vorkenntnisse in Apache Hadoop sind nicht notwendig
  • Die Übungen werden mit Hilfe einer virtuellen Machine auf dem eigenen Notebook durchgeführt. Dieser muss die folgenden Voraussetzungen erfüllen:
    • Zeitgemäße CPU mit 2+ GHz (bevorzugt Intel i5/i7 oder äquivalente AMD-Architektur)
    • 8+ GB RAM
    • 50 GB freier Speicherplatz
    • 64-bit Betriebssystem (Windows 7, Windows 8 oder Mac OS X)
    • Minimale Displayauflösung von 800 x 600 Pixel
    • VMWare Player für Windows (oder VMWare Fusion für Mac)

Schulungssprache

Deutsch (Schulungsmaterial auf Englisch)

Termine und Ort

09.-12.03.2015, Düsseldorf
15.-18.06.2015, München

28.09.-01.10.2015, Frankfurt

Teilnahmegebühr

2.175 € EUR zzgl. MwSt.

Anmeldeformular →

Unser Trainer-Team:

Alexandra Klimova

alexandra_klimova

Weiterlesen

Alexandra Klimova arbeitet als IT Consultant für die codecentric AG, den Experten für agile Software-Entwicklung und innovative Technologien wie NoSQL & Big Data in Deutschland. Sie beschäftigt sich seit 2012 mit dem Design und der Implementierung von Big Data Systemen basierend auf Apache Hadoop und ist zudem seit 2013 eine zertifizierte Hadoop Trainerin. Bei diesen Aufgaben bringt sie ihre Stärken beim Entwickeln von Enterprise Software sowie in den Bereichen Machine Learning & Business Intelligence voll ein.

Dr. Stephan Kepser

stephan_kepser

Weiterlesen

Dr. Stephan Kepser arbeitet für die codecentric AG, den Experten für agile Software-Entwicklung und innovative Technologien wie NoSQL & Big Data in Deutschland. Er ist ein zertifizierter Hadoop Trainer und beschäftigt sich schon seit langer Zeit mit Themen rund um Cloud Computing und Big Data. Zu diesen Themen hat er schon diverse Fach- und Blogartikel verfasst und zudem hat er die Hadoop User Group Rhein-Ruhr gegründet. Seine Interessen reichen von rechtlichen Fragen über Fragen der Architektur und des Systemdesigns bis hin zu den technischen Details von NoSQL-Datenbanken.

Uwe Seiler

uwe_seiler

Weiterlesen

Uwe Seiler arbeitet als Senior IT Consultant bei der codecentric AG und begeistert sich für die Möglichkeiten, die sich durch die Vielzahl an technologischen Innovationen im Bereich der verteilten Systeme bieten. Diese Begeisterung lebt er zum einen als Consultant und zertifizierter Hadoop Trainer in Big Data Projekten aus und zum anderen liebt er die Diskussion darüber, z.B. als Redner auf Konferenzen oder auf den von ihm (mit-)organsierten User Groups zu MongoDB und Hadoop im Raum Rhein-Main.

Zusammenfassung:

Apache Hadoop ist eine der umfassendsten und populärsten Lösungen für die aktuellen Herausforderungen im Umfeld von Big Data. Hadoop 2.x bietet dabei sowohl eine skalierbare und zuverlässige Plattform für das Speichern von großen Datenmengen unterschiedlicher Struktur und Herkunft als auch zahlreiche Werkzeuge und Paradigmen für deren Verarbeitung. Zudem existiert rund um diese Kernfunktionalitäten eine Vielzahl von zusätzlichen Open Source Projekten und Softwarelösungen, die Apache Hadoop 2.x zu einer funktionsreichen Plattform rund um Big Data machen.

Das viertägige Training richtet sich an Administratoren und DevOps, die Apache Hadoop 2.x Cluster installieren, managen und verstehen wollen. Da das Training auch für Einsteiger im Bereich Apache Hadoop geeignet ist, starten wir mit den Grundlagen von Hadoop 2.x und lernen dann das verteilte Dateisystem HDFS kennen sowie YARN, die Komponente zur Verwaltung der Ressourcen im Cluster. Dann starten wir mit allen benötigten Vorüberlegungen und Dimensionierungsfragen und gehen anschließend die Installation Schritt für Schritt durch. In der Folge wenden wir uns den Möglichkeiten zum Import und Export von Daten in und aus dem Hadoop-Cluster zu und lernen die gängigen Komponenten des Hadoop-Ökosystems aus administrativer Sicht kennen. Beschlossen wird das Training mit den täglichen Aufgaben eines Hadoop-Admins wie dem Monitoring, Backup und vielen weiteren Best Practices.

Das Training besteht zu jeweils ca. 50% aus praxisorientierten Übungen und theoretischen Präsentationen und findet in Kooperation mit dem amerikanischen Anbieter Hortonworks statt, der jahrelange Erfahrung im Management von einigen der weltweit größten produktiven Hadoop 2.x Clustern hat.

Themen:

  • Wie dimensioniert man ein Hadoop 2.x Cluster?
  • Wie installiert man ein Hadoop 2.x Cluster?
  • Wie konfiguriert man Hadoop 2.x und die zugehörigen Applikationen und Frameworks?
  • Wie führt man die fortlaufende Wartung von Clusterknoten durch?
  • Wie stabilisiert und erhöht man die Leistung eines Hadoop 2.x Clusters?
  • Wie bewegt und managt man Daten im Cluster?
  • Wie fügt man Datenknoten hinzu oder entfernt sie?
  • Wie integriert man Hadoop 2.x in (bestehende) Monitoringlösungen?
  • Wie implementiert man Hochverfügbarkeitslösungen?
  • Welche Sicherheitskonzepte gibt es für Hadoop 2.x Cluster?
  • Best Practices zur Installation von Hadoop 2.x Clustern

Ablauf des Trainings:

Tag 1

  • Einführung in Hadoop 2.x und die Hortonworks Data Plattform
  • Das Hadoop Distributed File System (HDFS)
  • Installation von Hadoop 2.x mit Ambari
  • Konfiguration von Hadoop 2.x
  • Sicherstellen der Datenintegrität

Tag 2

  • HDFS NFS Gateway
  • Konfiguration von YARN und MapReduce
  • Job Scheduler
  • Enterprise Data Movement
  • HDFS Web Services

Tag 3

  • Administration von Apache Hive
  • Datenaustausch mit relationalen Datenbanken mit Sqoop
  • Data Ingestion mit Flume
  • Workflow Management mit Oozie
  • Monitoring von Hadoop 2.x Services

Tag 4

  • Zu- und Abschalten von Knoten und Services
  • Berücksichtigung von Racks und Netzwerktopologien
  • Hochverfügbarkeit
  • Datensicherung und -wiederherstellung
  • Sicherheit