Schulungen

meet-the-experts-logo-weiss

Wissen, das Sie persönlich weiterbringt, weil Sie es sofort anwenden können – das versprechen unsere neuesten Schulungen und Workshops.

HDP Analyst: Data Science

Beschreibung:

Dieser Kurs wird in Zusammenarbeit mit Hortonworks durchgeführt (siehe Original-Kursbeschreibung) und stellt gängige Verfahren und Praktiken aus den Themengebieten Data Science, Maschinellem Lernen und der Verarbeitung natürlicher Sprache vor. Dazu verwenden wir im Kurs als Programmiersprache Python (Keine Angst, es gibt eine kurze Einführung) und lernen die zugehörigen Werkzeuge wie IPython, NumPy, pandas, SciPy, Scikit-learn, die Hadoop-spezifischen Tools wie Apache Pig und Mahout, das Natural Language Toolkit (NLTK) und natürlich Spark mit seiner Bibliothek MLlib kennen.

Das Format ist wie gewohnt praxisorientiert und unsere Trainer teilen ihr Wissen und ihre Erfahrung in ca. 50% Theorie & Diskussionen sowie ca. 50% Labs & Übungen am eigenen Rechner mit Ihnen.

Schulungssprache

Deutsch, Material auf Englisch

Termine und Ort

  • 11.09.-13.09.2017 - Solingen
  • 11.12.-13.12.2017 - Solingen

Teilnahmegebühr

1.800,– Euro zzgl. MwSt. (inklusive Mittagessen und Getränke)

Anmeldeformular


Teilnahmevoraussetzungen und Zielgruppe

Teilnehmer müssen mit mindestens einer Programmiersprache oder Skriptsprache Erfahrung haben. Sie müssen Grundkenntnisse in Statistik und/oder Mathematik und ein grundsätzliches Verständnis von Big Data und Hadoop haben. Teilnehmer benötigen einen eigenen leistungsfähigen Laptop mit mindestens 8GB Arbeitsspeicher und 50GB Plattenplatz.

Zielgruppe:

Der Kurs richtet sich an Architekten, Softwareentwickler, Analysten und Data Scientists, die Data-Science-Methoden und maschinelles Lernen im Hadoop-Ökosystem einsetzen wollen.

Trainer:

Dr. Stephan Kepser

Dr. Stephan Kepser ist Experte für Themen rund um Cloud Computing und Big Data. Zu diesen Themen hat er schon diverse Fach- und Blogartikel verfasst und zudem hat er die Hadoop User Group Rhein-Ruhr gegründet. Seine Interessen reichen von rechtlichen Fragen über Fragen der Architektur und des Systemdesigns bis hin zu den technischen Details von NoSQL-Datenbanken.

Inhalte:

Am Ende des Kurses können die Teilnehmer

  • Einsatzfelder für Data Science erkennen
  • Die Architektur von Hadoop und Yarn beschreiben
  • Den Unterschied zwischen überwachtem und unbewachtem Lernen beschreiben
  • Die sechs Aufgaben maschinellen Lernens benennen
  • Mahout für maschinelle Lernalgorithmen unter Hadoop verwenden
  • Pig zur Aufbereitung und Transformation von Daten verwenden
  • Python-Skripte schreiben
  • Die Bibliothek NumPy zur Analyse von Big Data einsetzen
  • Die Datenstrukturen der pandas-Bibliothek verwenden
  • Python-Skripte schreiben, die die Bibliothek SciPy für maschinelles Lernen einsetzen
  • Möglichkeiten zum Aufruf von Python-Programmen auf Hadoop Clustern beschreiben
  • In Python benutzerdefinierte Funktionen für Pig schreiben
  • Mit einem Python-Skript Pig Streaming Funktionalität von Hadoop verwenden
  • Ein Python-Skript schreiben, das die Bibliothek scikit-learn verwendet
  • Den k-Nearest-Neighbor-Algorithmus zur Vorhersage von Daten verwenden
  • Einen maschinellen Lernalgorithmus auf verteilten Datensätzen laufen lassen
  • Einsatzfelder für Verarbeitung natürlicher Sprache beschreiben
  • Satzgrenzenannotation auf großen Textmengen durchführen
  • Part-of-speech Tagging durchführen
  • Das Natural Language Toolkit (NLTK) verwenden
  • Die Komponenten einer Spark-Applikation beschreiben
  • Eine Spark-Applikation in Python schreiben
  • Maschinelle Lernalgorithmen mit der Spark MLlib laufen lassen.

Hands-on Labs

 

  • Aufsetzen der Entwicklungsumgebung
  • Nutzung von HDFS-Kommandos
  • Einsatz von Mahout für maschinelles Lernen
  • Einstieg in Pig
  • Datenexploration mit Pig
  • Nutzung des IPython Notebooks
  • Datenanalyse mit Python
  • Datenpunktinterpolation
  • Entwicklung benutzerdefinierter Funktionen für Pig in Python
  • Nutzung von Pig Streaming-Funktionalität mit Python
  • Clustering  durch k-Nächste Nachbarn und k-Means Algorithmen
  • Benutzung des NLTK für die Verarbeitung natürlicher Sprache
  • Spark Programmierung und Spark MLlib