Java Magazin 07/16

Datenanalyse mit Spark und Apache Zeppelin

Autoren: ,

Wie kann Spark im Bereich Datenanalyse eingesetzt werden, und welche Vorteile bietet es? Um diese Fragen geht es auf den folgenden Seiten. Dabei richtet sich der Artikel an Entwickler, die bereits von Spark gehört haben und für die Resilient Distributed Dataset kein Fremdwort ist. Auch Data Analysts, die bisher hauptsächlich mit klassischen BI-Tools gearbeitet haben und auf der Suche nach Open-Source-Alternativen sind, werden hier fündig.

Als Anwendungsfall für das Thema Datenanalyse eignet sich die Erstellung von Produktempfehlungen. Die Algorithmen, die dahinter stecken, sind zwar einfach zu erklären, aber sehr rechenintensiv und müssen oft mit riesigen Datenmengen gefüttert werden. Hier kann Spark seine Fähigkeiten voll ausspielen. Am Beispiel von Produktempfehlungen werden wir die unterschiedlichen Aspekte der Entwicklung einer datengetriebenen Anwendung beleuchten. Wir beginnen mit dem Einlesen der Daten und zeigen die Verarbeitung mit Spark SQL. Anschließend stellen wir Zeppelin als Werkzeug zur explorativen Analyse vor. Im dritten Teil erklären wir detailliert die Anwendung eines Machine-Learning-Algorithmus aus der Spark MLlib. Zum Schluss gehen wir auf die Integration in eine bestehende Softwarelandschaft ein. Alle Codebeispiele aus diesem Artikel stehen in Form eines kommentierten Zeppelin-Notebooks samt Daten in einem GitHub-Repository zur Verfügung. Es reicht, die dort vorhandene Dokumentation zu benutzen, um in wenigen Schritten zu starten.

Vollständiger Artikel