heise developer 08/16

Apache Spark 2.0: Zweiter Akt einer Erfolgsgeschichte

Autoren: ,

Apache Spark hat sich mittlerweile als Analyseplattform für Big Data und als Ersatz für MapReduce etabliert. Das aktuelle Release 2.0 bringt eine neue Streaming-Engine, Erweiterungen des API sowie Verbesserungen bei der Performance und beim Speichermanagement.

Apache Spark ermöglicht die Verarbeitung von Batch- und Streaming-Daten sowie die Anbindung an unterschiedliche Quellen. Zusätzlich bietet es Funktionen zur weiteren Datenverarbeitung mit umfangreichen Bibliotheken im Bereich Machine Learning. Das neue Major Release wartet mit zahlreichen Neuerungen auf, von denen das Dataset-API und das Structured Streaming besonders hervorstechen.

Dieser Artikel der Kollegen Matthias Niehoff und Daniel Pape ist auf heise developer erschienen. Wenn du mehr über Apache Spark erfahren möchtest, empfehlen wir zusätzlich Daniels englischen Blog Post „Spam classification using Spark’s DataFrames, ML and Zeppelin„.

Vollständiger Artikel