20.05.2016 - Spark (und Hadoop)

Goldschmiede @ anderScore - verfasst am 29.04.2016 von Max Johenneken

News Logo

Für Reinis Vicups ist Apache Spark zu einem „Schweizer Taschenmesser“ der Datenverarbeitung geworden. Nicht nur für BigData oder Machine Learning Aufgaben, sondern für viele ETL-Aufgaben. Sowohl in Batch wie auch in Echtzeit.

In der Einführung dieser Goldschmiede stellte er uns einige Anwendungsbereiche von Spark vor und ging kurz auf das Map-Reduce Paradigma und die RDDs ein.

Danach tauchten wir gemeinsam in die Architektur von Spark ein und schauten uns einige wichtige Design-Elemente dieses Frameworks detaillierter an.

In der Produktion wird Apache Spark in einer Cluster-Umgebung ausgeführt. Wir warfen einen Blick auf die Ausführung auf dem Mesos anhand eines Produktivsystems und sprachen über die Möglichkeit der Ausführung in einer Hadoop-Umgebung.

Bevor wir uns selbst in einigen Beispielen von der Mächtigkeit von Spark überzeugen konnten, zog Reinis einen subjektiven und durchaus befangenen Vergleich zwischen Spark @ Mesos und Hadoop.

Ein SBT-Beispielprojekt steht im Goldschmiede-Git-Repository zur Verfügung. Wenn Ihr aber lieber mit CLI arbeitet, reicht es wenn Ihr die Spark-Distribution unter spark.apache.org/downloads.html herunterladet (v1.6.1 pre-built vor Hadoop 2.6 and later).

Zurück