Einführung in Hadoop – Was ist Big Data & Hadoop? (Teil 1 von 3)

12.8.2013 | 5 Minuten Lesezeit

Was ist Big Data?

„Big Data ist, wenn die Daten selbst Teil des Problems werden“

Diese kurze Definition in Anlehnung an ein Zitat des Verantwortlichen für Marktforschung bei O’Reilly Media, Roger Magoulas, ist in meinen Augen die beste Charakterisierung von Big Data, gerade weil sie so kurz und prägnant ist und trotzdem den Kern des Problems – und der Herausforderungen – so zeitlos umfasst. Hier wird gar nicht erst probiert, das aktuelle Hype-Thema Big Data anhand reiner Zahlen wie „Big Data ist alles über 1, 5, 10, 50, … GB, TB, PB, …“ festzuzurren. Big Data in Zahlen zu fassen scheint aber anscheinend trotzdem ein menschliches Grundbedürfnis zu sein, ich weiß nicht wie viel Zeit ich auf User Groups , Open Spaces, Konferenzen, etc. allein mit der Diskussion der „Größe“ von Big Data verbracht habe. Und diese Diskussion ist eigentlich nie zielführend gewesen, viel wichtiger ist es in meinen Augen, die Prinzipien hinter den Technologien zu verstehen und welche Möglichkeiten sich dadurch ergeben. Und genau das möchte ich in dieser Blog-Serie versuchen zu beleuchten, wohl wissend, dass Big Data nicht nur Hadoop ist, auch wenn die aktuelle Berichterstattung dies häufig zu suggerieren scheint. Aber Hadoop ist zumindest ein nicht unbedeutender Teil von Big Data, daher fangen wir einfach mal damit an und andere Themen werden sicherlich folgen.

Das 3V-Prinzip

Zurück zum Thema: Das ursprüngliche Zitat von Roger Magoulas bezog sich lediglich auf die Größe der Daten und ich denke wie so viele, dass diese Hervorhebung zu einseitig ist und zu kurz greift. Natürlich ist die Größe der Daten einer der offensichtlichsten Faktoren bei Big Data – der Name kommt schließlich nicht von ungefähr. Trotzdem wäre das zu eindimensional und verkennt die weiteren Dimensionen des Phänomens Big Data. Dies sehen auch die Analysten von Gartner so, wie sie nicht müde werden zu betonen, und ihr 3V-Prinzip ist sicherlich die populärste Definition von Big Data und ich denke, dass Sie diese auf jeden Fall zumindest kennen sollten. Die Definition ist mittlerweile von diversen Autoren und Marketingabteilungen noch um einige V’s erweitert worden, ich will mich aber auf die ursprüngliche Definition beschränken:

Volume (= Größe der Daten)
Mit den exponentiell steigenden Datenvolumen, die von Unternehmen angesammelt werden, geht es in der Regel darum, große Datenmengen zu speichern und zu analysieren. Wir reden dabei heutzutage typischerweise über Daten im Terabyte- bis Petabyte-Bereich, die traditionelle Systeme an ihre Grenzen bringen bei dem Versuch diese Datenflut effizient zu verarbeiten.
Velocity (= Geschwindigkeit der Daten)
Die Geschwindigkeit der Datenerzeugung nimmt ständig zu. Bei neu entstehenden Datenquellen wie mobilen Geräten, sozialen Netzwerken, Sensordaten, RFID, etc. werden die Daten kontinuierlich in Echtzeit generiert. Aber auch die Speicherung über mehrere Kanäle hinweg und die nachfolgende Datenanalyse soll möglichst in Echtzeit stattfinden, um schnelle Entscheidungen zu treffen und so Wettbewerbsvorteile zu sichern.
Variety (= Vielfalt der Daten)
Die Dimension „Vielfalt“ bezieht sich nicht nur auf unterschiedliche Datenformate, die von verschiedenen Datenquellen erzeugt werden. Mit dem Einsatz von RFID-Sensoren, Roboter und der explosionsartigen Verbreitung von sozialen Netzwerken werden Daten in zahllosen Formaten wie Text, Video, Audio, Sensordaten, Tweets, Logausgaben usw. generiert. Auch die Notwendigkeit mit unterschiedlichen Datentypen wie strukturierte, semistrukturierte und unstrukturierte Daten arbeiten zu müssen, trägt zur Komplexität der Lösung bei.

Und was ist mit NoSQL?

Im Zusammenhang mit Big Data stößt man häufig ebenfalls auf den Begriff NoSQL – auch Sie sind sicherlich in diesem Zusammenhang schon mal über die dokumentenbasierte Datenbank MongoDB , den verteilten Key-Value-Store Riak , die Graph-Datenbank Neo4 j und weitere Lösungen gestolpert. Und auch wenn diese technische Lösungen meist auf den Grundprinzipien der vertikalen Skalierbarkeit und der Verwendung von Commodity Hardware aufbauen und sich somit ebenfalls für die Speicherung und Verarbeitung von großen Datenmengen eignen, so ist der Begriff Big Data heutzutage doch fast synonym mit Apache Hadoop verknüpft.

Ich will diese Verknüpfung auch gar nicht erst bewerten, denn auf Basis von NoSQL-Datenbanken sind ebenfalls eine Vielzahl von innovativen Lösungen entstanden und sie haben Ihre ganz eigenen Einsatzzwecke und sind somit Teil des Big Data Lösungsraums. Der Grundsatz ist dabei wie immer „Wähle das richtige Tool für deine Aufgabe“ und Hadoop ist eben für viele Aufgaben im Bereich von Big Data das richtige Tool. Das können Sie nach der Lektüre dieser Serie aber hoffentlich selbst bewerten und ich vertraue auf Ihr Interesse als Leser, sich tiefer in das Thema hineinzuarbeiten, z.B. mit der Lektüre des sehr empfehlenswerten Buchs (mit dem sperrigen Titel) „Big Data für IT-Entscheider: Riesige Datenmengen und moderne Technologien gewinnbringend nutzen“ meines Kollegen und Big Data Experten Pavlo Baron .

Nun aber zu Hadoop…

Fokussieren wir uns nun also auf Hadoop: Das von der Apache Software Foundation geleitete Open Source Projekt Hadoop ist ein Framework zum verteilten Speichern und parallelen Verarbeiten von großen Datenmengen in horizontal verteilten Umgebungen. Die horizontale Skalierung („Scale out“) ist dabei eines der Grundprinzipien von Hadoop, welche es ermöglicht große Datenmengen sicher und fehlertolerant auf bis zu mehreren Tausend Servern innerhalb eines Clusters zu verteilen. Dabei kommen nicht mehr teure und spezielle Server („Scale up“) zum Einsatz, sondern es wird auf kostengünstige Commodity Hardware gesetzt.

Neben dem Speichern von großen Datenmengen ist das verteilte und parallele Verarbeiten dieser Daten eine weitere Kernaufgabe von Hadoop. Dafür hat Hadoop viele intelligente und effiziente Mechanismen entwickelt, wobei das Prinzip der Datenlokalität das Wichtigste ist. Dabei werden nicht wie in klassischen Systemen die Daten zu den Servern transportiert, die dann den Programmcode ausführen, sondern der Programmcode wird auf die Server im Cluster mit den zugehörigen Daten verteilt, dann dort verteilt ausgeführt und die (Teil-)Ergebnisse wieder zusammengeführt. Auf diese Weise werden zeitintensive Datentransfers über das Netzwerk minimiert, der Cluster skaliert sehr gut und insgesamt wird dadurch die Geschwindigkeit der Datenverarbeitung erhöht bzw. in vielen Fällen überhaupt erst ermöglicht! Dieser Ansatz der Verarbeitung bewirkt aber auch, dass Hadoop im Grundsatz ein Batch-System ist und somit z.B. weniger für Aufgaben im Realtime-Bereich oder für iterative Algorithmen geeignet ist, sondern eher den Fokus auf die – meist nachträgliche – parallele Verarbeitung und Aggregation von Daten legt. Ein Umstand den man trotz allen aktuellen Bemühungen und auch Erfolgen, Hadoop immer mehr in Richtung (Near-)Realtime zu entwickeln, niemals vergessen sollte.

Nach der kurzen Einführung in Big Data und Hadoop geht es im nächsten Teil weiter mit einer Übersicht über die Hadoop-Plattformen, folgen Sie mir einfach…

War dieser Beitrag hilfreich?

Beitrag teilen

Blog-Autor*in

Uwe Printz

Delivery Manager | Location Manager Frankfurt

Du hast noch Fragen zu diesem Thema? Dann sprich mich einfach an.

Vom Coding-Assistenten zum Sparringspartner: Die nächste Evolutionsstufe...

Wer über AI-Assisted Coding spricht, spricht im Kontext von Datenprojekten fast immer über den falschen Teil des Problems.  Die Debatte kreist um Prompt-to-Code, um Produktivitätsgewinne beim Schreiben von SQL- oder Python-Skripten, um Benchmarks und...

Analyse
Künstliche Intelligenz
Generative KI
LLM
Data Science
Machine Learning
Data
Big Data

30.6.2026 | 6 Minuten Lesezeit

Berthold Schulte

Von Inferenz zu Governance: Warum Agent-Metadaten wichtig sind, auch wenn...

Moderne LLMs (Large Language Models) zeigen eine starke Fähigkeit, Bedeutungen aus Spaltennamen abzuleiten. Ein Tool wie Genie kann in der Regel pct_cust_attrit_q als „Churn“ (Abwanderung) auflösen oder rev_mrr_usd allein durch Mustererkennung dem Begriff...

Künstliche Intelligenz
LLM
Big Data
Datenbank

15.5.2026 | 6 Minuten Lesezeit

Niklas Niggemann

Ask Your Data(bricks) mit Natural Language

Das derzeit wohl heißeste Thema im Bereich Daten und KI ist die Möglichkeit, mit den eigenen Daten zu sprechen. Das Schreiben von SQL-Abfragen ist bei der Datenexploration alles andere als intuitiv, daher klingt die Möglichkeit, einfach Fragen in natürlicher...

Data
Big Data

16.4.2026 | 9 Minuten Lesezeit

Niklas Niggemann

MotherDuck Dives: Mit natürlicher Sprache zu Live Dashboards

Dives sind interaktive Visualisierungen, die durch natürliche Sprache erstellt werden und direkt auf den Daten in MotherDuck aufbauen. Nutzer beschreiben, was sie sehen möchten, und ein KI-Agent generiert eine persistente, interaktive Komponente, die...

MotherDuck
Data
Data Science
Big Data

9.3.2026 | 8 Minuten Lesezeit

Niklas Niggemann

Ibis: Die richtige Execution-Engine wählen, ohne Logik neu zu schreiben

In unseren bisherigen Benchmarks hat DuckDB bei großen analytischen Workloads Polars und Pandas durchgängig übertroffen. Doch reine Performancevergleiche übersehen eine entscheidende Frage: Was passiert, wenn Sie von lokaler DuckDB-Entwicklung in eine...

MotherDuck
Data
Big Data
Data Science

10.2.2026 | 6 Minuten Lesezeit

Niklas Niggemann

Daten- und KI-Strategie entwickeln: In 7 Schritten zum nachhaltigen Gesch...

Wer heute eine wertstiftende Daten- und KI-Strategie entwickeln will, blickt auf gewaltige Prognosen: McKinsey (2023) schätzt das globale Potenzial auf bis zu 25,6 Billionen US-Dollar. Doch Hand aufs Herz: Spürst du diesen Wertbeitrag bereits in deinem...

Data
Data Science
Datenschutz
Big Data
Generative KI
Künstliche Intelligenz

2.12.2025 | 11 Minuten Lesezeit

Shirin Elsinghorst

Elena Rüdenauer

Datenanalyse mit MotherDuck und DuckDB: Aus CSV zu Insights in 5 Minuten

CSV-Dateien sind der ewige Klassiker im Datenaustausch. Auch wenn modernere Formate wie JSON und Parquet ihren Platz erobern, bleiben die einfachen, aber robusten Comma Separated Values das Rückgrat vieler Daten-Workflows. Aber Hand aufs Herz: Wer hat...

Data
Datenbank
MotherDuck
Big Data

30.9.2025 | 7 Minuten Lesezeit

Christian Galsterer

5 Gründe, warum wir uns über den Motherduck Launch in AWS Frankfurt freuen

Hinweis: Dieser Blog-Post wurde mit LLM-unterstützung von Englisch auf Deutsch übersetzt. Seit einiger Zeit besteht für europäische Datenteams die zentrale Herausforderung darin, Innovation mit strenger Regulierung in Einklang zu bringen. Häufig erscheinen...

Data
Big Data
Datenbank
News
MotherDuck

24.9.2025 | 5 Minuten Lesezeit

Marcel Mikl

Mit Applied Data Products zum datengetriebenen Unternehmen

In den letzten Jahren ist der Hype um den Wert von Daten kontinuierlich gestiegen. Gleichzeitig sind eine Vielzahl von Konzepten und Methoden aufgekommen, wie man als Unternehmen "datengetrieben" werden kann. Vom strategischen Top-Management bis zum ...

Agilität
Big Data
Data
Produktmanagement
Digitalisierung
Data Science
Business Intelligence

18.5.2024 | 8 Minuten Lesezeit

Dr. Florian Rademacher

Stephan Hochhaus

Eine Einführung in Federated Learning im industriellen Kontext: Fortgeschritten

Im Bereich des maschinellen Lernens wurde eine lange Zeit angenommen, dass die Eingabedaten von Modellen und Gewichten sicher sei und nicht extrahiert werden könnten. In den letzten Jahren veröffentlichte Forschung hat diese Annahme in Frage gestellt...

Machine Learning
Big Data
Data Science
Data

18.9.2023 | 8 Minuten Lesezeit

Ihsan Kisi

Eine Einführung in Federated Learning im industriellen Kontext: Grundlagen

Mithilfe von Daten können Unternehmen fundiertere Entscheidungen treffen, ihre Arbeitsabläufe optimieren und mit der Kraft des maschinellen Lernens (ML) einen Vorteil in der wettbewerbsintensiven Geschäftswelt erlangen. Allerdings ist der Umgang mit ...

Machine Learning
Data Science
Data
Big Data

25.8.2023 | 7 Minuten Lesezeit

Ihsan Kisi

Datenanalyse auf die schnelle Art – mit Amazon Athena und GitLab

Wenn wir Erkenntnisse aus großen Datenmengen gewinnen wollen, bieten uns Cloud Service Provider inzwischen Lösungen an, dank derer wir uns kein Data Warehouse oder Hadoop-Cluster mehr in den Keller stellen müssen. AWS hat mit Athena, RedShift und EMR...

Cloud
Big Data
AWS
Serverless
GitLab

21.3.2023 | 16 Minuten Lesezeit

Maik Fleuter

Simple Deep Learning mit Amazon SageMaker

In unserem neuesten codecentric.AI-Video geben wir eine kurze Einführung in Amazon SageMaker und zeigen, wie man damit schnell und einfach ein Bildklassifikationsmodell trainieren kann, das Brillenträger von Nicht-Brillenträgern unterscheidet. Mit ...

Big Data
AWS
Cloud
Data
Machine Learning
Künstliche Intelligenz
Python

11.7.2018 | 5 Minuten Lesezeit

Shirin Elsinghorst

Oliver Moser

Schema First Design – Produktentwicklung mit GraphQL

Zu den schwierigsten Aufgaben bei der Entwicklung neuer Produkte gehören die Koordinierung der Teams, der Featureumfang und unbekannte Faktoren in Form der „moving parts“. Laut Definition müssen wir bestimmte laufende Prozesse berücksichtigen. Ein gutes...

API
Big Data

25.6.2018 | 7 Minuten Lesezeit

Toni Haupt

Deep Learning Workshop bei der codecentric AG in Solingen

Big Data – ein Schlagwort, das zur Zeit in aller Munde ist, egal ob in nerdigen Blogs, wissenschaftlichen Artikeln oder der Tageszeitung. Doch wie funktionieren Analysen von Big Data eigentlich? Um das heraus zu finden, habe ich an dem Workshop über ...

Big Data
Data
Künstliche Intelligenz
Machine Learning

6.2.2018 | 6 Minuten Lesezeit

Shirin Elsinghorst

BigchainDB – Das leichtgewichtige Blockchain-Framework [blockcentric #...

Mit BigchainDB sehen wir eines der ersten vollumfänglichen, aber einfachen Blockchain-Frameworks. Das Projekt macht es sich zur Aufgabe, Blockchain für eine große Anzahl von Entwicklern und Use Cases nutzbar zu machen, ohne besonderes Wissen in Kryptographie...

Big Data
Blockchain

3.1.2018 | 5 Minuten Lesezeit

Jonas Verhoelen

kibconfig – Wartungstool für Kibana Dashboards

Als wir vor 2 Jahren zu Beginn unseres Projekts damit begannen, unser ELK Logging über Kibana Dashboards zu optimieren, standen wir vor einem Problem: Wie konnten wir unsere für die PP-Umgebung vorbereiteten Dashboards, Visualisierungen und gespeicherten...

NoSQL
APM

12.10.2017 | 3 Minuten Lesezeit

Carsten Rohrbach

Fraud-Analyse mit Data-Science-Techniken

Was ist Fraud und was macht es für Data Science interessant?Im Zusammenhang mit Data Science beschreibt das englische Wort „Fraud“ in der Regel Betrug im Online-, Kreditkarten- oder Versicherungsgeschäft. Betrugsversuche bei Geschäftsabschlüssen gibt...

Big Data
Data
Machine Learning

5.9.2017 | 9 Minuten Lesezeit

Shirin Elsinghorst

Graphen-Visualisierung mit Neo4j

In diesem Artikel möchte ich nach einer kurzen Einführung in die Graphen-Theorie einen Überblick über die NoSQL-Datenbank Neo4j geben. Insbesondere werde ich auf die Möglichkeiten eingehen, die Neo4j bei der Visualisierung von Graphen anbietet.Was ist...

Datenbank
NoSQL

18.6.2017 | 10 Minuten Lesezeit

Tobias Trelle

Datenlookup in Spark Streaming

Bei der Verarbeitung von Streaming-Daten reichen die Rohdaten aus den Events häufig nicht aus. Meist müssen noch zusätzliche Daten hinzugezogen werden, beispielsweise Metadaten zu einem Sensor, von dem im Event nur die ID mitgeschickt wird.In diesem ...

Softwarearchitektur
Scala
Big Data
Data
Streaming

1.6.2017 | 7 Minuten Lesezeit

Matthias Niehoff

Einführung in Hadoop – Was ist Big Data & Hadoop? (Teil 1 von 3)

Was ist Big Data?

Das 3V-Prinzip

Und was ist mit NoSQL?

Nun aber zu Hadoop…

War dieser Beitrag hilfreich?

Blog-Autor*in

Weitere Artikel in diesem Themenbereich

Vom Coding-Assistenten zum Sparringspartner: Die nächste Evolutionsstufe...

Von Inferenz zu Governance: Warum Agent-Metadaten wichtig sind, auch wenn...

Ask Your Data(bricks) mit Natural Language

MotherDuck Dives: Mit natürlicher Sprache zu Live Dashboards

Ibis: Die richtige Execution-Engine wählen, ohne Logik neu zu schreiben

Daten- und KI-Strategie entwickeln: In 7 Schritten zum nachhaltigen Gesch...

Datenanalyse mit MotherDuck und DuckDB: Aus CSV zu Insights in 5 Minuten

5 Gründe, warum wir uns über den Motherduck Launch in AWS Frankfurt freuen

Mit Applied Data Products zum datengetriebenen Unternehmen

Eine Einführung in Federated Learning im industriellen Kontext: Fortgeschritten

Eine Einführung in Federated Learning im industriellen Kontext: Grundlagen

Datenanalyse auf die schnelle Art – mit Amazon Athena und GitLab

Simple Deep Learning mit Amazon SageMaker

Schema First Design – Produktentwicklung mit GraphQL

Deep Learning Workshop bei der codecentric AG in Solingen

BigchainDB – Das leichtgewichtige Blockchain-Framework [blockcentric #...

kibconfig – Wartungstool für Kibana Dashboards

Fraud-Analyse mit Data-Science-Techniken

Graphen-Visualisierung mit Neo4j

Datenlookup in Spark Streaming

Jetzt für unseren Newsletter anmelden