Zero-ETL mit MotherDuck: Ein technischer Deep Dive

7.10.2025 | 5 Minuten Lesezeit

MotherDuck, der auf DuckDB aufbauende Cloud-native Service, verändert grundlegend, wie Unternehmen mit Daten arbeiten, die in Cloud-Object-Stores abgelegt sind. Durch den Wegfall klassischer ETL/ELT-Pipelines ermöglicht MotherDuck direkte SQL-Analysen auf Formaten wie Parquet, JSON und CSV direkt aus Amazon S3, Azure Blob Storage oder Google Cloud Storage, ohne Datenvervielfältigung oder Vorverarbeitung. Dieser Ansatz markiert einen klaren Bruch mit konventionellen Data-Warehouse-Architekturen, in denen Daten vor der Analyse erst kopiert, transformiert und gespeichert werden müssen.

Der Zero-ETL-Ansatz ermöglicht es Organisationen, ihre Daten in ihrem ursprünglichen Format und an ihrem ursprünglichen Ort zu belassen, während analytische Abfragen durchführt werden. Dies eliminiert Datenverdopplung, senkt die Speicherkosten und beseitigt die Latenz, die mit traditionellen ETL-Prozessen verbunden ist. Am wichtigsten ist, dass Datenteams Daten sofort abfragen können, ohne auf Batch-Jobs oder komplexe Pipeline-Orchestrierungen warten zu müssen.

Wie MotherDuck auf Cloud-Daten zugreift

Direkter Dateizugriff

Bei der Ausführung einer Abfrage gegen einen Cloud-Object-Store stellt MotherDuck direkte Verbindungen zum Speicherdienst her und liest ausschließlich die benötigten Datensegmente. Als Beispiel nehmen wir diese Abfrage:

1SELECT customer_id, SUM(order_total) as revenue
2FROM read_parquet('s3://analytics-bucket/orders/*.parquet')
3WHERE order_date >= '2025-01-01'
4GROUP BY customer_id;

MotherDuck kopiert diese Dateien nicht in einen Staging-Bereich oder Zwischenspeicher. Stattdessen nutzt der Service die Table Functions von DuckDB, die native Cloud-Storage-Protokolle unterstützen und direkte Lesezugriffe auf Endpunkte von AWS S3, Azure Blob Storage oder Google Cloud Storage ermöglichen. Persistente HTTP-Verbindungen werden wiederverwendet, um Verbindungsaufwand zu reduzieren und sowohl Latenz als auch Durchsatz zu optimieren. Die Authentifizierung erfolgt über IAM-Rollen, Access Keys oder andere Cloud-native Sicherheitsmechanismen.

Format-Native Processing

Bei Parquet-Dateien nutzt MotherDuck die Struktur des spaltenorientierten Formats, um die Datenübertragung zu minimieren. Bei der Abfrage einer 10 GB großen Parquet-Datei mit 50 Spalten, bei der nur drei Spalten ausgewählt werden, liest MotherDuck nur diese spezifischen Spalten-Chunks direkt aus dem Speicher. Dieses spaltenweise Lesen geschieht auf der Speicherebene durch HTTP Range Requests, nicht nach dem Herunterladen der gesamten Datei. Eine Abfrage, die drei Spalten aus einem 50-Spalten-Datensatz auswählt, reduziert das Volumen der übertragenen Daten drastisch.

Für JSON-Dateien verwendet MotherDuck Stream-Parsing-Strategien, die eine direkte Abfrage von verschachtelten Strukturen ermöglichen:

1SELECT 
2    json_extract_string(data, '$.user.email') as email,
3    CAST(json_extract(data, '$.purchase.amount') AS DECIMAL(10,2)) as amount
4FROM read_json('s3://logs-bucket/events/*.json')
5WHERE json_extract_string(data, '$.event_type') = 'purchase';

Der JSON-Reader erkennt Typen und Spaltennamen automatisch und optimiert die Konvertierung in Vektoren.

Techniken zur Abfrageoptimierung

MotherDuck verwendet Predicate und Projection Pushdown, um die Abfrageleistung weiter zu verbessern. Beide Techniken werden im Folgenden anhand von Beispielen veranschaulicht.

Predicate Pushdown

Predicate Pushdown stellt eine der wirkungsvollsten Optimierungen in der Execution Engine von MotherDuck dar. Anstatt alle Daten zu lesen und danach zu filtern, verschiebt der Service Filteroperationen so nah wie möglich an die Speicherebene. Als Beispiel betrachten wir dieses Szenario mit Parquet-Dateien:

1SELECT COUNT(*) as premium_sales
2FROM read_parquet('s3://sales-data/year=2024/month=*/day=*/*.parquet')
3WHERE sale_amount > 1000 
4    AND product_category = 'Premium';

MotherDuck setzt dabei mehrere Filterebenen ein. Zunächst werden ganze Verzeichnispfade übersprungen, die nicht zu den Abfrageprädikaten passen. Anschließend nutzt die Engine Parquet-Metadaten, insbesondere Min-/Max-Statistiken und, falls verfügbar, Bloom-Filter, um Zeilengruppen zu überspringen, deren Wertebereiche die Filterbedingungen nicht erfüllen. Schließlich verzögert Late Materialization das Laden nicht benötigter Spalten, bis die Filterung abgeschlossen ist. Diese Optimierungen reduzieren das übertragene Datenvolumen erheblich, insbesondere bei sortierten Daten oder bei Abfragen aktueller Partitionen in Zeitreihen.

Projection Pushdown

Projection Pushdown stellt sicher, dass nur die benötigten Spalten aus dem Speicher gelesen werden. Der Execution Planner von MotherDuck identifiziert alle Spalten, die für die Abfrage erforderlich sind, einschließlich jener, die in Filtern, Joins, Aggregationen oder der finalen Projektion verwendet werden.:

1SELECT customer_name, order_date, total_amount, shipping_address, payment_method
2FROM read_parquet('s3://orders-archive/2024/*.parquet')
3WHERE order_status = 'completed'
4    AND total_amount > 100;

Der Optimierer stellt fest, dass er sechs Spalten lesen muss: die fünf in der SELECT-Klausel plus order_status für die Filterung. Er konfiguriert den Parquet-Reader so, dass nur die relevanten Spalten-Chunks per HTTP-Range-Requests geladen werden. Alle übrigen Spalten werden ignoriert, was Netzwerk-Traffic und Speicherverbrauch deutlich reduziert.

Hybrid Execution: Intelligentes Query Routing

Die hybride Architektur von MotherDuck bestimmt automatisch den optimalen Ausführungsort der Abfrage basierend auf Datenlokalität und Rechenanforderungen. Wenn eine Verbindung von einer lokalen DuckDB-Instanz zu MotherDuck hergestellt wird, leitet die Engine Operationen intelligent weiter:

1SELECT 
2    l.product_id,
3    l.local_price,
4    AVG(c.cloud_price) as avg_cloud_price
5FROM read_csv('local_prices.csv') l
6JOIN read_parquet('s3://pricing-data/historical/*.parquet') c
7  ON l.product_id = c.product_id
8GROUP BY l.product_id, l.local_price;

Die Execution Engine führt S3-Lesezugriffe in der Cloud-Umgebung von MotherDuck durch. Lokale CSV-Operationen werden auf dem Client-Rechner ausgeführt. Die Join-Strategie richtet sich nach den relativen Datengrößen: Kleine lokale Tabellen können zur Verarbeitung in die Cloud verschoben werden, während aggregierte Cloud-Ergebnisse für den finalen Join lokal zusammengeführt werden. Auf diese Weise werden unnötige Datenverschiebungen vermieden, ohne die Abfrageleistung zu beeinträchtigen.

Multi-Format Query Federation

MotherDuck kann Daten über verschiedene Formate und Speicherorte hinweg in einer einzigen Abfrage verknüpfen. Parquet-, JSON- und CSV-Quellen lassen sich nahtlos kombinieren:

1SELECT 
2    p.customer_id,
3    p.purchase_amount,
4    json_extract_string(s.session_data, '$.duration') as session_duration
5FROM read_parquet('s3://purchases/2025/*.parquet') p
6JOIN read_json('s3://sessions/2025/*.json') s
7  ON p.session_id = json_extract_string(s.session_data, '$.session_id')
8WHERE p.purchase_date >= '2025-01-01';

Jedes Format wird mit seinem optimalen Zugriffsmuster verarbeitet, während MotherDuck die effizienteste Join-Strategie basierend auf Datengröße und -verteilung auswählt..

Einschränkungen und Überlegungen

Trotz der Vorteile des Zero-ETL-Ansatzes sollten bestimmte Szenarien sorgfältig bewertet werden. Sehr komplexe Transformationen mit mehreren Windowing- und Aggregationsstufen profitieren häufig von materialisierten Zwischenergebnissen. Echtzeit-Streaming-Anwendungsfälle mit sehr niedriger Latenz erfordern weiterhin spezialisierte Streaming-Infrastrukturen. Zudem können regulatorische Anforderungen, etwa zu Datenresidenz oder Audit-Trails von Transformationen, Grenzen für Zero-ETL-Modelle setzen.

Auch das Dateiformat spielt eine entscheidende Rolle. Parquet bietet durch sein spaltenorientiertes Design und umfangreiche Metadaten das größte Optimierungspotenzial, während JSON-Dateien weniger Metadaten enthalten und daher höhere Scan-Volumina verursachen können.

Unternehmen sollten außerdem die Kosten für Netzwerkbandbreite berücksichtigen, insbesondere bei häufigen Abfragen großer Datensätze über Regionen hinweg. Für stark genutzte, transformierte Datensätze kann eine selektive Materialisierung zusätzlich zum Zero-ETL-Ansatz sinnvoll sein, um Performance und Kosten in Balance zu halten, während Ad-hoc-Abfragen weiterhin direkt auf den Rohdaten ausgeführt werden.

Fazit

Die Zero-ETL-Fähigkeiten von MotherDuck stellen eine interessante Alternative für die Cloud-Datenanalyse-Architektur dar. Indem Cloud-Speicher als direkt abfragbare Datenquelle behandelt werden und Pushdown-Optimierungen integriert sind, verschwimmen die Grenzen zwischen Datenspeicherung und Datenverarbeitung. Durch Predicate Pushdown, Projection Pushdown und hybride Ausführung entsteht ein System, in dem große Datensätze nahezu so zugänglich sind wie lokale Datenbanken.

Für Unternehmen, die ihre Datenarchitektur neu bewerten, bietet MotherDuck eine Alternative zu traditionellen ETL-Pipelines. Die Fähigkeit, Daten direkt dort abzufragen, wo sie sich befinden, in ihrem nativen Format, mit vollen SQL-Fähigkeiten und automatischen Optimierungen, vereinfacht den gesamten Analyse-Stack. Dies bietet eine Möglichkeit, die Datenarchitektur zu überdenken und Analysen unmittelbarer, flexibler und für das gesamte Unternehmen zugänglicher zu machen. Da die Datenmengen weiter wachsen und Echtzeit-Analysen immer wichtiger werden, kann der Zero-ETL-Ansatz helfen, künftige Skalierungsanforderungen ohne die Komplexität klassischer Pipeline-Architekturen zu bewältigen.

War dieser Beitrag hilfreich?

Beitrag teilen

Blog-Autor*in

Hendrik Kamp

IT Consultant

Du hast noch Fragen zu diesem Thema? Dann sprich mich einfach an.

Vom Datenschatz zum Erkenntnissystem: Ein Multi‑Agenten‑Ansatz mit LLMs

Dieser Artikel ist der zweite Teil meiner Erfahrungen mit Projekten bei denen wir LLMs in Umgebungen mit großen, chaotischen Daten eingesetzt haben. Den ersten Teil findet ihr hier. Viele Unternehmen sitzen auf einem enormen Datenschatz – und können ...

LLM
Data
Data Science
Künstliche Intelligenz
NLP
Generative KI

29.10.2025 | 4 Minuten Lesezeit

Daniel Töws

LLMs im Data Engineering: Wie wir chaotische Daten in verlässliche Ergebnisse...

Wer mit Daten arbeitet, kennt den Frust: Dateien, die sich nicht an ihr eigenes Schema halten. CSVs, deren Spalten plötzlich mehrere Werte mit zusätzlichen Trennzeichen enthalten. Datenlager, in denen Tausende Tabellen existieren – mit unvollständiger...

LLM
Data
Künstliche Intelligenz
NLP
Generative KI

27.10.2025 | 6 Minuten Lesezeit

Daniel Töws

DuckDBs Friendly SQL ist ein Game Changer für die Developer Experience

Ich denke nicht, dass irgendjemand überrascht sein wird, wenn ich sage, dass SQL nicht die angenehmste Sprache zum Arbeiten ist. Manche würden sogar so weit gehen zu sagen, dass die Ergonomie von SQL furchtbar ist. Insbesondere bei großen und komplexen...

Data
MotherDuck

14.10.2025 | 11 Minuten Lesezeit

Lennart Hensler

Datenanalyse mit MotherDuck und DuckDB: Aus CSV zu Insights in 5 Minuten

CSV-Dateien sind der ewige Klassiker im Datenaustausch. Auch wenn modernere Formate wie JSON und Parquet ihren Platz erobern, bleiben die einfachen, aber robusten Comma Separated Values das Rückgrat vieler Daten-Workflows. Aber Hand aufs Herz: Wer hat...

Data
Datenbank
MotherDuck
Big Data

30.9.2025 | 7 Minuten Lesezeit

Christian Galsterer

5 Gründe, warum wir uns über den Motherduck Launch in AWS Frankfurt freuen

Hinweis: Dieser Blog-Post wurde mit LLM-unterstützung von Englisch auf Deutsch übersetzt. Seit einiger Zeit besteht für europäische Datenteams die zentrale Herausforderung darin, Innovation mit strenger Regulierung in Einklang zu bringen. Häufig erscheinen...

Data
Big Data
Datenbank
News
MotherDuck

24.9.2025 | 5 Minuten Lesezeit

Marcel Mikl

Erstes Data Engineering Projekt mit Databricks Asset Bundles und GitLab...

Einleitung In diesem Artikel geht es um das Aufsetzen eines Datenprojekts mit Databricks Asset Bundles. Wir schauen uns das Basis Setup an und eine typische Projektstruktur, gehen anschließend auf einige wichtige Details und mögliche Stolpersteine und...

Data

15.6.2025 | 10 Minuten Lesezeit

Denis Khaskin

Kategorisierung von Schnittstellen: Data Interface Quadrants (DIQs)

In der heutigen schnelllebigen und datengesteuerten Welt stehen Unternehmen vor einer zunehmend komplexen Herausforderung: Wie können Datenschnittstellen so gestaltet, implementiert und verwaltet werden, dass sie sowohl den unmittelbaren betrieblichen...

API
Data

30.1.2025 | 9 Minuten Lesezeit

Daniel Kocot

Miriam Greis

Lessons learned: Was wir in einem Jahr ML Orchestrierung mit Dagster gelernt...

In einem gemeinsamen Projekt haben Tom Scholz und ich Machine Learning (ML) Services gebaut, um einem Kunden bei der Analyse von Dokumenten zu helfen. Eine Proof-Of-Concept Lösung war schnell gebaut, die es nun zu operationalisieren gilt. Hierbei war...

Machine Learning
Python
Data
Data Science

12.9.2024 | 27 Minuten Lesezeit

Patrick Soschinski

Tom Scholz

When Business Meets Technology: Vom Datenprodukt zur Datenarchitektur ...

Zusammenfassung Der Data Product Canvas (DPC) ist ein Werkzeug für die leichtgewichtige und iterative Konzeption von Datenprodukten. Dabei steigert er die Effizienz der Produktdefinition, indem er die wesentlichen Einflussbereiche auf Datenprodukte übersichtlich...

Softwarearchitektur
Data
DDD
Digitale Produktentwicklung

6.8.2024 | 21 Minuten Lesezeit

Daniel Engelhardt

Dr. Florian Rademacher

Charge your APIs Volume 28: Verbesserung von Anwendungs- und Datenintegration...

In der heutigen schnelllebigen Welt ist die nahtlose Integration von Anwendungen und Daten entscheidend für den Erfolg eines Unternehmens. In diesem Blogpost werden Konzepte wie die Maslowsche Pyramide, Team Topologies, evolutionäre Architekturen, API...

API
Data
Integration

25.7.2024 | 9 Minuten Lesezeit

Daniel Kocot

Mit Applied Data Products zum datengetriebenen Unternehmen

In den letzten Jahren ist der Hype um den Wert von Daten kontinuierlich gestiegen. Gleichzeitig sind eine Vielzahl von Konzepten und Methoden aufgekommen, wie man als Unternehmen "datengetrieben" werden kann. Vom strategischen Top-Management bis zum ...

Agilität
Big Data
Data
Produktmanagement
Digitalisierung
Data Science
Business Intelligence

18.5.2024 | 8 Minuten Lesezeit

Dr. Florian Rademacher

Stephan Hochhaus

Green Cloud: Daten und Emissionen sparen

Das Internet produziert jährlich 900 Millionen Tonnen CO₂ – das ist deutlich mehr als Deutschland insgesamt emittiert. Hauptverantwortlich ist der immer weiter steigende Stromverbrauch beim Transport und der Speicherung von Daten. Wenn ihr kurz darüber...

Cloud
Green IT
Softwarearchitektur
Data

11.3.2024 | 5 Minuten Lesezeit

Dennis

Charge your APIs Volume 23: REST vs. gRPC

APIs dienen als Verbindungsstück zwischen Daten und Verarbeitung und erlauben uns damit, Daten im richtigen Kontext als Informationen zu interpretieren. Passende fachliche Themen sind dabei präsenter denn je und erreichen bald auch den Endverbraucher...

Java
Softwareentwicklung
Spring
Softwarearchitektur
API
Data

11.2.2024 | 7 Minuten Lesezeit

Sebastian Tiemann

Eine Einführung in Federated Learning im industriellen Kontext: Fortgeschritten

Im Bereich des maschinellen Lernens wurde eine lange Zeit angenommen, dass die Eingabedaten von Modellen und Gewichten sicher sei und nicht extrahiert werden könnten. In den letzten Jahren veröffentlichte Forschung hat diese Annahme in Frage gestellt...

Machine Learning
Big Data
Data Science
Data

18.9.2023 | 8 Minuten Lesezeit

Ihsan Kisi

Eine Einführung in Federated Learning im industriellen Kontext: Grundlagen

Mithilfe von Daten können Unternehmen fundiertere Entscheidungen treffen, ihre Arbeitsabläufe optimieren und mit der Kraft des maschinellen Lernens (ML) einen Vorteil in der wettbewerbsintensiven Geschäftswelt erlangen. Allerdings ist der Umgang mit ...

Machine Learning
Data Science
Data
Big Data

25.8.2023 | 7 Minuten Lesezeit

Ihsan Kisi

Bessere SQL-Datenpipelines mit dbt

SQL ist weiterhin aus der Datenanalyse nicht wegzudenken – es ist vergleichsweise einfach zu lernen und Anwender können es ohne zusätzliche Werkzeuge auf einer Datenbank ausführen. Entsprechend ist es bei vielen Datenanalysten und Engineers beliebt. ...

Data

22.2.2023 | 2 Minuten Lesezeit

Matthias Niehoff

Streaming Wikipedia mit Apache Kafka

Apache Kafka ist in aller Munde und entwickelt sich im Kontext von verteilten Systemen zum De-facto-Standard als Plattform für Event Streaming. Im Rahmen unserer OffProject Time (Weiterbildungszeit) haben wir uns die Plattform auch näher angeschaut und...

Kotlin
Data
Java
Messaging
Spring

15.8.2022 | 10 Minuten Lesezeit

Christoph Metzger

Felix Rieß

Einführung in die Welt der Tourenoptimierung – Echte Routen und realistischere...

In diesem Artikel möchte ich euch mit einem Python Jupyter Notebook zeigen, wie ihr Anwendungsfälle der Tourenoptimierung inklusive Nebenbedingungen lösen und visualisieren könnt. Außerdem zeige ich euch, wie ihr mit OpenStreetMaps die Route zwischen...

Data

21.6.2022 | 7 Minuten Lesezeit

Lukas Heidemann

Einführung in die Welt der Tourenoptimierung – Visualisierung und Lösungsverfahren...

In diesem Artikel möchte ich euch zeigen, wie ihr Probleme der Tourenoptimierung in einem Python Jupyter Notebook lösen und visualisieren könnt. Am Beispiel eines Fahrradkurierdienst zeige ich außerdem, wie das Grundproblem um gängige Nebenbedingungen...

Data

16.6.2022 | 9 Minuten Lesezeit

Lukas Heidemann

Einführung in die Welt der Tourenoptimierung (1/3)

In vielen Unternehmen fallen täglich verschiedene Transportprozesse an. Klassische Beispiele sind die Optimierung von Warenein- und ausgängen, die Einsatzplanung von Servicetechnikern oder die optimale Reihenfolge der Auslieferung bei Lieferdiensten....

Data

12.6.2022 | 8 Minuten Lesezeit

Lukas Heidemann

Zero-ETL mit MotherDuck: Ein technischer Deep Dive

Wie MotherDuck auf Cloud-Daten zugreift

Direkter Dateizugriff

Format-Native Processing

Techniken zur Abfrageoptimierung

Predicate Pushdown

Projection Pushdown

Hybrid Execution: Intelligentes Query Routing

Multi-Format Query Federation

Einschränkungen und Überlegungen

Fazit

War dieser Beitrag hilfreich?

Blog-Autor*in

Weitere Artikel in diesem Themenbereich

Vom Datenschatz zum Erkenntnissystem: Ein Multi‑Agenten‑Ansatz mit LLMs

LLMs im Data Engineering: Wie wir chaotische Daten in verlässliche Ergebnisse...

DuckDBs Friendly SQL ist ein Game Changer für die Developer Experience

Datenanalyse mit MotherDuck und DuckDB: Aus CSV zu Insights in 5 Minuten

5 Gründe, warum wir uns über den Motherduck Launch in AWS Frankfurt freuen

Erstes Data Engineering Projekt mit Databricks Asset Bundles und GitLab...

Kategorisierung von Schnittstellen: Data Interface Quadrants (DIQs)

Lessons learned: Was wir in einem Jahr ML Orchestrierung mit Dagster gelernt...

When Business Meets Technology: Vom Datenprodukt zur Datenarchitektur ...

Charge your APIs Volume 28: Verbesserung von Anwendungs- und Datenintegration...

Mit Applied Data Products zum datengetriebenen Unternehmen

Green Cloud: Daten und Emissionen sparen

Charge your APIs Volume 23: REST vs. gRPC

Eine Einführung in Federated Learning im industriellen Kontext: Fortgeschritten

Eine Einführung in Federated Learning im industriellen Kontext: Grundlagen

Bessere SQL-Datenpipelines mit dbt

Streaming Wikipedia mit Apache Kafka

Einführung in die Welt der Tourenoptimierung – Echte Routen und realistischere...

Einführung in die Welt der Tourenoptimierung – Visualisierung und Lösungsverfahren...

Einführung in die Welt der Tourenoptimierung (1/3)

Jetzt für unseren Newsletter anmelden