Ibis: Die richtige Execution-Engine wählen, ohne Logik neu zu schreiben

10.2.2026 | 6 Minuten Lesezeit

Ibis: Die richtige Ausführungs-Engine wählen, ohne Logik neu zu schreiben

In unseren bisherigen Benchmarks hat DuckDB bei großen analytischen Workloads Polars und Pandas durchgängig übertroffen. Doch reine Performancevergleiche übersehen eine entscheidende Frage: Was passiert, wenn Sie von lokaler DuckDB-Entwicklung in eine BigQuery-Produktionsumgebung wechseln müssen oder eine komplette Datenplattform von Spark zu Snowflake migrieren? Transformationslogik neu zu schreiben, nur weil sich die Infrastruktur ändert, ist teuer – und vermeidbar.

Moderne analytische Engines sind äußerst leistungsfähig. Sobald jedoch mehrere Tools sich in der Praxis als „schnell genug“ erweisen, verschiebt sich die eigentliche technische Herausforderung von reiner Geschwindigkeit hin zu Flexibilität. Datenteams prototypisieren lokal, deployen in Cloud-Warehouses und migrieren später Plattformen aus Kosten-, Skalierungs- oder Betriebsgründen. Ist analytische Logik eng an eine bestimmte Engine gekoppelt, verschlingen solche Übergänge Hunderte von Engineering-Stunden – selbst dann, wenn die zugrunde liegende Berechnung konzeptionell identisch bleibt.

Dieser Artikel zeigt, wie Ibis analytische Intention von der Ausführungs-Engine entkoppelt. So können Teams Transformationslogik einmal schreiben und über verschiedene Backends hinweg ausführen, ohne kostspielige Neuschreibungen. Anstatt ausschließlich über Performance zu konkurrieren, setzt Ibis auf Portabilität, Wartbarkeit und architektonische Anpassungsfähigkeit.

Das Portabilitätsproblem: Wenn Datenbanken nicht dieselbe Sprache sprechen

Data Engineering bewegt sich in zwei dominanten Paradigmen: Python-DataFrames und SQL. Beide leiden unter demselben strukturellen Problem: Jedes Datenbanksystem stellt eigene APIs und eigene SQL-Dialekte bereit. Diese Fragmentierung schafft konkrete Portabilitätshürden.

Solche Unterschiede summieren sich schnell. Ein Team, das mehrere SQL-Pipelines migriert, verbringt möglicherweise Wochen damit, dialektspezifische Abfragen umzuschreiben, Edge Cases zu testen und subtile semantische Unterschiede zu debuggen. Ibis begegnet diesem Problem, indem es eine konsistente Schnittstelle zur Formulierung analytischer Intention bietet und diese automatisch in backend-spezifische Implementierungen übersetzt.

Historischer Kontext

Pandas wurde 2008 für interaktive In-Memory-Analysen von Datensätzen entwickelt, die in den Arbeitsspeicher passen. Mit dem Wachstum analytischer Workloads hin zu Multi-Terabyte-Daten und verteilter Ausführung wurde die enge Kopplung von Pandas-API und eager Execution zunehmend zur Einschränkung.

Ibis wurde entwickelt, um genau dieses Problem zu adressieren, indem analytische Intention von der Ausführungsstrategie getrennt wird – ein Ansatz, der von dplyr und dem R-Ökosystem inspiriert ist, aus dem die DataFrame-Abstraktion ursprünglich stammt.

Warum die Entkopplung von Logik und Ausführung wichtig ist

Ibis basiert auf einem zentralen architektonischen Prinzip: Analytische Intention sollte unabhängig von der Ausführungs-Engine definiert werden. Diese Trennung liefert konkreten technischen und geschäftlichen Mehrwert. Logik, die eng an die Produktionsinfrastruktur gekoppelt ist, lässt sich lokal nur schwer testen. Engineers warten auf CI/CD-Pipelines oder entwickeln gegen teure Cloud-Sandboxes.

Portable Abfragen laufen identisch auf lokalem DuckDB und in produktivem BigQuery. Das ermöglicht schnelle Iteration mit der Sicherheit, dass lokale Ergebnisse dem Produktionsverhalten entsprechen. Gleichzeitig erlaubt portable Abfragelogik Teams, Infrastrukturentscheidungen hinsichtlich Kosten, Performance, Skalierung oder Compliance zu optimieren, ohne analytische Workflows zu unterbrechen – selbst wenn Systeme sich über lokale Rechner, Cloud-Warehouses und verteilte Compute-Plattformen erstrecken.

Ibis: Eine backend-agnostische DataFrame-API

Ibis stellt eine DataFrame-ähnliche API bereit, die unabhängig von einer konkreten Ausführungs-Engine konzipiert ist. Die Syntax ähnelt Pandas, die Operationen werden jedoch nicht eager ausgeführt. Stattdessen baut Ibis eine symbolische Repräsentation der Abfrage auf.

In vielen lokalen Setups nutzt Ibis standardmäßig DuckDB als eingebettetes Backend, was Experimente und Prototyping erleichtert. Dieselbe Abfragelogik kann später mit minimalen Änderungen auf verteilten Systemen oder Cloud-Warehouses ausgeführt werden.

1import ibis
2
3con = ibis.connect("duckdb://")
4t = con.read_csv("data.csv")
5
6expr = (
7    t.filter(t.value > 100)
8     .group_by(t.category)
9     .aggregate(total=t.value.sum())
10)
11
12expr.execute()

Ibis führt Operationen nicht eager aus. Es findet keine Berechnung statt, bis execute() aufgerufen wird. Bis dahin erstellt Ibis lediglich eine symbolische Darstellung der beabsichtigten Transformation.

Ausführungsmodell: Was Ibis tut – und was nicht

Ibis führt Abfragen nicht selbst aus. Es fungiert als Abfrage-Compiler, der DataFrame-Operationen in backend-spezifisches SQL übersetzt und die Ausführung vollständig an die Ziel-Engine delegiert. Query Planning, Optimierung und Ausführung übernimmt das Backend (DuckDB, BigQuery, Spark usw.).

Die Performance von Ibis ist damit effektiv die Performance von DuckDB (oder BigQuery, oder Snowflake). Die Übersetzungsschicht verursacht nur minimalen Overhead. Sobald das SQL generiert ist, hängt die Ausführungsgeschwindigkeit vollständig von den Fähigkeiten des Backends ab.

Nicht alle Backends unterstützen alle Operationen. Ibis pflegt eine Kompatibilitätsmatrix, die zeigt, welche Operationen auf welchen Engines verfügbar sind. In der Praxis werden gängige analytische Operationen (Filter, Aggregationen, Joins, Window Functions) von den meisten großen Backends gut unterstützt.

Portabilität als Kernfeature

Der Wechsel der Ausführungs-Engine erfordert lediglich eine Anpassung der Verbindungskonfiguration:

1ibis.connect("duckdb://")
2ibis.connect("polars://")
3ibis.connect("pyspark://")
4ibis.connect("bigquery://")

Der Reifegrad der Backends variiert, die Abstraktion bleibt jedoch konsistent. Ein Workflow kann lokal mit DuckDB entwickelt und später ohne Neuschreiben der Transformationslogik auf BigQuery oder Spark ausgeführt werden.

SQL-Generierung und Dialektübersetzung

Die meisten Ibis-Backends generieren SQL und nutzen SQLGlot für die Übersetzung zwischen SQL-Dialekten. SQLGlot passt Abfragen an die Syntax der Ziel-Engine an, während die eigentliche Optimierung Aufgabe der Datenbank bleibt.

Zur Transparenz und zum Debugging erlaubt Ibis die Inspektion des generierten SQL:

1print(ibis.to_sql(expr))

DataFrame-Ausdrücke lassen sich bei Bedarf mit rohem SQL kombinieren und bieten so „Escape Hatches“, wenn die Abstraktion für spezielle Anwendungsfälle nicht ausreicht.

Apache Arrow und Interoperabilität

Die Unterstützung mehrerer Backends wäre ohne Apache Arrow deutlich schwieriger. Arrow ist ein standardisiertes In-Memory-Spaltenformat, das einen effizienten Datenaustausch zwischen Engines und Client-Bibliotheken ermöglicht.

Arrow erlaubt Zero-Copy-Konvertierungen, wenn Engines kompatible Speicherlayouts verwenden, etwa DuckDB ↔ Polars oder PyArrow ↔ DuckDB. Daten können zwischen Systemen übergeben werden, ohne serialisiert oder kopiert zu werden, was den Overhead drastisch reduziert.

Konvertierungen nach Pandas erfordern aufgrund des auf NumPy basierenden Speichermodells oft weiterhin Kopien. Die Pandas-2.x-Serie führte optionale Arrow-basierte Datentypen (pd.ArrowDtype) ein, die Zero-Copy-Interoperabilität ermöglichen, jedoch ein explizites Opt-in erfordern.

Für Endnutzer meist unsichtbar, ist Arrow ein grundlegender Baustein, der es Ibis ermöglicht, Daten effizient zwischen Backends zu bewegen.

Developer Experience

Ibis integriert sich nahtlos in gängige Python-Workflows:

Tabellen lassen sich mit .to_pandas(), .to_polars() oder .to_pyarrow() konvertieren
Abfragen sind standardmäßig lazy; .execute() startet die Berechnung
DataFrame-Ausdrücke lassen sich frei mit rohem SQL über die .sql()-Methode kombinieren
Python-Testframeworks (pytest, unittest) können analytische Logik lokal validieren

Reifegrad und Ökosystem

Ibis ist ein ausgereiftes, produktionstaugliches Projekt mit Unterstützung durch Voltron Data (das Unternehmen hinter Apache Arrow). Ursprünglich 2015 von Wes McKinney (dem Erfinder von Pandas) geschaffen, wird Ibis seit fast einem Jahrzehnt aktiv weiterentwickelt.

Unternehmensunterstützung: Voltron Data stellt dedizierte Engineering-Ressourcen
Community: Aktive Entwicklergemeinschaft, responsive Maintainer, regelmäßige Releases
Produktionseinsatz: Genutzt u. a. von Bloomberg, RStudio/Posit und verschiedenen Datenteams
Backend-Support: 20+ Backends mit unterschiedlichem Reifegrad (DuckDB, BigQuery, Snowflake, Postgres, Spark sind gut unterstützt)

Ibis bietet damit produktionsreife Stabilität und ein ausgereiftes Ökosystem und ist eine verlässliche Wahl für Anforderungen an analytische Portabilität.

Fazit

Unsere Benchmarks zeigten, dass DuckDB bei großen analytischen Workloads Polars und Pandas durchgängig übertrifft. Doch Performance allein entscheidet nicht über den architektonischen Erfolg.

Datenteams prototypisieren lokal, deployen in Cloud-Warehouses und migrieren Plattformen aus Kosten-, Skalierungs- oder Betriebsgründen. Ist analytische Logik eng an Ausführungs-Engines gekoppelt, verschlingen diese Übergänge Hunderte von Engineering-Stunden – selbst wenn die zugrunde liegende Berechnung identisch bleibt.

Ibis begegnet diesem Problem durch die Entkopplung analytischer Intention von der Ausführungslogik. Es bietet eine ausgereifte, backend-agnostische DataFrame-API mit Unterstützung durch Voltron Data, mit der Teams Transformationslogik einmal schreiben und über mehr als 20 verschiedene Backends ausführen können – von lokalem DuckDB bis hin zu produktivem BigQuery, Snowflake oder Spark-Clustern.

Ibis ersetzt DuckDB, Polars oder Spark nicht – es erweitert deren Nutzen. Es ermöglicht Engineers zu entscheiden, wann und wo diese Engines laufen. Dieselbe lokal auf DuckDB entwickelte Abfragelogik kann ohne Änderungen nach BigQuery deployt werden. Analytische Anwendungen können mehrere Kundenumgebungen unterstützen, ohne separate Codebasen für jede Plattform pflegen zu müssen.

War dieser Beitrag hilfreich?

Beitrag teilen

Blog-Autor*in

Niklas Niggemann

Werkstudent Data & AI

Du hast noch Fragen zu diesem Thema? Dann sprich mich einfach an.

DuckDB vs. Polars: Performance & Memory bei großen Parquet Dateien

Update 02.02.26 – Nach hilfreichen Hinweisen des Polars-Teams auf LinkedIn haben wir unser Benchmark-Setup um eine Polars-Konfiguration erweitert, bei der Async erzwungen wird. Dies wird im Artikel näher erläutert. Unser vorheriger Benchmark verglich...

MotherDuck
Data Science
Data

20.1.2026 | 14 Minuten Lesezeit

Niklas Niggemann

Reifegradanalyse & Roadmap: Der Kompass für deine wirksame Daten- und ...

Dies ist Teil 2 unserer Blog-Serie: 7 Schritte zur wertstiftenden Daten- und KI-Strategie. Den ersten Teil der Blog-Serie könnt ihr hier lesen. Wie können wir die Möglichkeiten von Daten und KI bei uns voll ausschöpfen? Diese Frage hören wir in fast ...

Data
Data Science
Künstliche Intelligenz
Generative KI

10.12.2025 | 5 Minuten Lesezeit

Shirin Elsinghorst

Elena Rüdenauer

7 Schritte zur wertstiftenden Daten- und KI-Strategie: RRW-DECKO-Ansatz

Die erwarteten Wertbeiträge von Daten und KI sind groß – McKinsey (2023) schätzt das globale Potenzial auf bis zu 25,6 Billionen US-Dollar. Gleichzeitig berichten viele Unternehmen, mit denen wir sprechen, von ähnlichen Herausforderungen. Und dies best...

Data
Data Science
Datenschutz
Big Data
Generative KI
Künstliche Intelligenz

2.12.2025 | 6 Minuten Lesezeit

Shirin Elsinghorst

Elena Rüdenauer

DuckDB vs. DataFrame Bibliotheken

Hinweis: Der folgende Artikel wurde auf Englisch erstellt und nachträglich maschinell auf Deutsch übersetzt. Update 10.12.25 – Nach hilfreichen Hinweisen von Polars-Entwickler Thijs Nieuwdorp nach der ersten Veröffentlichung dieses Artikels konnten ...

MotherDuck
Data
Data Science
Python
Datenbank

1.12.2025 | 10 Minuten Lesezeit

Niklas Niggemann

Vom Datenschatz zum Erkenntnissystem: Ein Multi‑Agenten‑Ansatz mit LLMs

Dieser Artikel ist der zweite Teil meiner Erfahrungen mit Projekten bei denen wir LLMs in Umgebungen mit großen, chaotischen Daten eingesetzt haben. Den ersten Teil findet ihr hier. Viele Unternehmen sitzen auf einem enormen Datenschatz – und können ...

LLM
Data
Data Science
Künstliche Intelligenz
NLP
Generative KI

29.10.2025 | 4 Minuten Lesezeit

Daniel Töws

LLMs im Data Engineering: Wie wir chaotische Daten in verlässliche Ergebnisse...

Wer mit Daten arbeitet, kennt den Frust: Dateien, die sich nicht an ihr eigenes Schema halten. CSVs, deren Spalten plötzlich mehrere Werte mit zusätzlichen Trennzeichen enthalten. Datenlager, in denen Tausende Tabellen existieren – mit unvollständiger...

LLM
Data
Künstliche Intelligenz
NLP
Generative KI

27.10.2025 | 6 Minuten Lesezeit

Daniel Töws

DuckDBs Friendly SQL ist ein Game Changer für die Developer Experience

Ich denke nicht, dass irgendjemand überrascht sein wird, wenn ich sage, dass SQL nicht die angenehmste Sprache zum Arbeiten ist. Manche würden sogar so weit gehen zu sagen, dass die Ergonomie von SQL furchtbar ist. Insbesondere bei großen und komplexen...

Data
MotherDuck

14.10.2025 | 11 Minuten Lesezeit

Lennart Hensler

Zero-ETL mit MotherDuck: Ein technischer Deep Dive

MotherDuck, der auf DuckDB aufbauende Cloud-native Service, verändert grundlegend, wie Unternehmen mit Daten arbeiten, die in Cloud-Object-Stores abgelegt sind. Durch den Wegfall klassischer ETL/ELT-Pipelines ermöglicht MotherDuck direkte SQL-Analysen...

MotherDuck
Data

7.10.2025 | 5 Minuten Lesezeit

Hendrik Kamp

Datenanalyse mit MotherDuck und DuckDB: Aus CSV zu Insights in 5 Minuten

CSV-Dateien sind der ewige Klassiker im Datenaustausch. Auch wenn modernere Formate wie JSON und Parquet ihren Platz erobern, bleiben die einfachen, aber robusten Comma Separated Values das Rückgrat vieler Daten-Workflows. Aber Hand aufs Herz: Wer hat...

Data
Datenbank
MotherDuck
Big Data

30.9.2025 | 7 Minuten Lesezeit

Christian Galsterer

5 Gründe, warum wir uns über den Motherduck Launch in AWS Frankfurt freuen

Hinweis: Dieser Blog-Post wurde mit LLM-unterstützung von Englisch auf Deutsch übersetzt. Seit einiger Zeit besteht für europäische Datenteams die zentrale Herausforderung darin, Innovation mit strenger Regulierung in Einklang zu bringen. Häufig erscheinen...

Data
Big Data
Datenbank
News
MotherDuck

24.9.2025 | 5 Minuten Lesezeit

Marcel Mikl

Erstes Data Engineering Projekt mit Databricks Asset Bundles und GitLab...

Einleitung In diesem Artikel geht es um das Aufsetzen eines Datenprojekts mit Databricks Asset Bundles. Wir schauen uns das Basis Setup an und eine typische Projektstruktur, gehen anschließend auf einige wichtige Details und mögliche Stolpersteine und...

Data

15.6.2025 | 10 Minuten Lesezeit

Denis Khaskin

Kategorisierung von Schnittstellen: Data Interface Quadrants (DIQs)

In der heutigen schnelllebigen und datengesteuerten Welt stehen Unternehmen vor einer zunehmend komplexen Herausforderung: Wie können Datenschnittstellen so gestaltet, implementiert und verwaltet werden, dass sie sowohl den unmittelbaren betrieblichen...

API
Data

30.1.2025 | 9 Minuten Lesezeit

Daniel Kocot

Miriam Greis

Lessons learned: Was wir in einem Jahr ML Orchestrierung mit Dagster gelernt...

In einem gemeinsamen Projekt haben Tom Scholz und ich Machine Learning (ML) Services gebaut, um einem Kunden bei der Analyse von Dokumenten zu helfen. Eine Proof-Of-Concept Lösung war schnell gebaut, die es nun zu operationalisieren gilt. Hierbei war...

Machine Learning
Python
Data
Data Science

12.9.2024 | 27 Minuten Lesezeit

Patrick Soschinski

Tom Scholz

When Business Meets Technology: Vom Datenprodukt zur Datenarchitektur ...

Zusammenfassung Der Data Product Canvas (DPC) ist ein Werkzeug für die leichtgewichtige und iterative Konzeption von Datenprodukten. Dabei steigert er die Effizienz der Produktdefinition, indem er die wesentlichen Einflussbereiche auf Datenprodukte übersichtlich...

Softwarearchitektur
Data
DDD
Digitale Produktentwicklung

6.8.2024 | 21 Minuten Lesezeit

Daniel Engelhardt

Dr. Florian Rademacher

Charge your APIs Volume 28: Verbesserung von Anwendungs- und Datenintegration...

In der heutigen schnelllebigen Welt ist die nahtlose Integration von Anwendungen und Daten entscheidend für den Erfolg eines Unternehmens. In diesem Blogpost werden Konzepte wie die Maslowsche Pyramide, Team Topologies, evolutionäre Architekturen, API...

API
Data
Integration

25.7.2024 | 9 Minuten Lesezeit

Daniel Kocot

Mit Applied Data Products zum datengetriebenen Unternehmen

In den letzten Jahren ist der Hype um den Wert von Daten kontinuierlich gestiegen. Gleichzeitig sind eine Vielzahl von Konzepten und Methoden aufgekommen, wie man als Unternehmen "datengetrieben" werden kann. Vom strategischen Top-Management bis zum ...

Agilität
Big Data
Data
Produktmanagement
Digitalisierung
Data Science
Business Intelligence

18.5.2024 | 8 Minuten Lesezeit

Dr. Florian Rademacher

Stephan Hochhaus

Green Cloud: Daten und Emissionen sparen

Das Internet produziert jährlich 900 Millionen Tonnen CO₂ – das ist deutlich mehr als Deutschland insgesamt emittiert. Hauptverantwortlich ist der immer weiter steigende Stromverbrauch beim Transport und der Speicherung von Daten. Wenn ihr kurz darüber...

Cloud
Green IT
Softwarearchitektur
Data

11.3.2024 | 5 Minuten Lesezeit

Dennis

Charge your APIs Volume 23: REST vs. gRPC

APIs dienen als Verbindungsstück zwischen Daten und Verarbeitung und erlauben uns damit, Daten im richtigen Kontext als Informationen zu interpretieren. Passende fachliche Themen sind dabei präsenter denn je und erreichen bald auch den Endverbraucher...

Java
Softwareentwicklung
Spring
Softwarearchitektur
API
Data

11.2.2024 | 7 Minuten Lesezeit

Sebastian Tiemann

Eine Einführung in Federated Learning im industriellen Kontext: Fortgeschritten

Im Bereich des maschinellen Lernens wurde eine lange Zeit angenommen, dass die Eingabedaten von Modellen und Gewichten sicher sei und nicht extrahiert werden könnten. In den letzten Jahren veröffentlichte Forschung hat diese Annahme in Frage gestellt...

Machine Learning
Big Data
Data Science
Data

18.9.2023 | 8 Minuten Lesezeit

Ihsan Kisi

Eine Einführung in Federated Learning im industriellen Kontext: Grundlagen

Mithilfe von Daten können Unternehmen fundiertere Entscheidungen treffen, ihre Arbeitsabläufe optimieren und mit der Kraft des maschinellen Lernens (ML) einen Vorteil in der wettbewerbsintensiven Geschäftswelt erlangen. Allerdings ist der Umgang mit ...

Machine Learning
Data Science
Data
Big Data

25.8.2023 | 7 Minuten Lesezeit

Ihsan Kisi

Ibis: Die richtige Execution-Engine wählen, ohne Logik neu zu schreiben

Ibis: Die richtige Ausführungs-Engine wählen, ohne Logik neu zu schreiben

Das Portabilitätsproblem: Wenn Datenbanken nicht dieselbe Sprache sprechen

Historischer Kontext

Warum die Entkopplung von Logik und Ausführung wichtig ist

Ibis: Eine backend-agnostische DataFrame-API

Ausführungsmodell: Was Ibis tut – und was nicht

Portabilität als Kernfeature

SQL-Generierung und Dialektübersetzung

Apache Arrow und Interoperabilität

Developer Experience

Reifegrad und Ökosystem

Fazit

War dieser Beitrag hilfreich?

Blog-Autor*in

Weitere Artikel in diesem Themenbereich

DuckDB vs. Polars: Performance & Memory bei großen Parquet Dateien

Reifegradanalyse & Roadmap: Der Kompass für deine wirksame Daten- und ...

7 Schritte zur wertstiftenden Daten- und KI-Strategie: RRW-DECKO-Ansatz

DuckDB vs. DataFrame Bibliotheken

Vom Datenschatz zum Erkenntnissystem: Ein Multi‑Agenten‑Ansatz mit LLMs

LLMs im Data Engineering: Wie wir chaotische Daten in verlässliche Ergebnisse...

DuckDBs Friendly SQL ist ein Game Changer für die Developer Experience

Zero-ETL mit MotherDuck: Ein technischer Deep Dive

Datenanalyse mit MotherDuck und DuckDB: Aus CSV zu Insights in 5 Minuten

5 Gründe, warum wir uns über den Motherduck Launch in AWS Frankfurt freuen

Erstes Data Engineering Projekt mit Databricks Asset Bundles und GitLab...

Kategorisierung von Schnittstellen: Data Interface Quadrants (DIQs)

Lessons learned: Was wir in einem Jahr ML Orchestrierung mit Dagster gelernt...

When Business Meets Technology: Vom Datenprodukt zur Datenarchitektur ...

Charge your APIs Volume 28: Verbesserung von Anwendungs- und Datenintegration...

Mit Applied Data Products zum datengetriebenen Unternehmen

Green Cloud: Daten und Emissionen sparen

Charge your APIs Volume 23: REST vs. gRPC

Eine Einführung in Federated Learning im industriellen Kontext: Fortgeschritten

Eine Einführung in Federated Learning im industriellen Kontext: Grundlagen

Jetzt für unseren Newsletter anmelden