Effiziente Datenorchestrierung als Basis für fundierte Entscheidungen
Durch die Migration hunderter Daten-Pipelines hin zu Apache Airflow macht Tchibo den Betrieb seines Data Warehouse fit für die Zukunft.
Die Tchibo GmbH ist ein international tätiges Handelsunternehmen mit Sitz in Hamburg und über 10.000 Mitarbeitenden weltweit. Gegründet 1949, begann Tchibo als Kaffeeversandhändler und ist heute für sein einzigartiges Geschäftsmodell bekannt: Neben hochwertigen Kaffeespezialitäten bietet Tchibo ein wöchentlich wechselndes Sortiment an Non-Food-Produkten, das von Kleidung über Haushaltsartikel bis zu Elektronik reicht. Mit über 900 Filialen, internationalen Online-Shops und Insel-Shops in Supermärkten ist Tchibo in zahlreichen Ländern vertreten und erzielte 2023 einen Umsatz von 3,2 Milliarden Euro.
Das Projekt auf einen Blick
- Modernisierung: Migration mehrerer hundert Datenpipelines hin zu Apache Airflow, um den künftigen Betrieb des unternehmensweit genutzten Data Warehouses sicherzustellen
- Optimierter Betrieb: Die Airflow-spezifischen Konfigurations- und Monitoringfunktionen sorgen für einen optimierten und skalierbaren Betrieb der Pipelines.
- Kosteneinsparungen: Durch die Migration konnten Betriebs- und Lizenzkosten reduziert werden.
- Grundstein für künftige Innovationen: Die erweiterte Plattform schafft eine zuverlässige Basis für die effiziente Umsetzung neuer datengetriebener Anwendungsfälle.
Ausgangssituation
Tchibo arbeitet bereits in vielen Bereichen und Prozessen datengetrieben und hat dafür eine zentrale, hauseigene Big Data Analytics Plattform in der Google Cloud Platform (GCP) etabliert. Die darin enthaltene Data-Warehouse-Lösung (DWH-Lösung) basiert auf einem skalierbaren Framework, dem Data-Vault-Ansatz und BigQuery zur Datenhaltung. Somit stehen die Daten aus dutzenden Quellsystemen und unterschiedlichen Technologien den Analysten und Data Scientists einheitlich und zentral zur Verfügung.
Über mehrere hundert Data Pipelines ist das Data Warehouse dabei mit der heterogenen Systemlandschaft verbunden. Eine Teilkomponente zur Integration der Pipelines wurde bislang in SAP Data Intelligence (SAP-DI) realisiert. Um auch in Zukunft verlässlich Daten für Analysen, Reporting oder KI-Systeme – z. B. für Produktempfehlungen und Routenoptimierung – bereitstellen zu können, sollte eine weitere Alternative implementiert werden.
Lösung
Als zusätzliche Komponente zur Integration der Pipelines wurde neben SAP Datasphere Apache Airflow für die Zielarchitektur ausgewählt. Airflow ist eine Open-Source-Workflow-Management-Plattform und unter dem Namen Google Cloud Composer nahtlos in das GCP-Ökosystem integriert. Nach einer kurzen Evaluierungs- und Planungsphase wurde ein „Lift & Shift“-Ansatz favorisiert und mit der Umsetzung begonnen. Auf diese Weise konnten bestehende Workflows mit minimalen Anpassungen in eine neue Umgebung migriert werden.
Die Umsetzung erfolgte mit dem Ziel, möglichst viele der Pipelines generisch aufzusetzen und sowohl manuelle Eingriffe als auch Downtimes der Pipelines auf ein Minimum zu reduzieren. Dazu wurde das vorhandene Framework weiter ausgebaut und eine effektive Nutzung der Airflow-API realisiert. Beispielsweise sind die bereits bestehenden zentralen Konfigurations- und Orchestrierung- Ansätze in Airflow integriert worden, weitere Schritte hin zur nahtlosen Integration in das Airflow-Ökosystem werden hierdurch möglich.
Parallel dazu konnten zusätzliche Datenquellen angebunden und der Betrieb des DWH während der Migrationsphase gewährleistet werden. Zur Koordinierung der Migration wurde eine intensive Zusammenarbeit innerhalb des Teams sowie weiteren Teams und Stakeholdern des Unternehmens etabliert.
Ergebnis
Durch die erfolgreiche Migration der zahlreichen Pipelines zu Apache Airflow konnte Tchibo den Data-Warehouse-Betrieb aufrechterhalten, die Plattform parallel für zukünftige Aufgaben und Herausforderungen rüsten und zudem die Betriebs- und Lizenzkosten reduzieren.
Darüber hinaus ermöglicht die nun Airflow-basierte Lösung dank ihrer erweiterten Konfigurations- und Monitoringmöglichkeiten eine vereinfachte Verwaltung sowie eine gezieltere Skalierung der Datenprozesse.
Der Ausbau des hauseigenen Frameworks und die Einbindung von Airflow legen damit den Grundstein für weitere Innovationen im datengetriebenen Umfeld. Die Möglichkeit, effizient zusätzliche Datenquellen anzubinden, zu verwalten und zu überwachen, lässt Tchibo künftige Anforderungen an Datenintegrationsaufgaben meistern und festigt somit Tchibos Position als datengetriebener, kundenorientierter Omnichannel-Anbieter.
Noch Fragen zum Projekt?
Du stehst vor der Herausforderung, deine Datenprozesse zu modernisieren und effizienter zu gestalten? Sprich mich gerne an! Wir unterstützen dich gerne auf deinem Weg zur datengetriebenen Organisation.
Consultant Data & AI
Weitere Referenzprojekte
Informiere dich über weitere erfolgreiche Projekte, die wir mit unseren Kunden abgeschlossen haben. Vielleicht findest du hier Anregungen für einen Use Case in deinem Unternehmen.
Berthold Schulte
Consultant Data & AI