Data Science in der Praxis: Häufige Fehler und Vorgehen

28.8.2019 | 11 Minuten Lesezeit

In diesem Artikel gehen wir auf die Besonderheiten von Data Science in der Praxis ein. Wir konzentrieren uns auf die technischen Unterschiede, häufige Fehler und Herausforderungen. Dabei lassen wird die sozialen und kommunikativen Aspekte außen vor. Weiterhin zeigen wir auf, mit welchem Leitfaden wir im Data & AI Team der codecentric Data-Science-Projekte erfolgreich umsetzen.

Data Science ist in der deutschen Firmenlandschaft angekommen. Mehr und mehr Unternehmen sehen bei der Flut an Informationen im digitalen Zeitalter die Notwendigkeit von datengetriebenen Entscheidungen. Weiterhin kursieren im Jahr 2019 auf LinkedIn bis zu 56% mehr Stellenanzeigen für Data Scientists als im Jahr 2018 .

Die Projekte in diesem Umfeld reichen von reinen Datenexplorationen bis hin zu der festen Integration von Machine Learning in die Unternehmensprozesse und datengetriebenen Produkte. Blicken wird in den Kundenservice können wir mithilfe von einer explorativen Datenanalyse Erkenntnisse über die Anzahl an Tickets und deren Themen erhalten. Für die Integration von Machine Learning in den Kundenservice-Prozess können wir ein System entwickeln, das die Tickets automatisiert anhand des Textes klassifiziert und anschließend der zugehörigen Fachabteilung zuordnet.

Die große Frage hierbei ist, mit welchen Methoden Data-Science-Projekte erfolgreich durchgeführt werden. Grundsätzlich sind Data-Science-Projekte stark volatil und benötigen ein exploratives Vorgehen. Weiterhin werden die Erkenntnisse über die Daten sukzessive gewonnen, wodurch die Planung eines Projekt deutlich erschwert wird. Diese Eigenschaften zeigen, dass ein Wasserfallmodell spezifisches Vorgehen nicht für Data-Science-Projekte funktionieren kann. Ein agiler Rahmen ist zwangsweise notwendig um Data-Science-Projekte erfolgreich umzusetzen.

Data Science: Projekt-Dimensionen

Dimensionen von Data Science Projekte: Data, Model und Code

Grundsätzlich gibt es die drei Dimensionen Data, Model und Code, die bei der Entwicklung von Data-Science-Projekten aufeinander treffen

Data: Daten werden von diversen produktiven Systemen erzeugt und müssen abgespeichert werden, um sie anschließend weiterzuverarbeiten. Weiterhin spielen Faktoren wie die Menge, die Größe und die Geschwindigkeit der produzierten Daten eine wichtige Rolle für die Technologieauswahl.
Model: Das Modell wird anhand der Daten trainiert. Hierbei wird ausgehend von der Problemstellung die Methodik bzw. der Algorithmus gewählt.
Code: Software muss hier sowohl für die Modellentwicklung als auch für das Modelldeployment geschrieben werden.

Das bedeutet, dass Veränderungen einer Dimension zu Wechselwirkungen auf einer anderen Dimensionen führen können. Beispielsweise führt die Modifikation der Datenerzeugung an einem produktiven System dazu, dass die sich Verteilung der Daten ändern kann. Implizit wirkt sich das auf die Vorhersagekraft des Modells aus. Eine Möglichkeit dieses Problem zu beheben ist das erneute Trainieren des Modells mit den neuen Daten.

Ein konkretes Beispiel, das wir schon erlebt haben, und ebenfalls die Wechselwirkung zwischen den Dimensionen verdeutlicht, liegt an der Untersagung des Gesetzgebers bei der Verwendung spezifischer Kundendaten. In dem Projekt hat dies dazu geführt, dass wir spezifische Felder nicht mehr für die Vorhersage nutzen könnten. Dieses Phänomen haben wir in der Bankenbranche erlebt. Zusammengefasst haben sich die gesetzlichen Richtlinien auf Datenvorbereitung, Modelltraining und Anpassung der produktiven Umgebung ausgewirkt.

Neben den drei Dimensionen Data, Model und Code bildet die Infrastruktur eine weitere Achse. Es müssen unterschiedliche Infrastrukturen für Datenspeicherung, Datenverarbeitung, Modelltraining, Modelldeployment und Modellmonitoring betrachtet werden. Je nach der Betriebsstrategie eines Unternehmens, ob On-Premise, Cloud oder Multi-Cloud, sehen die Anforderungen an die Infrastruktur der jeweiligen Komponenten sehr unterschiedlich aus.

Häufige Fehler bei Data-Science-Projekten

Nachdem wir uns die Dimensionen der Projekte etwas näher angeschaut haben, widmen wir uns den häufigen Fehlern, die in der Praxis durchlebt werden.

Zu konkrete Planung

Gerade zu Beginn eines Projekts werden diversen Aufgaben bzw. Tasks gesammelt und geplant. Unserer Erfahrung nach kann sich die Definition und die Zeitschätzung der Tasks als sehr schwierig und zeitaufwändig gestalten. Daten kennenzulernen benötigt Zeit. Mit der Definition von spezifischen Tasks wird mehr Zeit in Anspruch genommen als nötig. Besser wäre hier, einfache Wochenziele festzulegen und anhand dieser Erkenntnisse die nächsten Schritte zu planen. Wenn sich beispielsweise das Projekt im Status der Datenqualitätsuntersuchung befindet, kann sich das Team eine Woche Zeit nehmen, um hier Erkenntnisse zu sammeln. Am Ende der Woche werden die Erkenntnisse zusammengefasst und anschließend gemeinsam über die nächsten Schritte entschieden.

Fehlendes Domänenwissen

Mit der Statistik können die Korrelationen berechnet werden. Eine klassische Fehlerquelle ist, dass die Kausalität mit den Korrelationen innerhalb der Daten erklärt werden kann. Die Korrelation beschreibt den Zusammenhang zwischen zwei Variablen. Die Kausalität beschreibt die Ursache und Wirkung. Eine Kausalität nicht immer unbedingt mit der Korrelation erklärt werden. Wie absurd Korrelationen sein können, zeigt der Blog Spurious Correlations von Tyler Vigen .

Beispiel für Korrelation != Kausalität (Quelle: https://tylervigen.com/spurious-correlations)

Das Diagramm vergleicht die Auftritte von Nicolas Cage in diversen Filmen mit der Anzahl von Personen, die beim Sturz in ein Schwimmbecken ertrunken sind. Ohne die genaue Bedeutung der Merkmale würden wir diese Korrelation als sinnvoll betrachten und eine Wechselwirkung für möglich halten. Gerade an dieser Stelle ist es wichtig, die Korrelationen mit spezifischen Domänenwissen zu prüfen und zu untersuchen, um daraus den realen Wert zu bestimmen.

Oftmals können die Daten nicht ohne spezifische Domänenwissen erklärt werden. Für Data Scientists braucht es oftmals sehr viel Zeit, die Daten ordnungsgemäß zu interpretieren, während der Fachmann oft die Zusammenhänge kennt. Aus diesem Grund sehen wir es als essentiell an, dass ein Fachmann Bestandteil des Projektteams ist, um das Expertenwissen zugänglicher für den Data Scientist zu haben.

Zu wenig Aufmerksamkeit für Datenschutz

Bei jedem Projekt gilt es, die Sensibilität der Daten und den damit verbundenen Datenschutz (https://dsgvo-gesetz.de/ ) zu berücksichtigen. In der Vergangenheit musste ein Projekt angehalten werde, weil nicht klar, ob die Verarbeitung der kundenspezifischen und personenbezogenen Daten noch erlaubt war. Meistens sind in den Projektteams wenig bis überhaupt keine Datenschutzexperten vorhanden. Dennoch finden sich diese Experten im Unternehmenskontext. Für das Projektteam und den Projekterfolg ist der schnelle Kontakt zu den entsprechenden Personen sehr wichtig, um bei Problemen und Rückfragen einen Projektstopp zu verhindern. Weiterhin kann es anhand unserer Projekterfahrung sehr sinnvoll sein, dass in den ersten Wochen des Projekts ein Datenschutzbeauftragter als festes Bestandteil in das Team mit aufgenommen wird und somit nicht nur als ein externer Ansprechpartner fungiert.

Kein sichtbarer Return on Investment für Stakeholder

Ein klassisches Problem in Unternehmen, die das erste Mal mit Data Science experimentieren ist, dass für die Stakeholder kein direkt sichtbarer Return on Investment entsteht. Dies passiert meist, wenn sich das Projektteam mit der Modellentwicklung zu intensiv beschäftigt und die Inbetriebnahme des Modells nicht im Unternehmenskontext berücksichtigt wird. Um das zu vermeiden, versuchen wir gemeinsam mit dem Kunden im ersten Schritt ein sehr simples Baseline-Modell zu trainieren. Die Performance dieses Modells gilt es in den kommenden Wochen innerhalb des Projekts zu schlagen und zu verbessern. Der Vorteil ist, dass wir nach diesem Schritt das Modell an Entwickler-Team übergeben können, das sich mit der Integration und dem Deployment auseinandersetzt. Dadurch kann an der Modellentwicklung und dem Modelldeployment gleichzeitig gearbeitet werden, wodurch das Projekt schneller in das produktive Umfeld gelangt und dadurch effizienter im Unternehmenskontext integriert werden kann.

Aus eigener Erfahrung lohnt es sich, im Vorfeld die Fakten und Aspekte aufzuzählen und zu sammeln, die mit der Verbesserung einer Vorhersage beeinflusst werden. Gemeinsam mit den Entscheidungsträger kann auf dieser Grundlage der Return On Investment (ROI) sowie der Pain on Invest besser eingeschätzt werden. Beispielsweise ist es sehr ungewiss, ob die Zeitersparnis eines Tages pro Monat für den Aufwand eines Vier-Personenjahre-Projekts gerechtfertigt und der Return on Investment hoch genug ist, um diese Risiko einzugehen.

Manuelle Versionierung von Daten und Modellen

Manuelle Änderungen an Daten gefährden die Reproduzierbarkeit der Experimente, die von den Data Scientists ausgeführt werden. Das hat den Nachteil, dass man nicht unbedingt nachvollziehen kann, warum ein Modell besser funktioniert als ein anderes, trotz des gleichen Algorithmus. Während das Versionieren von Code mit bspw. git bereits zum Entwickleralltag gehört, entstehen aktuell neue Tools wie DVC um Daten zu versionieren. Wenn sich das Projektteam vergrößert, ermöglicht Datenversionierung, dass sich neue Teammitglieder direkt ohne größeren Aufwand Zugang zu den Daten verschaffen können. Projekte ohne Datenversionierung neigen oft dazu, technische Schulden zu entwickeln, da die Daten an unterschiedlichen Orten abgelegt werden und komplexe Strukturen entwickeln. Gerade durch automatisierte Versionierung werden die technische Schulden im Kontext auf das Datenmanagement reduziert und das Projektumfeld effizienter gestaltet.

Wie setze ich Data-Science-Projekte erfolgreich um?

Die aufgezeigten Fehler haben wir in unserer langjährigen Erfahrung bei der Umsetzung von Data-Science-Projekten innerhalb der codecentric gesammelt. Durch den Erfahrungsaustausch zentrieren wir unser Wissen und vermitteln unseren Kunden in Trainings und Workshops unsere Learnings zur Umsetzung von Data-Science-Projekten.

Datenprojekte sind je nach Unternehmensorganisation, -struktur und Anwendungsfall sehr unterschiedlich. Im Data & AI Team haben wir aus unserer Projekterfahrung ein vierstufiges Phasenmodell abgeleitet, das auch den Wissenstands eines Unternehmens bei der Umsetzung von Data-Science-Projekten berücksichtigt:

Die Phasen: Enablement, Proof of Concept, Minimum Viable Product und Professionalisation im Verhältnis zum ROI und Zeit

Enablement-Phase: Beim Enablement geht es darum, Mitarbeiter für Data-Science-Projekte auszubilden. Hierzu gehört die Vermittlung von Data Science, Machine Learning und Deep Learning. Als codecentric haben wir ein Artificial Intelligence Bootcamp entwickelt, das mit Hilfe einer eigenen Lern-Plattform praktisches Wissen zu Machine Learning und Deep Learning kostenfrei vermittelt. Weiterhin bieten wir mit dem Format Brown Paper Bag Lunch kostenfreie Vor-Ort-Vorträge für Firmen im Bereich Data Science & Data Engineering an. Über Trainings und Workshop vermitteln wir technische Deep Dives zu bestimmten AI Themen an, wie beispielsweise End-2-End vom Keras TensorFlow-Modell zur Produktion oder Deep Learning mit Keras und TensorFlow . Weiterhin entwickeln wir aktuell ein kompaktes Training um Agile Coaches und Projektmanager für Data Science Projekte vorzubereiten.
Proof-of-Concept-Phase: In der PoC-Phase bestimmen wir die Machbarkeit und Realisierung eines Business Case anhand der im Unternehmen vorhandenen Daten. Dazu führen wir explorative Datenanalyse durch, lernen die Daten kennen und erfassen, ob eine bestimmte Fragestellung durch die Daten beantwortet werden kann. Am Ende der PoC-Phasen stellen wir dem Entscheidungsträger die gewonnenen Informationen vor und zeigen, welche Schritte notwendig sind, um ein mögliches Produkt zu entwickeln.
Minimum-Viable-Product-Phase: Gestaltet sich die PoC-Phase erfolgreich, kann mit der eigentlichen Produktentwicklung innerhalb der MVP-Phase begonnen werden. Hierbei steht sowohl die Modellentwicklung als auch die Inbetriebnahme des Modells im Vordergrund. Die MVP-Phase betrachten wir als abgeschlossen, wenn ein Modell mit entsprechender Softwarequalität in den Unternehmenskontext integriert wird.
Professionalisierung: Nachdem der MVP abgeschlossen ist und die ersten Modelle im Unternehmenskontext angekommen sind, geht es um die Professionalisierung der System. Wir bezeichnen dies als Machine Learning in Production. Der Fokus in dieser Phase liegt auf der Entwicklung eines robusten Systems, das die Modellentwicklung und die Modell-Inbetriebnahme semi-automatisiert. Für die Modellentwicklung bedeutet dies, dass Modelle mit neuen Datenbeständen automatisiert trainiert werden können. Weiterhin werden Metriken gesammelt und zentral zur Verfügung gestellt. Innerhalb der Inbetriebnahme des Modells werden CI/CD-Konzepte implementiert, welche die produktive Umgebung sowie die Predictions überwachen und kontrollieren. Ein weiterer Teil dieser Phase ist die Konzeptionierung einer Data Feedback Loop. Die Data Feedback Loop hat den Zweck, anhand von bestimmten Qualitätskriterien die Produktionsdaten in neue Trainings- und Test-Datenbeständen aufzuteilen.

Die Phasen bilden den Lifecycle von Data-Science-Projekten ab und werden sequentiell durchlaufen. Die Abbildung (oben) stellt die Phasen ins Verhältnis zu der Zeit und dem Return On Investment (ROI). Die Enablement- und POC-Phasen sind als reines Investment für die Entscheidungsträger zu betrachten. Nach Abschluss der MVP-Phase kann das entwickelte System bereits in den Unternehmenskontext und in die Prozesse integriert werden. Der höchste ROI wird in der Professionalisierung erzielt, da die entwickelten Modelle in einer robusten produktiven Anwendung zum Einsatz kommen und automatisiert datengetriebene Entscheidungen in den Anwendungen durchführen.

Weiterhin müssen der Softwarequalität- und der Automatisierungsgrad mit dem Eintreten der Professionalisierungs-Phase verbessert werden. Während in der PoC- und MVP-Phase Daten/Modelle teilweise noch manuell verarbeitet und trainiert werden, wird in der Professionalisierung-Phase stark auf Automatismus gedrängt. Modelle sollen automatisiert mit neuen Datenbeständen trainiert werden und verbesserte Modellversionen schneller im produktiven Umfeld ankommen. Weiterhin ist es zu erwarten, dass Softwarequalität und -testing erst ab der Professionalisierung-Phase von Bedeutung sind.

Für Unternehmen, die am Anfang der Implementierung von Data Science in der Organisation stehen, vermitteln wir durch die Enablement-Phase die Best Practices aus der Industrie und schaffen einen Überblick für die Mitarbeiter in der Data-Science-Projektwelt.

Für Unternehmen, die sich bereits mit Data Science stärker beschäftigen, empfehlen wir die Phasen ab der PoC-Phase sequentiell zu durchlaufen. In der Vergangenheit hatten wir auch schon Projekte, bei denen wir in der PoC-Phase festgestellt haben, dass die Daten nicht zur Realisierung des Business Case passen. In einem solchen Fall schauen wir uns die Datensituation genauer mit dem Kunden an und zeigen ihm auf, welche weiteren Schritte notwendig sind bzw. wären, um mit einem Datenprojekt anzufangen.

Ab der MVP-Phase sehen wir Tooling für die automatisierte Daten- und Modellverwaltung als notwendig an, um die Geschwindigkeit des Projekts aufrechtzuhalten und mehr Struktur innerhalb der Projekte zu ermöglichen. Weiterhin werden technische Schulden reduziert und der Experimentierfähigkeit keine Grenzen gesetzt.

Fazit

Data-Science-Projekte haben ihre speziellen Eigenschaften, die neue Herausforderungen in dem Vorgehen und zwischen IT, Engineering und Fachbereichen offenbaren. Die drei Dimensionen Data, Model und Code führen dazu, dass die Projekte komplex werden. Ein durchdachtes Staffing im Projekt, die Nähe zu Fachbereichen und Datenschutzbeauftragten sowie das geeignete Tooling für die automatisierte Daten- und Modellverwaltung führen dazu, die Risiken zu minimieren und heben die Geschwindigkeit des Projekts an. Weiterhin haben wir durch die strukturierte Herangehensweise mithilfe der Phasen die beste Erfahrung bei der Umsetzung der individuellen Data-Science-Projekte gemacht.

War dieser Beitrag hilfreich?

Beitrag teilen

Blog-Autor*in

Nico Axtmann

Du hast noch Fragen zu diesem Thema? Dann sprich mich einfach an.

MotherDuck Dives: Mit natürlicher Sprache zu Live Dashboards

Dives sind interaktive Visualisierungen, die durch natürliche Sprache erstellt werden und direkt auf den Daten in MotherDuck aufbauen. Nutzer beschreiben, was sie sehen möchten, und ein KI-Agent generiert eine persistente, interaktive Komponente, die...

MotherDuck
Data
Data Science
Big Data

9.3.2026 | 8 Minuten Lesezeit

Niklas Niggemann

KI-Pflaster statt KI-Strategie

Die erste Welle ist durch. Copilot-Lizenzen sind gekauft, ein CompanyGPT steht, ein paar Meetings werden per KI zusammengefasst. In vielen Chefetagen stellt sich jetzt die richtige Frage: Was hat das eigentlich gebracht? Die Time-to-Market für die eigenen...

Data
Künstliche Intelligenz

6.3.2026 | 9 Minuten Lesezeit

Marcel Mikl

Narwhals: DataFrame-Agnostic Libraries ohne Dependencies Bauen

Nach der Veröffentlichung unseres Artikels über Ibis wies uns Dr. André Schemaitat auf ein ähnliches Tool mit wachsender Beliebtheit hin – Narwhals. Narwhals beschreibt sich selbst als eine „extrem leichtgewichtige und erweiterbare Kompatibilitätsschicht...

Data
Python
Softwareentwicklung

3.3.2026 | 11 Minuten Lesezeit

Niklas Niggemann

Mit einem ganzheitlichen Ansatz zum KI-Gewinner werden

Viele Unternehmen stehen aktuell vor einer beispiellosen Herausforderung. Anstelle von Experimenten in isolierten Pilotprojekten geht es jetzt darum, Kernprozesse grundlegend für KI neu zu denken. Die Art, wie wir Arbeit erledigen, wie wir Teams strukturieren...

Künstliche Intelligenz
Generative KI
Data

20.2.2026 | 2 Minuten Lesezeit

Lars Rückemann

Ibis: Die richtige Execution-Engine wählen, ohne Logik neu zu schreiben

In unseren bisherigen Benchmarks hat DuckDB bei großen analytischen Workloads Polars und Pandas durchgängig übertroffen. Doch reine Performancevergleiche übersehen eine entscheidende Frage: Was passiert, wenn Sie von lokaler DuckDB-Entwicklung in eine...

MotherDuck
Data
Big Data
Data Science

10.2.2026 | 6 Minuten Lesezeit

Niklas Niggemann

5 Minuten reden, ein Proof of Concept - unser KI-Experiment mit AI-Assisted...

TL;DR: Wie viel lässt sich aus einem fünfminütigen Gespräch herausholen? Wir haben es ausprobiert: Mit einem kurzen Interview, einem Transkript und AI-unterstützten Coding nach der BMAD-Methode entstand in kürzester Zeit ein nutzbarer Proof of Concept...

Generative KI
Künstliche Intelligenz
Softwareentwicklung
Digitalisierung
Prozessautomatisierung
Prozessmanagement
Agilität
Agile Methoden
Cloud
Handel
Versicherung
Euro-Cloud
Projektmanagement
Softwarearchitektur
LLM
NLP
Software-Modernisierung
Collaboration
Digitale Produktentwicklung
Mobile
Dokumentation
Framework
Produktmanagement
UX/UI
Dokumentenmanagement
Input-Management
Agile
Fullstack

28.1.2026 | 5 Minuten Lesezeit

Teoman Kinaci

Sven Heinz

DuckDB vs. Polars: Performance & Memory bei großen Parquet Dateien

Update 02.02.26 – Nach hilfreichen Hinweisen des Polars-Teams auf LinkedIn haben wir unser Benchmark-Setup um eine Polars-Konfiguration erweitert, bei der Async erzwungen wird. Dies wird im Artikel näher erläutert. Unser vorheriger Benchmark verglich...

MotherDuck
Data Science
Data

20.1.2026 | 14 Minuten Lesezeit

Niklas Niggemann

Reifegradanalyse & Roadmap: Der Kompass für deine wirksame Daten- und ...

Dies ist Teil 2 unserer Blog-Serie: 7 Schritte zur wertstiftenden Daten- und KI-Strategie. Den ersten Teil der Blog-Serie könnt ihr hier lesen. Wie können wir die Möglichkeiten von Daten und KI bei uns voll ausschöpfen? Diese Frage hören wir in fast ...

Data
Data Science
Künstliche Intelligenz
Generative KI

10.12.2025 | 5 Minuten Lesezeit

Shirin Elsinghorst

Elena Rüdenauer

7 Schritte zur wertstiftenden Daten- und KI-Strategie: RRW-DECKO-Ansatz

Die erwarteten Wertbeiträge von Daten und KI sind groß – McKinsey (2023) schätzt das globale Potenzial auf bis zu 25,6 Billionen US-Dollar. Gleichzeitig berichten viele Unternehmen, mit denen wir sprechen, von ähnlichen Herausforderungen. Und dies best...

Data
Data Science
Datenschutz
Big Data
Generative KI
Künstliche Intelligenz

2.12.2025 | 6 Minuten Lesezeit

Shirin Elsinghorst

Elena Rüdenauer

DuckDB vs. DataFrame Bibliotheken

Hinweis: Der folgende Artikel wurde auf Englisch erstellt und nachträglich maschinell auf Deutsch übersetzt. Update 10.12.25 – Nach hilfreichen Hinweisen von Polars-Entwickler Thijs Nieuwdorp nach der ersten Veröffentlichung dieses Artikels konnten ...

MotherDuck
Data
Data Science
Python
Datenbank

1.12.2025 | 10 Minuten Lesezeit

Niklas Niggemann

Vom Datenschatz zum Erkenntnissystem: Ein Multi‑Agenten‑Ansatz mit LLMs

Dieser Artikel ist der zweite Teil meiner Erfahrungen mit Projekten bei denen wir LLMs in Umgebungen mit großen, chaotischen Daten eingesetzt haben. Den ersten Teil findet ihr hier. Viele Unternehmen sitzen auf einem enormen Datenschatz – und können ...

LLM
Data
Data Science
Künstliche Intelligenz
NLP
Generative KI

29.10.2025 | 4 Minuten Lesezeit

Daniel Töws

LLMs im Data Engineering: Wie wir chaotische Daten in verlässliche Ergebnisse...

Wer mit Daten arbeitet, kennt den Frust: Dateien, die sich nicht an ihr eigenes Schema halten. CSVs, deren Spalten plötzlich mehrere Werte mit zusätzlichen Trennzeichen enthalten. Datenlager, in denen Tausende Tabellen existieren – mit unvollständiger...

LLM
Data
Künstliche Intelligenz
NLP
Generative KI

27.10.2025 | 6 Minuten Lesezeit

Daniel Töws

DuckDBs Friendly SQL ist ein Game Changer für die Developer Experience

Ich denke nicht, dass irgendjemand überrascht sein wird, wenn ich sage, dass SQL nicht die angenehmste Sprache zum Arbeiten ist. Manche würden sogar so weit gehen zu sagen, dass die Ergonomie von SQL furchtbar ist. Insbesondere bei großen und komplexen...

Data
MotherDuck

14.10.2025 | 11 Minuten Lesezeit

Lennart Hensler

Zero-ETL mit MotherDuck: Ein technischer Deep Dive

MotherDuck, der auf DuckDB aufbauende Cloud-native Service, verändert grundlegend, wie Unternehmen mit Daten arbeiten, die in Cloud-Object-Stores abgelegt sind. Durch den Wegfall klassischer ETL/ELT-Pipelines ermöglicht MotherDuck direkte SQL-Analysen...

MotherDuck
Data

7.10.2025 | 5 Minuten Lesezeit

Hendrik Kamp

Datenanalyse mit MotherDuck und DuckDB: Aus CSV zu Insights in 5 Minuten

CSV-Dateien sind der ewige Klassiker im Datenaustausch. Auch wenn modernere Formate wie JSON und Parquet ihren Platz erobern, bleiben die einfachen, aber robusten Comma Separated Values das Rückgrat vieler Daten-Workflows. Aber Hand aufs Herz: Wer hat...

Data
Datenbank
MotherDuck
Big Data

30.9.2025 | 7 Minuten Lesezeit

Christian Galsterer

5 Gründe, warum wir uns über den Motherduck Launch in AWS Frankfurt freuen

Hinweis: Dieser Blog-Post wurde mit LLM-unterstützung von Englisch auf Deutsch übersetzt. Seit einiger Zeit besteht für europäische Datenteams die zentrale Herausforderung darin, Innovation mit strenger Regulierung in Einklang zu bringen. Häufig erscheinen...

Data
Big Data
Datenbank
News
MotherDuck

24.9.2025 | 5 Minuten Lesezeit

Marcel Mikl

Erstes Data Engineering Projekt mit Databricks Asset Bundles und GitLab...

Einleitung In diesem Artikel geht es um das Aufsetzen eines Datenprojekts mit Databricks Asset Bundles. Wir schauen uns das Basis Setup an und eine typische Projektstruktur, gehen anschließend auf einige wichtige Details und mögliche Stolpersteine und...

Data

15.6.2025 | 10 Minuten Lesezeit

Denis Khaskin

Kategorisierung von Schnittstellen: Data Interface Quadrants (DIQs)

In der heutigen schnelllebigen und datengesteuerten Welt stehen Unternehmen vor einer zunehmend komplexen Herausforderung: Wie können Datenschnittstellen so gestaltet, implementiert und verwaltet werden, dass sie sowohl den unmittelbaren betrieblichen...

API
Data

30.1.2025 | 9 Minuten Lesezeit

Daniel Kocot

Miriam Greis

Die schaurigen Gestalten der Agilität – und warum sie oft zum Scheitern...

Die schaurigen Gestalten der Agilität – und warum sie oft zum Scheitern führenIn der agilen Welt wird es immer lauter: Agilität wird zunehmend als ineffektiv abgetan und sogar für tot erklärt (agile is dead). Doch was steckt wirklich hinter dieser wachsenden...

Agile Methoden
Softwareentwicklung
Agilität
Agile Transformation
Projektmanagement
Change Management

30.10.2024 | 11 Minuten Lesezeit

Nina Nitzsche

Lessons learned: Was wir in einem Jahr ML Orchestrierung mit Dagster gelernt...

In einem gemeinsamen Projekt haben Tom Scholz und ich Machine Learning (ML) Services gebaut, um einem Kunden bei der Analyse von Dokumenten zu helfen. Eine Proof-Of-Concept Lösung war schnell gebaut, die es nun zu operationalisieren gilt. Hierbei war...

Machine Learning
Python
Data
Data Science

12.9.2024 | 27 Minuten Lesezeit

Patrick Soschinski

Tom Scholz

Data Science in der Praxis: Häufige Fehler und Vorgehen

Data Science: Projekt-Dimensionen

Häufige Fehler bei Data-Science-Projekten

Zu konkrete Planung

Fehlendes Domänenwissen

Zu wenig Aufmerksamkeit für Datenschutz

Kein sichtbarer Return on Investment für Stakeholder

Manuelle Versionierung von Daten und Modellen

Wie setze ich Data-Science-Projekte erfolgreich um?

Fazit

War dieser Beitrag hilfreich?

Blog-Autor*in

Weitere Artikel in diesem Themenbereich

MotherDuck Dives: Mit natürlicher Sprache zu Live Dashboards

KI-Pflaster statt KI-Strategie

Narwhals: DataFrame-Agnostic Libraries ohne Dependencies Bauen

Mit einem ganzheitlichen Ansatz zum KI-Gewinner werden

Ibis: Die richtige Execution-Engine wählen, ohne Logik neu zu schreiben

5 Minuten reden, ein Proof of Concept - unser KI-Experiment mit AI-Assisted...

DuckDB vs. Polars: Performance & Memory bei großen Parquet Dateien

Reifegradanalyse & Roadmap: Der Kompass für deine wirksame Daten- und ...

7 Schritte zur wertstiftenden Daten- und KI-Strategie: RRW-DECKO-Ansatz

DuckDB vs. DataFrame Bibliotheken

Vom Datenschatz zum Erkenntnissystem: Ein Multi‑Agenten‑Ansatz mit LLMs

LLMs im Data Engineering: Wie wir chaotische Daten in verlässliche Ergebnisse...

DuckDBs Friendly SQL ist ein Game Changer für die Developer Experience

Zero-ETL mit MotherDuck: Ein technischer Deep Dive

Datenanalyse mit MotherDuck und DuckDB: Aus CSV zu Insights in 5 Minuten

5 Gründe, warum wir uns über den Motherduck Launch in AWS Frankfurt freuen

Erstes Data Engineering Projekt mit Databricks Asset Bundles und GitLab...

Kategorisierung von Schnittstellen: Data Interface Quadrants (DIQs)

Die schaurigen Gestalten der Agilität – und warum sie oft zum Scheitern...

Lessons learned: Was wir in einem Jahr ML Orchestrierung mit Dagster gelernt...

Jetzt für unseren Newsletter anmelden