LLMs im Data Engineering: Wie wir chaotische Daten in verlässliche Ergebnisse verwandeln

27.10.2025 | 6 Minuten Lesezeit

Wer mit Daten arbeitet, kennt den Frust: Dateien, die sich nicht an ihr eigenes Schema halten. CSVs, deren Spalten plötzlich mehrere Werte mit zusätzlichen Trennzeichen enthalten. Datenlager, in denen Tausende Tabellen existieren – mit unvollständiger Dokumentation. Kurz: viel Volumen, wenig Struktur und ein enormer Interpretationsaufwand.

In den letzten Monaten haben wir an zwei Szenarien gearbeitet, die genau in diesem Umfeld liegen. In beiden Fällen ging es um die Frage: Können Large Language Models (LLMs) helfen, Ordnung ins Chaos zu bringen und den Weg zu belastbaren Ergebnissen zu verkürzen? Die kurze Antwort: Ja – wenn man sie richtig einbettet. Die lange Antwort ist spannender und zeigt, wo die Grenzen sind, was wirklich funktioniert und wie man die Modelle produktiv in komplexen Datenlandschaften nutzt. Ich werde in zwei Artikeln ein paar unserer Erkenntnisse beschreiben, die wir in Zukunft für weitere LLM Use Cases anwenden werden.

Vom Datenchaos zur Struktur:

Ein häufig vorkommender Ausgangspunkt sind Datenquellen mit unsauberer Struktur. In unserem Fall eine CSV-Datei, bei der manche Spalten in Wahrheit ein kleines Universum sind: In manchen Zeilen steckt dort eine Liste von Attributen, getrennt durch ein Semikolon, in anderen Zeilen sind es kommagetrennte Paare aus Attributnamen und Werten. Die Datei war über ein Gigabyte groß, mit mehreren Hunderttausend Zeilen, für die so kein klares Schema erkennbar war.

Unsere Aufgabe war es, diese Datei in ein anderes, firmeninternes Datenschema zu übersetzen. Das Zielschema selbst war auch riesig, ein Attributraum im fünfstelligen Bereich, je nach Kategorie waren aber nur bis zu 3.000 Attribute wirklich relevant, von denen dann ein einzelner Artikel im Schnitt nur 100 - 300 wirklich befüllt. Zusätzlich war ein weiteres Problem, dass ein Attribut in dem Zielschema erst durch die Betrachtung mehrerer Spalten in der CSV bestimmt werden konnte.

Zusammenfassend hier noch einmal eine Auflistung der Schwierigkeiten:

Nur ein kleiner Teilraum der eigentlichen Zielmenge (knapp 10 %) war relevant in der Betrachtung, während ein noch kleinerer Teil (unter 1 %) wirklich durch das eigentliche Produkt abgedeckt wurde, also Teil des Endergebnisses war.
Einzelne Zeilen folgen keiner Gesamtstruktur, sie sind also zu unterschiedlich, um eine klassische regelbasierte Transformation mit realistischem Aufwand hinzubekommen.
Einzelne CSV-Spalten konnten auf mehrere Attribute im Zielschema abgebildet werden
Einzelne Attribute im Zielschema benötigten teilweise mehrere Spalten aus der CSV-Datei, um eindeutig befüllt werden zu können.

Unser Versuch war es, diese Transformation durch ein LLM durchzuführen, ein eigentlicher Widerspruch zu den Faustregeln, die wir normalerweise selbst empfehlen. Denn im Normalfall sollten LLMs nicht dort eingesetzt werden, wo regelbasierte Ansätze funktionieren. Für das Team war aber klar, dass die klassischen Lösungen hier den Rahmen sprengen würden. Es gab zu viele Ausnahmen, um diese durch Code im erwarteten Zeitfenster abdecken zu können.

Der Kernansatz: Reduzieren, Struktur erzwingen, iterativ verfeinern

Der erste Hebel ist Reduktion. Statt jede Zeile gegen das volle Zielschema zu prüfen, lassen wir das LLM zunächst die Kategorie erkennen. Damit schrumpft der relevante Attributraum drastisch, und wir konzentrieren uns nur auf das, was im jeweiligen Kontext plausibel ist. So werden Fehler unwahrscheinlicher und die Präzision steigt.

Zweiter Hebel: strukturierte Ausgaben. Wir nutzen die Fähigkeit moderner LLMs, Daten in strukturierten Outputs auszugeben. Das LLM füllt nicht „irgendwas“, sondern genau die vorgesehenen Felder, mit klaren Constraints. In Python ist das sehr einfach zu erreichen, indem Pydantic-Klassen den Datentyp vorgeben und wir diesen dem LLM mitgeben. Dies funktionierte in unseren Tests immer, sodass wir uns keine Sorgen machen mussten, dass das LLM Text ausgibt, der danach nicht vom Code interpretiert werden kann. Wir nutzen auch die Möglichkeit, Klassenattribute nicht nur durch einen Namen, sondern auch durch eine „Description” zu definieren. Das klingt banal, ändert aber die Erfolgsquote merklich: Je weniger Interpretationsspielraum, desto robuster die Ergebnisse.

Dritter Hebel: iteratives Vorgehen. Statt alle potenziell relevanten Felder in einem Rutsch zu befüllen, arbeiten wir in Etappen. Statt alle Attribute haben wir dem LLM nur zehn Attribute auf einmal mitgegeben. Zwar haben moderne Modelle große Kontextfenster, aber eine hohe Ausgabelast macht sie anfällig für Ungenauigkeit. Unsere Erfahrung: Je größer der Output-Block, desto öfter schleichen sich kleine, aber bedeutsame Fehler ein. So wurden dann Attribute nicht nur falsch befüllt, sondern teilweise komplett vergessen. Ein Stichwort sei hierzu noch erwähnt, welches wir auch noch in einem weiteren Artikel thematisieren werden: Caching von LLM-Anfragen durch bewusstes Prompten.

Details der Implementierung

Wichtig bei der Bestimmung der Kategorien, aber auch bei der Befüllung der Attribute war es, passendes Context Engineering zu betreiben. Damit ist gemeint, an den relevanten Stellen dem LLM die wichtigen externen Informationen mitzugeben und für diesen Schritt unwichtige Details wieder wegzunehmen. So haben wir während des Kategorisierungschritts dem LLM nicht nur die Namen der einzelnen Kategorien mitgegeben, sondern auch durch Domainexperten formulierte Beschreibungen, Beispielprodukte und Hinweise, was in den Daten drinstehen könnte, damit ein Produkt zu dieser Kategorie passt. Ähnlich haben wir es auch bei den Attributen gemacht. Die Präzision hat sich dramatisch erhöht, wenn jedes relevante Attribut auch eine Beschreibung hatte, worum es sich hier eigentlich genau handelt.

Eine abstrakte Ansicht der Transformationsarchitektur

Ein weiterer Trick, den wir genutzt haben, um die Genauigkeit der Ergebnisse zu verbessern, war es Chain-of-Thought-Techniken zu nutzen. In der Ausgabestruktur, sollte das LLM für jedes Attribut auch das Freitext Feld “Quelle” füllen, indem es beschreibt, wo der Wert für dieses Attribut in der Produktzeile zu finden ist, sowie auch “logische Schlussfolgerungen” wie das LLM einen Wert aus dem Text ableiten konnte. Danach sollte das LLM den boolean “Vorhanden” befüllen, also einfach nur true oder false, wenn das LLM der Meinung ist, dieses Attribut kann durch die Informationen in der Produktzeile gefüllt werden. Hierbei handelt es sich weniger um ein Debugfeld für die Menschen um eventuelle Unstimmigkeiten danach zu verstehen, sondern um echte Funktionalität. Wichtig ist, dass das LLM erst danach den echten Wert füllt. Das LLM sagt sich somit also vorher selbst vor, wie es den eigentlichen Wert zu füllen hat. Tauscht man hier die Reihenfolge, und lässt das LLM erst den Wert füllen, danach die Erklärungen, hat man nichts gewonnen, da ein falsch ausgefülltes Feld nicht durch eine nachträglich andere Erklärung geändert werden kann, da Tokens sequentiell generiert werden.

Das Ausgabeformat des LLM. Nur die attributeId, name und value werden vom System gebraucht. Die anderen beiden Werte erhöhen die Präzision, werden aber nicht gespeichert

Ein ähnlicher Chain-of-Thought-Ansatz wurde auch angewendet, um sicherzustellen, dass auch alle Attribute wirklich betrachtet werden. So kann es durchaus sein, dass aus der Liste der in diesem Schritt zehn betrachteten Attribute das LLM welche „vergisst” und gar nicht füllt. Im strukturierten Output haben wir dem LLM also mitgeteilt, zuerst alle Attribute, die gefüllt werden sollen, aufzulisten und dann am Ende jedes gefüllten Attributs die ID des nächsten Attributs zu nennen.

Schluss

Durch die Reduktion der Zielmenge, einem iterativen Vorgehen und passendem Context Engineering, sowie durchdachten Prompting, waren wir in der Lage eine zufriedenstellende Datentransformation durchzuführen. Ein wichtiger Nachteil des LLM-basierten Ansatzes, gegenüber klassischen regelbasierten Ansätzen ist natürlich die Zufälligkeit der Antwort. Wiederholt man die Transformation, so waren die Antworten auch deutlich unterschiedlich. Tatsächlich war dies aber am Ende nur noch bei Freitextfeldern der Fall, wo Farben statt Weiß, manchmal Weiß (glänzend) waren. Zahlenwerte oder Booleans können wir zuverlässig befüllen und so eine interessante und flexible Alternative zum Transformieren von Daten schaffen.

War dieser Beitrag hilfreich?

Beitrag teilen

Blog-Autor*in

Daniel Töws

Software Developer

Du hast noch Fragen zu diesem Thema? Dann sprich mich einfach an.

Weitere Beiträge

von Daniel Töws

Charts im Browser – Eine Einführung in AG Grid (Teil 2)

Nachdem wir in Teil 1 unserer kleinen Reihe zum AG-Grid-Framework gezeigt haben, wie man damit schnell interaktive Tabellen erstellt, geht es in diesem Beitrag darum, wie man die gleichen Daten auch in Grafiken (wie Balkendiagramme, Pie Charts oder Zeitserien...

React
Frontend
JavaScript
Framework
Softwareentwicklung

2.5.2023 | 6 Minuten Lesezeit

Daniel Töws

Selvarajah Sivarupan

Tabellen im Browser – Eine Einführung in AG Grid (Teil 1)

Die heutige Datenflut hat Software und Frameworks, wie Tableau, D3 und viele andere, hervorgebracht, deren Aufgabe es ist, die Visualisierung von Daten zu verbessern. Doch trotz der teilweise sehr ausgefallenen Darstellungsformen ist manchmal die simple...

Framework
Frontend
JavaScript
React
Softwareentwicklung

17.2.2023 | 6 Minuten Lesezeit

Daniel Töws

Selvarajah Sivarupan

Wo Vibe Coding hilft – und wo nicht: Ein Praxisbericht

Vibe Coding ist ein Programmieransatz, der so gut wie jede Aufgabe in der Arbeit mit Quellcode – von Verständnis über Erzeugung bis Veränderung – an eine GenAI delegiert und dabei den Ausgaben dieser KIs fast vollständig vertraut. Ausgehend von einem...

Generative KI
Software-Modernisierung
IT-Security

20.10.2025 | 9 Minuten Lesezeit

Patrick Krings

Dr. Florian Rademacher

DuckDBs Friendly SQL ist ein Game Changer für die Developer Experience

Ich denke nicht, dass irgendjemand überrascht sein wird, wenn ich sage, dass SQL nicht die angenehmste Sprache zum Arbeiten ist. Manche würden sogar so weit gehen zu sagen, dass die Ergonomie von SQL furchtbar ist. Insbesondere bei großen und komplexen...

Data
MotherDuck

14.10.2025 | 11 Minuten Lesezeit

Lennart Hensler

Zero-ETL mit MotherDuck: Ein technischer Deep Dive

MotherDuck, der auf DuckDB aufbauende Cloud-native Service, verändert grundlegend, wie Unternehmen mit Daten arbeiten, die in Cloud-Object-Stores abgelegt sind. Durch den Wegfall klassischer ETL/ELT-Pipelines ermöglicht MotherDuck direkte SQL-Analysen...

MotherDuck
Data

7.10.2025 | 5 Minuten Lesezeit

Hendrik Kamp

Datenanalyse mit MotherDuck und DuckDB: Aus CSV zu Insights in 5 Minuten

CSV-Dateien sind der ewige Klassiker im Datenaustausch. Auch wenn modernere Formate wie JSON und Parquet ihren Platz erobern, bleiben die einfachen, aber robusten Comma Separated Values das Rückgrat vieler Daten-Workflows. Aber Hand aufs Herz: Wer hat...

Data
Datenbank
MotherDuck
Big Data

30.9.2025 | 7 Minuten Lesezeit

Christian Galsterer

5 Gründe, warum wir uns über den Motherduck Launch in AWS Frankfurt freuen

Hinweis: Dieser Blog-Post wurde mit LLM-unterstützung von Englisch auf Deutsch übersetzt. Seit einiger Zeit besteht für europäische Datenteams die zentrale Herausforderung darin, Innovation mit strenger Regulierung in Einklang zu bringen. Häufig erscheinen...

Data
Big Data
Datenbank
News
MotherDuck

24.9.2025 | 5 Minuten Lesezeit

Marcel Mikl

Vom Entwickler zum KI-Agenten: Der neue API-Consumer als Persona

Einführung - Wieso Personas?Ein Blick auf den State of the API Report 2024 (Postman Inc, 2024) zeigt einen überwiegenden Anteil von "Engineer or Developer" als Hauptkonsumenten von APIs. Um jedoch zu verstehen, wer diese Entwickler*innen sind und welche...

API
Künstliche Intelligenz
UX/UI

4.9.2025 | 7 Minuten Lesezeit

Benny Burkert

Wie finde ich die richtigen Generative KI Use Cases? 5 Learnings aus der...

Wie finde ich die richtigen Generative KI Use Cases? 5 Learnings aus der PraxisGenerative KI, insbesondere die Verwendung von Large-Language-Models (LLMs), zieht derzeit mit enormer Geschwindigkeit in Unternehmen aller Branchen und Größen ein. Ob Retail...

Generative KI
Künstliche Intelligenz
Produktmanagement
Digitale Produktentwicklung

3.9.2025 | 8 Minuten Lesezeit

Marc Pudelski

Deployment von n8n und ngrok in Minikube

Deployment von n8n in minikube und ngrok Seit einigen Monaten sorgt das Low-Code-Integrationstool n8n für Gesprächsstoff in der Tech-Welt. Angetrieben vom aktuellen Hype um KI-Agenten hat sich das Tool zum Liebling vieler Automatisierungsfans entwickelt...

DevOps
Kubernetes
Künstliche Intelligenz
Integration
Framework

11.8.2025 | 6 Minuten Lesezeit

Benjamin Lüdicke

Erstes Data Engineering Projekt mit Databricks Asset Bundles und GitLab...

Einleitung In diesem Artikel geht es um das Aufsetzen eines Datenprojekts mit Databricks Asset Bundles. Wir schauen uns das Basis Setup an und eine typische Projektstruktur, gehen anschließend auf einige wichtige Details und mögliche Stolpersteine und...

Data

15.6.2025 | 10 Minuten Lesezeit

Denis Khaskin

Vibe coding – Was nun?

Kann man mit KI wirklich Anwendungen erzeugen, ohne selbst coden zu können, mit einem Bruchteil des Aufwands und der Zeit? "Gib dich dem Vibe hin! Erstelle Software nur mit natürlicher Sprache! GenAI ist der Builder. Hör auf, dich zu beschweren und fang...

Künstliche Intelligenz
Generative KI

12.4.2025 | 9 Minuten Lesezeit

Goetz Markgraf

Kategorisierung von Schnittstellen: Data Interface Quadrants (DIQs)

In der heutigen schnelllebigen und datengesteuerten Welt stehen Unternehmen vor einer zunehmend komplexen Herausforderung: Wie können Datenschnittstellen so gestaltet, implementiert und verwaltet werden, dass sie sowohl den unmittelbaren betrieblichen...

API
Data

30.1.2025 | 9 Minuten Lesezeit

Daniel Kocot

Miriam Greis

Open Source trifft Milliardenmarkt: DeepSeek-R1 mischt die KI-Welt auf

Am 27. Januar 2025 erlebte die Technologiebörse einen unerwarteten Einbruch: Der NVIDIA-Aktienkurs fiel um über 17%, wodurch der Konzern zeitweilig fast 600 Milliarden US-Dollar an Börsenwert verlor und damit einen neuen historischen Rekord am Aktienmarkt...

Künstliche Intelligenz
Generative KI
LLM

29.1.2025 | 8 Minuten Lesezeit

Daniel Ladischenski

Wie wir eine KI mit wenigen Worten hacken können

Wie wir eine KI mit wenigen Worten hacken können Künstliche Intelligenz (KI) hat in den letzten Jahren einen erstaunlichen Wandel durchgemacht und ist mittlerweile in vielen Lebensbereichen präsent. Ob in Form von Chatbots, die uns bei alltäglichen Fragen...

IT-Security
Künstliche Intelligenz

27.1.2025 | 4 Minuten Lesezeit

Mehmet Avci

Lessons learned: Was wir in einem Jahr ML Orchestrierung mit Dagster gelernt...

In einem gemeinsamen Projekt haben Tom Scholz und ich Machine Learning (ML) Services gebaut, um einem Kunden bei der Analyse von Dokumenten zu helfen. Eine Proof-Of-Concept Lösung war schnell gebaut, die es nun zu operationalisieren gilt. Hierbei war...

Machine Learning
Python
Data
Data Science

12.9.2024 | 27 Minuten Lesezeit

Patrick Soschinski

Tom Scholz

GenAI für Full Stack EntwicklerInnen - Agent Chi PiTie (Teil 5)

Künstliche Intelligenz ist heutzutage in aller Munde. Die Einsatzgebiete sind vielfältig, der "WOW-Faktor" immer gegeben und das Potenzial noch lange nicht ausgeschöpft. Wo wir heute in vielen Bereichen schon unsere früheren Erwartungen übertroffen ...

LLM
Generative KI
Künstliche Intelligenz

20.8.2024 | 13 Minuten Lesezeit

Robin Schlenker

When Business Meets Technology: Vom Datenprodukt zur Datenarchitektur ...

Zusammenfassung Der Data Product Canvas (DPC) ist ein Werkzeug für die leichtgewichtige und iterative Konzeption von Datenprodukten. Dabei steigert er die Effizienz der Produktdefinition, indem er die wesentlichen Einflussbereiche auf Datenprodukte übersichtlich...

Softwarearchitektur
Data
DDD
Digitale Produktentwicklung

6.8.2024 | 21 Minuten Lesezeit

Daniel Engelhardt

Dr. Florian Rademacher

Charge your APIs Volume 28: Verbesserung von Anwendungs- und Datenintegration...

In der heutigen schnelllebigen Welt ist die nahtlose Integration von Anwendungen und Daten entscheidend für den Erfolg eines Unternehmens. In diesem Blogpost werden Konzepte wie die Maslowsche Pyramide, Team Topologies, evolutionäre Architekturen, API...

API
Data
Integration

25.7.2024 | 9 Minuten Lesezeit

Daniel Kocot

GenAI für Full Stack EntwicklerInnen: Sprachverständnis als User Interface...

Ein gutes User Interface zu designen und umzusetzen, ist schwierig. Wir als Full Stack EntwicklerInnen wissen nur zu gut, dass der Teufel im Detail steckt. Einmal ist die Animation schlecht getimed, ein Input schiebt sich über den nächsten, ein Bild...

Künstliche Intelligenz
Generative KI
LLM

18.7.2024 | 12 Minuten Lesezeit

Robin Schlenker

GenAI für Full Stack EntwicklerInnen: RAG Evaluation mit TypeScript (Teil...

Disclaimer: Dieser Artikel ist Teil einer Serie. Lies am besten zuerst Teil 1 und Teil 2, um auf dem neuesten Stand zu sein. In der traditionellen Softwareentwicklung sind Tests ein essenzieller Bestandteil. Wir nutzen E2E-Tests, Unit- und Integrationstests...

LLM
Künstliche Intelligenz
Generative KI

3.7.2024 | 15 Minuten Lesezeit

Robin Schlenker

GenAI für Full Stack EntwicklerInnen: Der erste echte Use Case (Teil 2...

Disclaimer: Dieser Artikel ist Teil einer Serie, wenn du den ersten Teil noch nicht gelesen hast dann findest du ihn hier. Nachdem wir beim letzten Mal einen ersten Kontakt mit Open Source LLMs hatten, geht es heute endlich ans Codieren! Die Chatbots...

Künstliche Intelligenz
LLM
Generative KI

24.6.2024 | 11 Minuten Lesezeit

Robin Schlenker

LLMs im Data Engineering: Wie wir chaotische Daten in verlässliche Ergebnisse verwandeln

Vom Datenchaos zur Struktur:

Der Kernansatz: Reduzieren, Struktur erzwingen, iterativ verfeinern

Details der Implementierung

Schluss

War dieser Beitrag hilfreich?

Blog-Autor*in

Weitere Beiträge

Charts im Browser – Eine Einführung in AG Grid (Teil 2)

Tabellen im Browser – Eine Einführung in AG Grid (Teil 1)

Weitere Artikel in diesem Themenbereich

Wo Vibe Coding hilft – und wo nicht: Ein Praxisbericht

DuckDBs Friendly SQL ist ein Game Changer für die Developer Experience

Zero-ETL mit MotherDuck: Ein technischer Deep Dive

Datenanalyse mit MotherDuck und DuckDB: Aus CSV zu Insights in 5 Minuten

5 Gründe, warum wir uns über den Motherduck Launch in AWS Frankfurt freuen

Vom Entwickler zum KI-Agenten: Der neue API-Consumer als Persona

Wie finde ich die richtigen Generative KI Use Cases? 5 Learnings aus der...

Deployment von n8n und ngrok in Minikube

Erstes Data Engineering Projekt mit Databricks Asset Bundles und GitLab...

Vibe coding – Was nun?

Kategorisierung von Schnittstellen: Data Interface Quadrants (DIQs)

Open Source trifft Milliardenmarkt: DeepSeek-R1 mischt die KI-Welt auf

Wie wir eine KI mit wenigen Worten hacken können

Lessons learned: Was wir in einem Jahr ML Orchestrierung mit Dagster gelernt...

GenAI für Full Stack EntwicklerInnen - Agent Chi PiTie (Teil 5)

When Business Meets Technology: Vom Datenprodukt zur Datenarchitektur ...

Charge your APIs Volume 28: Verbesserung von Anwendungs- und Datenintegration...

GenAI für Full Stack EntwicklerInnen: Sprachverständnis als User Interface...

GenAI für Full Stack EntwicklerInnen: RAG Evaluation mit TypeScript (Teil...

GenAI für Full Stack EntwicklerInnen: Der erste echte Use Case (Teil 2...

Jetzt für unseren Newsletter anmelden