Von Inferenz zu Governance: Warum Agent-Metadaten wichtig sind, auch wenn LLMs Ihre Daten bereits „verstehen“

15.5.2026 | 6 Minuten Lesezeit

Moderne LLMs (Large Language Models) zeigen eine starke Fähigkeit, Bedeutungen aus Spaltennamen abzuleiten. Ein Tool wie Genie kann in der Regel pct_cust_attrit_q als „Churn“ (Abwanderung) auflösen oder rev_mrr_usd allein durch Mustererkennung dem Begriff „MRR“ zuordnen. Bei einer kleinen, gut strukturierten Tabelle liefert diese Ableitung (Inference) in den meisten Fällen korrekte Ergebnisse.

„Die meisten Fälle“ entsprechen jedoch keinem Governance-Standard. Wenn Schemata auf hunderte von Spalten anwachsen, wenn mehrere Spalten als plausible Treffer für eine einzelne Abfrage infrage kommen und wenn verschiedene Abteilungen unterschiedliche Terminologien für dieselbe Kennzahl verwenden, reicht die reine Ableitung nicht mehr aus. Databricks Agent-Metadaten schließen diese Lücke – nicht indem sie KI-Tools ermöglichen, Daten zum ersten Mal zu interpretieren, sondern indem sie sicherstellen, dass sie dies konsistent, korrekt und skalierbar tun. Agent-Metadaten erfordern die Databricks Runtime 17.3 und YAML-Version 1.1.

Wo die Ableitung an ihre Grenzen stößt

Bei einer kleinen Tabelle mit sechs beschreibenden Spalten kann ein LLM oft durch Mustererkennung die korrekte Zuordnung ableiten. Betrachten Sie die folgende Kennzahlentabelle:

Spalte	Beispielwert
`rev_mrr_usd`	48250.00
`pct_cust_attrit_q`	0.034
`n_active_subs`	1205
`dt_cohort_start`	2025-01-15

Genie kann vernünftigerweise schlussfolgern, dass sich rev_mrr_usd auf den MRR bezieht und dass pct_cust_attrit_q mit Kundenabwanderung (Attrition) zu tun hat. Bei einer begrenzten Anzahl von Spalten und erkennbaren Abkürzungen liefert die Ableitung angemessene Ergebnisse.

Produktionsschemata weisen diesen Grad an Klarheit jedoch selten auf. Wenn eine Tabelle die Spalten rev_mrr_usd, rev_nrr_usd, rev_grr_usd, rev_arr_usd und rev_exp_usd enthält, könnte eine Abfrage nach „Umsatz“ (Revenue) plausibel auf jede dieser Spalten passen. Wenn die Finanzabteilung eine Kennzahl als „Net Retention“ bezeichnet, während das Produkt-Team „Expansion Revenue“ verwendet – und beide die Zuordnung zu unterschiedlichen Spalten erwarten –, hat das Modell keine Grundlage für eine Eindeutigkeit (Disambiguierung). Wenn ein Schema hunderte von Spalten über mehrere Geschäftsbereiche hinweg umfasst, steigt die Wahrscheinlichkeit einer falschen Zuordnung proportional an.

In diesen Szenarien wird die Ableitung unzuverlässig – nicht aufgrund einer begrenzten Modellfähigkeit, sondern weil Mehrdeutigkeit, Umfang und terminologische Inkonsistenz das übersteigen, was Mustererkennung allein lösen kann.

Agent-Metadaten: Einbettung des Geschäftskontexts in Datendefinitionen

Agent-Metadaten in Unity Catalog ermöglichen es Unternehmen, Geschäftskontext über drei Mechanismen direkt mit ihren Datendefinitionen zu verknüpfen: Anzeigenamen (Display Names), Synonyme und Formatspezifikationen. Diese Metadaten werden innerhalb von Unity Catalog verwaltet und automatisch von nachgelagerten Tools wie Dashboards und KI-Assistenten übernommen.

Das folgende Beispiel zeigt eine Definition für einen „Metric View“ eines SaaS-Kennzahlenmodells:

1version: 1.1
2
3source: analytics.saas.subscription_metrics
4
5dimensions:
6  - name: dt_cohort_start
7    expr: dt_cohort_start
8    display_name: 'Kohorten-Startdatum'
9    synonyms:
10      - Anmeldedatum
11      - Kohortendatum
12      - Registrierungsdatum
13
14  - name: plan_tier
15    expr: plan_tier
16    display_name: 'Tarifstufe'
17    synonyms:
18      - Preismodell
19      - Abonnement-Level
20      - Plantyp
21
22  - name: region_code
23    expr: region_code
24    display_name: 'Region'
25    synonyms:
26      - Geografie
27      - Markt
28      - Verkaufsgebiet
29
30measures:
31  - name: rev_mrr_usd
32    expr: SUM(rev_mrr_usd)
33    display_name: 'Monatlich wiederkehrender Umsatz (MRR)'
34    synonyms:
35      - MRR
36      - Monatlicher Umsatz
37      - Wiederkehrender Umsatz
38    format:
39      type: currency
40      currency_code: USD
41      decimal_places:
42        type: exact
43        places: 2
44
45  - name: pct_cust_attrit_q
46    expr: AVG(pct_cust_attrit_q)
47    display_name: 'Quartalsweise Churn-Rate'
48    synonyms:
49      - Churn
50      - Abwanderungsrate
51      - Kundenabwanderung
52    format:
53      type: percentage
54      decimal_places:
55        type: exact
56        places: 1

Diese Definition nutzt drei komplementäre Metadaten-Funktionen:

Anzeigenamen (Display Names) ersetzen technische Spaltennamen durch menschenlesbare Bezeichnungen in Dashboards und Berichten. Beispielsweise wird rev_mrr_usd in jeder nachgelagerten Visualisierung als „Monthly Recurring Revenue“ (Monatlich wiederkehrender Umsatz) dargestellt.

Synonyme ermöglichen die Auffindbarkeit durch die KI. Wenn ein Benutzer Genie fragt: „Wie hoch ist unser Churn?“, ordnet das Synonym-Mapping diesen Begriff der korrekten Kennzahl zu. Jede Dimension oder Kennzahl unterstützt bis zu 10 Synonyme mit jeweils bis zu 255 Zeichen. Dies bietet ausreichend Abdeckung für die Terminologie-Variationen zwischen verschiedenen Teams und Abteilungen.

Formatspezifikationen definieren, wie Werte in Visualisierungs-Tools gerendert werden. Churn wird als 3,4 % statt 0,034 angezeigt und der MRR als $48.250,00 statt als reiner numerischer Wert. Diese Formatierungsregeln werden automatisch auf alle Dashboards übertragen, die auf dem Metric View basieren.

Der Unterschied in der Praxis: Wo Metadaten das Ergebnis verändern

Bei einem einfachen Schema reicht die Ableitung von Genie oft aus, um gängige Abkürzungen aufzulösen und korrekte Ergebnisse ohne Metadaten zu liefern. Der Wert von Agent-Metadaten wird in drei Bereichen deutlich: Auflösung von Mehrdeutigkeiten, Präsentationsqualität und Konsistenz über Teams hinweg.

Auflösung von Mehrdeutigkeiten

Betrachten Sie die Abfrage: „Zeige mir den MRR nach Tarifstufe.“

In der oben genannten Tabelle mit sechs Spalten löst Genie dies ohne Metadaten korrekt auf. Die Abkürzung „mrr“ ist im Spaltennamen enthalten, und plan_tier ist die einzige plausible Spalte für eine Gruppierung. Es gibt keine Mehrdeutigkeit aufzulösen.

Betrachten Sie nun ein Produktionsschema mit den folgenden Umsatzspalten:

Spalte	Beschreibung
`rev_mrr_usd`	Monthly Recurring Revenue
`rev_nrr_usd`	Net Revenue Retention
`rev_grr_usd`	Gross Revenue Retention
`rev_arr_usd`	Annual Recurring Revenue
`rev_exp_usd`	Expansion Revenue

Dieselbe Abfrage („Zeige mir den Umsatz nach Plan“) weist nun fünf plausible Treffer auf. Ohne Metadaten muss das Modell ableiten, welche Umsatzspalte der Benutzer meint, ohne dass ein Mechanismus eine korrekte Auswahl garantiert. Mit Synonymen, die „MRR“ explizit auf rev_mrr_usd und „Expansion Revenue“ auf rev_exp_usd mappen, wird die Auflösung deterministisch (eindeutig).

Präsentationsqualität

Selbst wenn Genie die korrekte Spalte ohne Metadaten findet, unterscheidet sich die Ausgabequalität erheblich.

Ohne Agent-Metadaten:

pct_cust_attrit_q	region_code
0.034	NA
0.051	EMEA
0.028	APAC

Mit Agent-Metadaten:

Region	Quartalsweise Churn-Rate
NA	3,4 %
EMEA	5,1 %
APAC	2,8 %

Die zugrunde liegenden Daten sind identisch. Anzeigenamen ersetzen jedoch die technischen Spaltenüberschriften, und Formatspezifikationen rendern 0,034 als 3,4 %. Dies stellt die Mindestverbesserung dar, die Agent-Metadaten bieten, unabhängig davon, ob die Ableitung erfolgreich gewesen wäre. Für Stakeholder, die Ergebnisse in Dashboards oder Genie-Antworten konsumieren, ist dieser Unterschied nicht rein kosmetisch: Eine Tabelle mit rohen Dezimalzahlen zwingt den Leser, Einheit und Kontext selbst abzuleiten. Eine ordnungsgemäß formatierte Tabelle kommuniziert beides sofort.

Konsistenz über Teams hinweg

Der bedeutendste Vorteil von Agent-Metadaten zeigt sich nicht in einem Einzelbenutzertest. Wenn die Finanzabteilung nach „Net Retention“ fragt und das Produkt-Team nach „Expansion Revenue“, stellen Synonyme sicher, dass beide Begriffe der jeweils korrekten Spalte zugeordnet werden. Ohne Metadaten verlassen sich beide Abfragen auf die Interpretation des LLMs, die je nach Formulierung, Kontext oder Modellversion variieren kann.

Agent-Metadaten eliminieren diese Variabilität. Das Mapping ist explizit, kontrolliert (governed) und versioniert innerhalb von Unity Catalog. Jeder Benutzer löst über jedes Tool hinweg denselben Begriff in dieselbe Spalte auf – nicht weil das Modell ihn korrekt abgeleitet hat, sondern weil die Definition autoritativ ist.

Das Gesamtbild

Agent-Metadaten lösen kein Problem, das bei einem kleinen, gut strukturierten Datensatz sofort sichtbar ist. Ein LLM wird dort oft auch ohne sie korrekte Ergebnisse liefern. Dies kann dazu führen, dass Unternehmen ihren Wert unterschätzen – bis die Komplexität der Schemata zunimmt, Teams wachsen oder ein Quartalsbericht Unstimmigkeiten aufweist, die auf eine mehrdeutige Spaltenzuordnung zurückzuführen sind.

Der Wert von Agent-Metadaten ist struktureller Natur. Er hebt den Semantic Layer von einem reinen Präsentationsthema (das historisch auf Ebene der BI-Tools verwaltet wurde) zu einer kontrollierten Komponente des Datenkatalogs. Die geschäftliche Bedeutung wird einmal zentral in Unity Catalog definiert, versioniert, Zugriffsrichtlinien unterworfen und automatisch von jedem nachgelagerten Tool genutzt – Dashboards, Genie, Notebooks und künftige Integrationen.

Für Unternehmen, die skalieren, ist dies der Unterschied zwischen einem KI-Tool, das in den meisten Fällen korrekte Ergebnisse liefert, und einem, das dies zuverlässig tut. Synonyme eliminieren Mehrdeutigkeiten. Anzeigenamen gewährleisten Lesbarkeit. Formatspezifikationen erzwingen eine konsistente Präsentation. Keiner dieser Mechanismen hängt von der Modell-Ableitung ab, und keiner verschlechtert sich, wenn die Schemata an Komplexität gewinnen.

Die Frage, die Unternehmen sich stellen sollten, ist nicht, ob ein LLM ihre Daten ohne Metadaten interpretieren kann – in vielen Fällen kann es das. Die Frage ist, ob die reine Ableitung ein ausreichendes Fundament für das unternehmensweite Reporting und die Entscheidungsfindung bietet.

War dieser Beitrag hilfreich?

Beitrag teilen

Blog-Autor*in

Niklas Niggemann

Werkstudent Data & AI

Du hast noch Fragen zu diesem Thema? Dann sprich mich einfach an.

KI-gestützte Integration: Wie Apache Camel proprietäre Low-Code-Lösungen...

A healthcare software solution needs to be developed to aggregate information (e.g., patient data, diagnoses, lab results) from various medical systems and provide it to another component for further processing via a custom-defined API. The system must...

Künstliche Intelligenz
Softwareentwicklung
Integration

27.6.2026 | 8 Minuten Lesezeit

Christian Langmann

Wissensmanagement mit KI (Andrej Karpathys llm-wiki)

Zettelwirtschaft? Schon x mal das Gleiche gegoogelt? Noch keinen Einsatzzweck für KI gefunden? Dann könnte dieser Artikel was für dich sein! Wir schauen uns an, wie man nach dem Ansatz von Andreji Karpathys llm-wiki ein Wissensmanagement aufbauen kann...

Künstliche Intelligenz
LLM

26.6.2026 | 16 Minuten Lesezeit

Nick Prosch

SDLC mit GitLab: Human in the Loop im KI-Zeitalter

Während Coding Agenten weit verbreitet sind und immer mehr Entwickler die Ergebnisse ohne Prüfung übernehmen, ist der „Human in the Loop“ in regulierten Umfeldern unverzichtbar. Für regulierte Unternehmen sind Governance und Kontrollmechanismen essenziell...

LLM
GitLab
Softwareentwicklung
Regulatorik
Compliance

25.6.2026 | 7 Minuten Lesezeit

Erik Petzold

Autonome Entwicklungs-Workflows mit Claude Code

Die meisten Entwickelnden nutzen KI-Tools heute als schnelleres Autocomplete. In den letzten Monaten habe ich in einem Kundenprojekt einen anderen Weg eingeschlagen: Multi-Agent-Setups mit Claude Code, in denen spezialisierte Agenten parallel arbeiten...

Künstliche Intelligenz
Softwareentwicklung
Generative KI

22.6.2026 | 16 Minuten Lesezeit

Christoph Dalski

KI-Agenten im Einsatz: Der moderne SDLC mit GitLab Duo Agent Platform

Während KI die Softwareentwicklung in einigen Unternehmen komplett umkrempelt, setzen andere noch gar keine KI ein. Als Grund werden dann oft Compliance und Regulierung angegeben.Natürlich ist klar, dass man im Bereich von Gesundheit, Finanzen, kritischer...

GitLab
Softwareentwicklung
Künstliche Intelligenz

17.6.2026 | 6 Minuten Lesezeit

Erik Petzold

Vom Prompt zur Anwendung: Warum der Designschritt zählt

Wer heute mit KI-gestützten Coding-Assistants arbeitet, kennt das Versprechen: Eine Beschreibung eingeben und wenige Sekunden später steht ein funktionierendes Interface. Tools wie Cursor, Claude Code oder GitHub Copilot liefern dabei zunehmend beeindruckende...

Künstliche Intelligenz
UX/UI
Frontend
Generative KI

16.6.2026 | 8 Minuten Lesezeit

Michel Ehmen

Brainstorming mit KI — Wann man den Advocatus Diaboli spielt

Teil der Serie Domain-Driven Design trifft KI. Jedes Projekt beginnt mit einem leeren Blatt – und das leere Blatt ist der Ort, an dem gute Ideen sterben. Man bringt 8–12 Menschen in einen Raum, zeigt auf ein leeres Whiteboard und fragt: „Was ist unser...

DDD
Generative KI
LLM

15.6.2026 | 10 Minuten Lesezeit

Annegret Junker

Barrierefreiheit mit KI sicherstellen: was heute schon geht (und was nicht...

Seit Juni 2025 ist das Barrierefreiheitsstärkungsgesetz (BFSG) in Kraft. Die meisten Teams wissen, dass sie etwas tun sollten, aber im Alltag geht das Thema meistens unter. Zu aufwendig, zu speziell, zu wenig Expertise im Team, außerdem gibt es ja Wichtigeres...

Barrierefreiheit
Künstliche Intelligenz
UX/UI
Testing

2.6.2026 | 10 Minuten Lesezeit

Elina Onchul

Warum 600 PS auf einem Schotterweg nicht helfen: Das KI-Produktivitäts...

Die 600 PS eines modernen Sportwagens bringen nicht viel, wenn der Untergrund aus einem holprigen Schotterweg besteht. Quelle: Adobe Stock. Stell dir vor, du sitzt in einem hochmodernen Sportwagen mit 600 PS auf einem holprigen Schotterweg: Die schiere...

Künstliche Intelligenz
Softwareentwicklung

21.5.2026 | 4 Minuten Lesezeit

Rainer Vehns

MCP-Server bauen mit Spring AI

Einleitung Das Model Context Protocol (MCP) ist ein offener Standard, der definiert, wie KI-Modelle mit externen Tools, Diensten und Datenquellen kommunizieren. Es ersetzt individuelle Integrationen durch ein einziges, klar definiertes JSON-RPC-2.0-Protokoll...

Künstliche Intelligenz
Softwareentwicklung

17.5.2026 | 4 Minuten Lesezeit

Tobias Trelle

KI als Design-Partner — Entwerfer, Prüfer, Kritiker

Teil der Serie Domain-Driven Design Meets AI. Der vorherige Beitrag stellte den Synergetic Blueprint als strukturierten Prozess vor, der DDD-Methoden zu einem zusammenhängenden End-to-End-Design-Flow verbindet, und legte dar, dass KI jeden seiner Schritte...

14.5.2026 | 12 Minuten Lesezeit

Annegret Junker

Strukturierte Migration mit Claude Code - Context Engineering statt Prompt...

Garbage in, garbage out Im ersten Teil dieser Serie haben wir einen bewusst explorativen Ansatz gewählt: Den kompletten Quellcode hochladen, einmal prompten, schauen was passiert. Das Ergebnis war beeindruckend schnell – aber auch inkonsistent: Drei ...

Künstliche Intelligenz
Software-Modernisierung

12.5.2026 | 18 Minuten Lesezeit

Krisztina Szathmary

Christopher Flocke

Die konsumierbare Domäne: Knowledge Engineering für KI-gestützte Entwicklung

Das alte Versprechen Ende der 70er prägte der Stanford-Informatiker Edward Feigenbaum den Begriff "Knowledge Engineering". Er beschrieb damit den Prozess, Expertenwissen zu extrahieren, zu strukturieren und in einem Software-System nutzbar zu machen....

Generative KI
Künstliche Intelligenz
LLM
Software-Modernisierung
Softwareentwicklung

11.5.2026 | 9 Minuten Lesezeit

Johannes Barop

Benjamin Font Pera

Zuverlässige AI Analytics durch Data Quality: Genie Spaces in Databricks

Garbage In, Garbage Out. Dieser Grundsatz der Informatik war noch nie so kritisch wie im Zeitalter der KI. Large Language Models verstärken schlechte Datenqualität nicht, sie verpacken sie in selbstsicher klingenden Formulierungen, die selbst erfahrene...

Generative KI
LLM
Künstliche Intelligenz
Data

7.5.2026 | 8 Minuten Lesezeit

Niklas Niggemann

16000 Tests in 4 Tagen - Mit Claude Code zu 80% Testabdeckung

Die Ausgangssituation Als wir bei codecentric vor Kurzem bei einem Kunden die Codebasis eines früheren Dienstleisters übernahmen, wurde uns schnell klar, dass dies keine alltägliche Herausforderung werden würde. Backends, Frontends, Batches, Services...

Künstliche Intelligenz
Softwareentwicklung
Testing

5.5.2026 | 11 Minuten Lesezeit

Selvarajah Sivarupan

Kai Lüttmann

Der Synergetic Blueprint revisited — und warum KI alles verändert

Vom Workshop zur laufenden Software — die Lücke, über die niemand spricht Die meisten Teams, die Domain-Driven Design einführen, investieren stark in Workshops. Domain Storytelling Sessions, EventStorming Boards, Context-Mapping-Übungen — die Zusammenarbeit...

28.4.2026 | 8 Minuten Lesezeit

Annegret Junker

Wird Spring Boot obsolet?

Im März 2026 starteten wir in ein Modernisierungs-Projekt bei einem Kunden. Spring Boot war eine übliche Wahl. Es gab eine strategische Setzung. Es gab vorhandenes Know-how. Es gab bestehende Infrastruktur. Das Team stand. Die Arbeit lief an. Einer der...

Generative KI
LLM
Künstliche Intelligenz
Softwareentwicklung
Softwarearchitektur

27.4.2026 | 7 Minuten Lesezeit

Johannes Barop

EXACT Coding: KI-gestützte Entwicklung mit Qualität statt Vibe-Chaos

TL;DR Unkontrolliertes Agentic Coding („Vibe Coding“) liefert schnell Code – und oft Sicherheits- und Wartungsprobleme, sobald Software produktiv gehen soll. EXACT Coding (Example-guided AI-Collaborative Test-driven Coding) bündelt bewährte Praktiken...

Generative KI
Künstliche Intelligenz
Test Driven Development

22.4.2026 | 6 Minuten Lesezeit

Marco Emrich

Ferdinand Ade

Ask Your Data(bricks) mit Natural Language

Das derzeit wohl heißeste Thema im Bereich Daten und KI ist die Möglichkeit, mit den eigenen Daten zu sprechen. Das Schreiben von SQL-Abfragen ist bei der Datenexploration alles andere als intuitiv, daher klingt die Möglichkeit, einfach Fragen in natürlicher...

Data
Big Data

16.4.2026 | 9 Minuten Lesezeit

Niklas Niggemann

AI Governance ohne Theater

Warum Unternehmen nicht an KI scheitern, sondern an ihrer eigenen Entscheidungsordnung Es gibt in deutschen Konzernen keinen Mangel an AI Governance. Es gibt Lenkungskreise, Richtlinien, Prüfprozesse, AI Ethics Boards und Grundsatzpapiere in beeindruckender...

Künstliche Intelligenz
Datenschutz
IT-Governance
Compliance
Regulatorik

7.4.2026 | 14 Minuten Lesezeit

Alexander Rose

Harald Schlüter

Von Inferenz zu Governance: Warum Agent-Metadaten wichtig sind, auch wenn LLMs Ihre Daten bereits „verstehen“

Wo die Ableitung an ihre Grenzen stößt

Agent-Metadaten: Einbettung des Geschäftskontexts in Datendefinitionen

Der Unterschied in der Praxis: Wo Metadaten das Ergebnis verändern

Auflösung von Mehrdeutigkeiten

Präsentationsqualität

Konsistenz über Teams hinweg

Das Gesamtbild

War dieser Beitrag hilfreich?

Blog-Autor*in

Weitere Artikel in diesem Themenbereich

KI-gestützte Integration: Wie Apache Camel proprietäre Low-Code-Lösungen...

Wissensmanagement mit KI (Andrej Karpathys llm-wiki)

SDLC mit GitLab: Human in the Loop im KI-Zeitalter

Autonome Entwicklungs-Workflows mit Claude Code

KI-Agenten im Einsatz: Der moderne SDLC mit GitLab Duo Agent Platform

Vom Prompt zur Anwendung: Warum der Designschritt zählt

Brainstorming mit KI — Wann man den Advocatus Diaboli spielt

Barrierefreiheit mit KI sicherstellen: was heute schon geht (und was nicht...

Warum 600 PS auf einem Schotterweg nicht helfen: Das KI-Produktivitäts...

MCP-Server bauen mit Spring AI

KI als Design-Partner — Entwerfer, Prüfer, Kritiker

Strukturierte Migration mit Claude Code - Context Engineering statt Prompt...

Die konsumierbare Domäne: Knowledge Engineering für KI-gestützte Entwicklung

Zuverlässige AI Analytics durch Data Quality: Genie Spaces in Databricks

16000 Tests in 4 Tagen - Mit Claude Code zu 80% Testabdeckung

Der Synergetic Blueprint revisited — und warum KI alles verändert

Wird Spring Boot obsolet?

EXACT Coding: KI-gestützte Entwicklung mit Qualität statt Vibe-Chaos

Ask Your Data(bricks) mit Natural Language

AI Governance ohne Theater

Jetzt für unseren Newsletter anmelden