Beliebte Suchanfragen
//

Von Inferenz zu Governance: Warum Agent-Metadaten wichtig sind, auch wenn LLMs Ihre Daten bereits „verstehen“

15.5.2026 | 6 Minuten Lesezeit

Moderne LLMs (Large Language Models) zeigen eine starke Fähigkeit, Bedeutungen aus Spaltennamen abzuleiten. Ein Tool wie Genie kann in der Regel pct_cust_attrit_q als „Churn“ (Abwanderung) auflösen oder rev_mrr_usd allein durch Mustererkennung dem Begriff „MRR“ zuordnen. Bei einer kleinen, gut strukturierten Tabelle liefert diese Ableitung (Inference) in den meisten Fällen korrekte Ergebnisse.

„Die meisten Fälle“ entsprechen jedoch keinem Governance-Standard. Wenn Schemata auf hunderte von Spalten anwachsen, wenn mehrere Spalten als plausible Treffer für eine einzelne Abfrage infrage kommen und wenn verschiedene Abteilungen unterschiedliche Terminologien für dieselbe Kennzahl verwenden, reicht die reine Ableitung nicht mehr aus. Databricks Agent-Metadaten schließen diese Lücke – nicht indem sie KI-Tools ermöglichen, Daten zum ersten Mal zu interpretieren, sondern indem sie sicherstellen, dass sie dies konsistent, korrekt und skalierbar tun. Agent-Metadaten erfordern die Databricks Runtime 17.3 und YAML-Version 1.1.

Wo die Ableitung an ihre Grenzen stößt

Bei einer kleinen Tabelle mit sechs beschreibenden Spalten kann ein LLM oft durch Mustererkennung die korrekte Zuordnung ableiten. Betrachten Sie die folgende Kennzahlentabelle:

SpalteBeispielwert
rev_mrr_usd48250.00
pct_cust_attrit_q0.034
n_active_subs1205
dt_cohort_start2025-01-15

Genie kann vernünftigerweise schlussfolgern, dass sich rev_mrr_usd auf den MRR bezieht und dass pct_cust_attrit_q mit Kundenabwanderung (Attrition) zu tun hat. Bei einer begrenzten Anzahl von Spalten und erkennbaren Abkürzungen liefert die Ableitung angemessene Ergebnisse.

Produktionsschemata weisen diesen Grad an Klarheit jedoch selten auf. Wenn eine Tabelle die Spalten rev_mrr_usd, rev_nrr_usd, rev_grr_usd, rev_arr_usd und rev_exp_usd enthält, könnte eine Abfrage nach „Umsatz“ (Revenue) plausibel auf jede dieser Spalten passen. Wenn die Finanzabteilung eine Kennzahl als „Net Retention“ bezeichnet, während das Produkt-Team „Expansion Revenue“ verwendet – und beide die Zuordnung zu unterschiedlichen Spalten erwarten –, hat das Modell keine Grundlage für eine Eindeutigkeit (Disambiguierung). Wenn ein Schema hunderte von Spalten über mehrere Geschäftsbereiche hinweg umfasst, steigt die Wahrscheinlichkeit einer falschen Zuordnung proportional an.

In diesen Szenarien wird die Ableitung unzuverlässig – nicht aufgrund einer begrenzten Modellfähigkeit, sondern weil Mehrdeutigkeit, Umfang und terminologische Inkonsistenz das übersteigen, was Mustererkennung allein lösen kann.

Agent-Metadaten: Einbettung des Geschäftskontexts in Datendefinitionen

Agent-Metadaten in Unity Catalog ermöglichen es Unternehmen, Geschäftskontext über drei Mechanismen direkt mit ihren Datendefinitionen zu verknüpfen: Anzeigenamen (Display Names), Synonyme und Formatspezifikationen. Diese Metadaten werden innerhalb von Unity Catalog verwaltet und automatisch von nachgelagerten Tools wie Dashboards und KI-Assistenten übernommen.

Das folgende Beispiel zeigt eine Definition für einen „Metric View“ eines SaaS-Kennzahlenmodells:

1version: 1.1
2
3source: analytics.saas.subscription_metrics
4
5dimensions:
6  - name: dt_cohort_start
7    expr: dt_cohort_start
8    display_name: 'Kohorten-Startdatum'
9    synonyms:
10      - Anmeldedatum
11      - Kohortendatum
12      - Registrierungsdatum
13
14  - name: plan_tier
15    expr: plan_tier
16    display_name: 'Tarifstufe'
17    synonyms:
18      - Preismodell
19      - Abonnement-Level
20      - Plantyp
21
22  - name: region_code
23    expr: region_code
24    display_name: 'Region'
25    synonyms:
26      - Geografie
27      - Markt
28      - Verkaufsgebiet
29
30measures:
31  - name: rev_mrr_usd
32    expr: SUM(rev_mrr_usd)
33    display_name: 'Monatlich wiederkehrender Umsatz (MRR)'
34    synonyms:
35      - MRR
36      - Monatlicher Umsatz
37      - Wiederkehrender Umsatz
38    format:
39      type: currency
40      currency_code: USD
41      decimal_places:
42        type: exact
43        places: 2
44
45  - name: pct_cust_attrit_q
46    expr: AVG(pct_cust_attrit_q)
47    display_name: 'Quartalsweise Churn-Rate'
48    synonyms:
49      - Churn
50      - Abwanderungsrate
51      - Kundenabwanderung
52    format:
53      type: percentage
54      decimal_places:
55        type: exact
56        places: 1

Diese Definition nutzt drei komplementäre Metadaten-Funktionen:

Anzeigenamen (Display Names) ersetzen technische Spaltennamen durch menschenlesbare Bezeichnungen in Dashboards und Berichten. Beispielsweise wird rev_mrr_usd in jeder nachgelagerten Visualisierung als „Monthly Recurring Revenue“ (Monatlich wiederkehrender Umsatz) dargestellt.

Synonyme ermöglichen die Auffindbarkeit durch die KI. Wenn ein Benutzer Genie fragt: „Wie hoch ist unser Churn?“, ordnet das Synonym-Mapping diesen Begriff der korrekten Kennzahl zu. Jede Dimension oder Kennzahl unterstützt bis zu 10 Synonyme mit jeweils bis zu 255 Zeichen. Dies bietet ausreichend Abdeckung für die Terminologie-Variationen zwischen verschiedenen Teams und Abteilungen.

Formatspezifikationen definieren, wie Werte in Visualisierungs-Tools gerendert werden. Churn wird als 3,4 % statt 0,034 angezeigt und der MRR als $48.250,00 statt als reiner numerischer Wert. Diese Formatierungsregeln werden automatisch auf alle Dashboards übertragen, die auf dem Metric View basieren.

Der Unterschied in der Praxis: Wo Metadaten das Ergebnis verändern

Bei einem einfachen Schema reicht die Ableitung von Genie oft aus, um gängige Abkürzungen aufzulösen und korrekte Ergebnisse ohne Metadaten zu liefern. Der Wert von Agent-Metadaten wird in drei Bereichen deutlich: Auflösung von Mehrdeutigkeiten, Präsentationsqualität und Konsistenz über Teams hinweg.

Auflösung von Mehrdeutigkeiten

Betrachten Sie die Abfrage: „Zeige mir den MRR nach Tarifstufe.“

In der oben genannten Tabelle mit sechs Spalten löst Genie dies ohne Metadaten korrekt auf. Die Abkürzung „mrr“ ist im Spaltennamen enthalten, und plan_tier ist die einzige plausible Spalte für eine Gruppierung. Es gibt keine Mehrdeutigkeit aufzulösen.

Betrachten Sie nun ein Produktionsschema mit den folgenden Umsatzspalten:

SpalteBeschreibung
rev_mrr_usdMonthly Recurring Revenue
rev_nrr_usdNet Revenue Retention
rev_grr_usdGross Revenue Retention
rev_arr_usdAnnual Recurring Revenue
rev_exp_usdExpansion Revenue

Dieselbe Abfrage („Zeige mir den Umsatz nach Plan“) weist nun fünf plausible Treffer auf. Ohne Metadaten muss das Modell ableiten, welche Umsatzspalte der Benutzer meint, ohne dass ein Mechanismus eine korrekte Auswahl garantiert. Mit Synonymen, die „MRR“ explizit auf rev_mrr_usd und „Expansion Revenue“ auf rev_exp_usd mappen, wird die Auflösung deterministisch (eindeutig).

Präsentationsqualität

Selbst wenn Genie die korrekte Spalte ohne Metadaten findet, unterscheidet sich die Ausgabequalität erheblich.

Ohne Agent-Metadaten:

pct_cust_attrit_qregion_code
0.034NA
0.051EMEA
0.028APAC

Mit Agent-Metadaten:

RegionQuartalsweise Churn-Rate
NA3,4 %
EMEA5,1 %
APAC2,8 %

Die zugrunde liegenden Daten sind identisch. Anzeigenamen ersetzen jedoch die technischen Spaltenüberschriften, und Formatspezifikationen rendern 0,034 als 3,4 %. Dies stellt die Mindestverbesserung dar, die Agent-Metadaten bieten, unabhängig davon, ob die Ableitung erfolgreich gewesen wäre. Für Stakeholder, die Ergebnisse in Dashboards oder Genie-Antworten konsumieren, ist dieser Unterschied nicht rein kosmetisch: Eine Tabelle mit rohen Dezimalzahlen zwingt den Leser, Einheit und Kontext selbst abzuleiten. Eine ordnungsgemäß formatierte Tabelle kommuniziert beides sofort.

Konsistenz über Teams hinweg

Der bedeutendste Vorteil von Agent-Metadaten zeigt sich nicht in einem Einzelbenutzertest. Wenn die Finanzabteilung nach „Net Retention“ fragt und das Produkt-Team nach „Expansion Revenue“, stellen Synonyme sicher, dass beide Begriffe der jeweils korrekten Spalte zugeordnet werden. Ohne Metadaten verlassen sich beide Abfragen auf die Interpretation des LLMs, die je nach Formulierung, Kontext oder Modellversion variieren kann.

Agent-Metadaten eliminieren diese Variabilität. Das Mapping ist explizit, kontrolliert (governed) und versioniert innerhalb von Unity Catalog. Jeder Benutzer löst über jedes Tool hinweg denselben Begriff in dieselbe Spalte auf – nicht weil das Modell ihn korrekt abgeleitet hat, sondern weil die Definition autoritativ ist.

Das Gesamtbild

Agent-Metadaten lösen kein Problem, das bei einem kleinen, gut strukturierten Datensatz sofort sichtbar ist. Ein LLM wird dort oft auch ohne sie korrekte Ergebnisse liefern. Dies kann dazu führen, dass Unternehmen ihren Wert unterschätzen – bis die Komplexität der Schemata zunimmt, Teams wachsen oder ein Quartalsbericht Unstimmigkeiten aufweist, die auf eine mehrdeutige Spaltenzuordnung zurückzuführen sind.

Der Wert von Agent-Metadaten ist struktureller Natur. Er hebt den Semantic Layer von einem reinen Präsentationsthema (das historisch auf Ebene der BI-Tools verwaltet wurde) zu einer kontrollierten Komponente des Datenkatalogs. Die geschäftliche Bedeutung wird einmal zentral in Unity Catalog definiert, versioniert, Zugriffsrichtlinien unterworfen und automatisch von jedem nachgelagerten Tool genutzt – Dashboards, Genie, Notebooks und künftige Integrationen.

Für Unternehmen, die skalieren, ist dies der Unterschied zwischen einem KI-Tool, das in den meisten Fällen korrekte Ergebnisse liefert, und einem, das dies zuverlässig tut. Synonyme eliminieren Mehrdeutigkeiten. Anzeigenamen gewährleisten Lesbarkeit. Formatspezifikationen erzwingen eine konsistente Präsentation. Keiner dieser Mechanismen hängt von der Modell-Ableitung ab, und keiner verschlechtert sich, wenn die Schemata an Komplexität gewinnen.

Die Frage, die Unternehmen sich stellen sollten, ist nicht, ob ein LLM ihre Daten ohne Metadaten interpretieren kann – in vielen Fällen kann es das. Die Frage ist, ob die reine Ableitung ein ausreichendes Fundament für das unternehmensweite Reporting und die Entscheidungsfindung bietet.

Beitrag teilen

//

Weitere Artikel in diesem Themenbereich

Entdecke spannende weiterführende Themen und lass dich von der codecentric Welt inspirieren.

//
Jetzt für unseren Newsletter anmelden

Alles Wissenswerte auf einen Klick:
Unser Newsletter bietet dir die Möglichkeit, dich ohne großen Aufwand über die aktuellen Themen bei codecentric zu informieren.