Moderne LLMs (Large Language Models) zeigen eine starke Fähigkeit, Bedeutungen aus Spaltennamen abzuleiten. Ein Tool wie Genie kann in der Regel pct_cust_attrit_q als „Churn“ (Abwanderung) auflösen oder rev_mrr_usd allein durch Mustererkennung dem Begriff „MRR“ zuordnen. Bei einer kleinen, gut strukturierten Tabelle liefert diese Ableitung (Inference) in den meisten Fällen korrekte Ergebnisse.
„Die meisten Fälle“ entsprechen jedoch keinem Governance-Standard. Wenn Schemata auf hunderte von Spalten anwachsen, wenn mehrere Spalten als plausible Treffer für eine einzelne Abfrage infrage kommen und wenn verschiedene Abteilungen unterschiedliche Terminologien für dieselbe Kennzahl verwenden, reicht die reine Ableitung nicht mehr aus. Databricks Agent-Metadaten schließen diese Lücke – nicht indem sie KI-Tools ermöglichen, Daten zum ersten Mal zu interpretieren, sondern indem sie sicherstellen, dass sie dies konsistent, korrekt und skalierbar tun. Agent-Metadaten erfordern die Databricks Runtime 17.3 und YAML-Version 1.1.
Wo die Ableitung an ihre Grenzen stößt
Bei einer kleinen Tabelle mit sechs beschreibenden Spalten kann ein LLM oft durch Mustererkennung die korrekte Zuordnung ableiten. Betrachten Sie die folgende Kennzahlentabelle:
| Spalte | Beispielwert |
|---|---|
rev_mrr_usd | 48250.00 |
pct_cust_attrit_q | 0.034 |
n_active_subs | 1205 |
dt_cohort_start | 2025-01-15 |
Genie kann vernünftigerweise schlussfolgern, dass sich rev_mrr_usd auf den MRR bezieht und dass pct_cust_attrit_q mit Kundenabwanderung (Attrition) zu tun hat. Bei einer begrenzten Anzahl von Spalten und erkennbaren Abkürzungen liefert die Ableitung angemessene Ergebnisse.
Produktionsschemata weisen diesen Grad an Klarheit jedoch selten auf. Wenn eine Tabelle die Spalten rev_mrr_usd, rev_nrr_usd, rev_grr_usd, rev_arr_usd und rev_exp_usd enthält, könnte eine Abfrage nach „Umsatz“ (Revenue) plausibel auf jede dieser Spalten passen. Wenn die Finanzabteilung eine Kennzahl als „Net Retention“ bezeichnet, während das Produkt-Team „Expansion Revenue“ verwendet – und beide die Zuordnung zu unterschiedlichen Spalten erwarten –, hat das Modell keine Grundlage für eine Eindeutigkeit (Disambiguierung). Wenn ein Schema hunderte von Spalten über mehrere Geschäftsbereiche hinweg umfasst, steigt die Wahrscheinlichkeit einer falschen Zuordnung proportional an.
In diesen Szenarien wird die Ableitung unzuverlässig – nicht aufgrund einer begrenzten Modellfähigkeit, sondern weil Mehrdeutigkeit, Umfang und terminologische Inkonsistenz das übersteigen, was Mustererkennung allein lösen kann.
Agent-Metadaten: Einbettung des Geschäftskontexts in Datendefinitionen
Agent-Metadaten in Unity Catalog ermöglichen es Unternehmen, Geschäftskontext über drei Mechanismen direkt mit ihren Datendefinitionen zu verknüpfen: Anzeigenamen (Display Names), Synonyme und Formatspezifikationen. Diese Metadaten werden innerhalb von Unity Catalog verwaltet und automatisch von nachgelagerten Tools wie Dashboards und KI-Assistenten übernommen.
Das folgende Beispiel zeigt eine Definition für einen „Metric View“ eines SaaS-Kennzahlenmodells:
1version: 1.1 2 3source: analytics.saas.subscription_metrics 4 5dimensions: 6 - name: dt_cohort_start 7 expr: dt_cohort_start 8 display_name: 'Kohorten-Startdatum' 9 synonyms: 10 - Anmeldedatum 11 - Kohortendatum 12 - Registrierungsdatum 13 14 - name: plan_tier 15 expr: plan_tier 16 display_name: 'Tarifstufe' 17 synonyms: 18 - Preismodell 19 - Abonnement-Level 20 - Plantyp 21 22 - name: region_code 23 expr: region_code 24 display_name: 'Region' 25 synonyms: 26 - Geografie 27 - Markt 28 - Verkaufsgebiet 29 30measures: 31 - name: rev_mrr_usd 32 expr: SUM(rev_mrr_usd) 33 display_name: 'Monatlich wiederkehrender Umsatz (MRR)' 34 synonyms: 35 - MRR 36 - Monatlicher Umsatz 37 - Wiederkehrender Umsatz 38 format: 39 type: currency 40 currency_code: USD 41 decimal_places: 42 type: exact 43 places: 2 44 45 - name: pct_cust_attrit_q 46 expr: AVG(pct_cust_attrit_q) 47 display_name: 'Quartalsweise Churn-Rate' 48 synonyms: 49 - Churn 50 - Abwanderungsrate 51 - Kundenabwanderung 52 format: 53 type: percentage 54 decimal_places: 55 type: exact 56 places: 1
Diese Definition nutzt drei komplementäre Metadaten-Funktionen:
Anzeigenamen (Display Names) ersetzen technische Spaltennamen durch menschenlesbare Bezeichnungen in Dashboards und Berichten. Beispielsweise wird rev_mrr_usd in jeder nachgelagerten Visualisierung als „Monthly Recurring Revenue“ (Monatlich wiederkehrender Umsatz) dargestellt.
Synonyme ermöglichen die Auffindbarkeit durch die KI. Wenn ein Benutzer Genie fragt: „Wie hoch ist unser Churn?“, ordnet das Synonym-Mapping diesen Begriff der korrekten Kennzahl zu. Jede Dimension oder Kennzahl unterstützt bis zu 10 Synonyme mit jeweils bis zu 255 Zeichen. Dies bietet ausreichend Abdeckung für die Terminologie-Variationen zwischen verschiedenen Teams und Abteilungen.
Formatspezifikationen definieren, wie Werte in Visualisierungs-Tools gerendert werden. Churn wird als 3,4 % statt 0,034 angezeigt und der MRR als $48.250,00 statt als reiner numerischer Wert. Diese Formatierungsregeln werden automatisch auf alle Dashboards übertragen, die auf dem Metric View basieren.
Der Unterschied in der Praxis: Wo Metadaten das Ergebnis verändern
Bei einem einfachen Schema reicht die Ableitung von Genie oft aus, um gängige Abkürzungen aufzulösen und korrekte Ergebnisse ohne Metadaten zu liefern. Der Wert von Agent-Metadaten wird in drei Bereichen deutlich: Auflösung von Mehrdeutigkeiten, Präsentationsqualität und Konsistenz über Teams hinweg.
Auflösung von Mehrdeutigkeiten
Betrachten Sie die Abfrage: „Zeige mir den MRR nach Tarifstufe.“
In der oben genannten Tabelle mit sechs Spalten löst Genie dies ohne Metadaten korrekt auf. Die Abkürzung „mrr“ ist im Spaltennamen enthalten, und plan_tier ist die einzige plausible Spalte für eine Gruppierung. Es gibt keine Mehrdeutigkeit aufzulösen.
Betrachten Sie nun ein Produktionsschema mit den folgenden Umsatzspalten:
| Spalte | Beschreibung |
|---|---|
rev_mrr_usd | Monthly Recurring Revenue |
rev_nrr_usd | Net Revenue Retention |
rev_grr_usd | Gross Revenue Retention |
rev_arr_usd | Annual Recurring Revenue |
rev_exp_usd | Expansion Revenue |
Dieselbe Abfrage („Zeige mir den Umsatz nach Plan“) weist nun fünf plausible Treffer auf. Ohne Metadaten muss das Modell ableiten, welche Umsatzspalte der Benutzer meint, ohne dass ein Mechanismus eine korrekte Auswahl garantiert. Mit Synonymen, die „MRR“ explizit auf rev_mrr_usd und „Expansion Revenue“ auf rev_exp_usd mappen, wird die Auflösung deterministisch (eindeutig).
Präsentationsqualität
Selbst wenn Genie die korrekte Spalte ohne Metadaten findet, unterscheidet sich die Ausgabequalität erheblich.
Ohne Agent-Metadaten:
| pct_cust_attrit_q | region_code |
|---|---|
| 0.034 | NA |
| 0.051 | EMEA |
| 0.028 | APAC |
Mit Agent-Metadaten:
| Region | Quartalsweise Churn-Rate |
|---|---|
| NA | 3,4 % |
| EMEA | 5,1 % |
| APAC | 2,8 % |
Die zugrunde liegenden Daten sind identisch. Anzeigenamen ersetzen jedoch die technischen Spaltenüberschriften, und Formatspezifikationen rendern 0,034 als 3,4 %. Dies stellt die Mindestverbesserung dar, die Agent-Metadaten bieten, unabhängig davon, ob die Ableitung erfolgreich gewesen wäre. Für Stakeholder, die Ergebnisse in Dashboards oder Genie-Antworten konsumieren, ist dieser Unterschied nicht rein kosmetisch: Eine Tabelle mit rohen Dezimalzahlen zwingt den Leser, Einheit und Kontext selbst abzuleiten. Eine ordnungsgemäß formatierte Tabelle kommuniziert beides sofort.
Konsistenz über Teams hinweg
Der bedeutendste Vorteil von Agent-Metadaten zeigt sich nicht in einem Einzelbenutzertest. Wenn die Finanzabteilung nach „Net Retention“ fragt und das Produkt-Team nach „Expansion Revenue“, stellen Synonyme sicher, dass beide Begriffe der jeweils korrekten Spalte zugeordnet werden. Ohne Metadaten verlassen sich beide Abfragen auf die Interpretation des LLMs, die je nach Formulierung, Kontext oder Modellversion variieren kann.
Agent-Metadaten eliminieren diese Variabilität. Das Mapping ist explizit, kontrolliert (governed) und versioniert innerhalb von Unity Catalog. Jeder Benutzer löst über jedes Tool hinweg denselben Begriff in dieselbe Spalte auf – nicht weil das Modell ihn korrekt abgeleitet hat, sondern weil die Definition autoritativ ist.
Das Gesamtbild
Agent-Metadaten lösen kein Problem, das bei einem kleinen, gut strukturierten Datensatz sofort sichtbar ist. Ein LLM wird dort oft auch ohne sie korrekte Ergebnisse liefern. Dies kann dazu führen, dass Unternehmen ihren Wert unterschätzen – bis die Komplexität der Schemata zunimmt, Teams wachsen oder ein Quartalsbericht Unstimmigkeiten aufweist, die auf eine mehrdeutige Spaltenzuordnung zurückzuführen sind.
Der Wert von Agent-Metadaten ist struktureller Natur. Er hebt den Semantic Layer von einem reinen Präsentationsthema (das historisch auf Ebene der BI-Tools verwaltet wurde) zu einer kontrollierten Komponente des Datenkatalogs. Die geschäftliche Bedeutung wird einmal zentral in Unity Catalog definiert, versioniert, Zugriffsrichtlinien unterworfen und automatisch von jedem nachgelagerten Tool genutzt – Dashboards, Genie, Notebooks und künftige Integrationen.
Für Unternehmen, die skalieren, ist dies der Unterschied zwischen einem KI-Tool, das in den meisten Fällen korrekte Ergebnisse liefert, und einem, das dies zuverlässig tut. Synonyme eliminieren Mehrdeutigkeiten. Anzeigenamen gewährleisten Lesbarkeit. Formatspezifikationen erzwingen eine konsistente Präsentation. Keiner dieser Mechanismen hängt von der Modell-Ableitung ab, und keiner verschlechtert sich, wenn die Schemata an Komplexität gewinnen.
Die Frage, die Unternehmen sich stellen sollten, ist nicht, ob ein LLM ihre Daten ohne Metadaten interpretieren kann – in vielen Fällen kann es das. Die Frage ist, ob die reine Ableitung ein ausreichendes Fundament für das unternehmensweite Reporting und die Entscheidungsfindung bietet.
Weitere Artikel in diesem Themenbereich
Entdecke spannende weiterführende Themen und lass dich von der codecentric Welt inspirieren.
Blog-Autor*in
Niklas Niggemann
Werkstudent Data & AI
Du hast noch Fragen zu diesem Thema? Dann sprich mich einfach an.
Du hast noch Fragen zu diesem Thema? Dann sprich mich einfach an.