Schnelles Training eines Recommendation-Modells durch BigQuery ML

26.7.2021 | 11 Minuten Lesezeit

Machine Learning (ML) kann nur durch Modelle in der Produktion Business Value erzeugen. Allerdings kann die Zeitspanne zwischen der Entwicklung der nächsten Iteration eines Modells und dessen Einsatz in einer Produktionsumgebung massiv sein. Dies gilt auch, wenn ihr gerade erst mit der Einführung des maschinellen Lernens in eurem Unternehmen beginnt und das allererste Modell erstellen wollt. Denn zu einem ML-System in Produktion gehört mehr als bloß der Algorithmus, der die Daten verarbeitet [1] (siehe Abbildung 1). Unserer Erfahrung nach wird häufig überproportional viel in die „ML-Code“-Logik investiert. Wir wollten wissen, inwiefern der BigQuery-ML-(BQML-)Dienst auf der Google Cloud Platform (GCP) Data Scientists und Data Engineers bei der Entwicklung eines ML-Modells für Recommendations unterstützen kann.

Abbildung 1: Nur ein kleiner Teil von ML-Systemen besteht aus dem eigentlichen ML-Code. Die notwendige, umliegende Infrastruktur ist komplex.

Wir sehen uns ein typisches Beispiel aus der Praxis an: Recommendation Engines. Ihr Einsatz auf dem Markt ist umfassend, bildet einen wichtigen Bestandteil für E-Commerce-Geschäftsmodelle und ist auch für viele andere Branchen relevant. Die Fähigkeit, eine solche Engine schnell und in hoher Qualität zu implementieren, erzeugt daher einen direkten Mehrwert für digitale Produkte.

Wir sehen diesen Artikel in einer Reihe mit Artikeln unserer Kollegen Marcel Mikl („Wie man Data-Science-Projekte nicht in die PoC-Sackgasse manövriert“ – zuerst erschienen im Softwerker Vol. 14) [3], Nico Axtmann („Data Science in der Praxis: Häufige Fehler und Vorgehen“) [4] und Roman Seyffarth (“Machine learning: Moving from experiments to production”) [5].

Dieser Artikel ist zuerst erschienen in unserem Softwerker Magazin Vol. 15, „Weniger ist mehr“, unter dem Titel „BigQuery ML für Recommendations auf dem Prüfstand“. Für die Veröffentlichung auf diesem Blog wurde dieser überarbeitet und in zwei Posts geteilt, diesen hier mit Technik-Fokus und einen mit Business-Fokus. Timo Böhm hat in seinem begleitenden Post mit Business-Fokus die Vorteile der Nutzung von BigQuery ML bezüglich der Time-to-Market untersucht.

Recommendations mit SQL mit BigQuery ML (BQML) erstellen

Im Allgemeinen wirbt Google für BigQuery als „serverloses, hochskalierbares und kostengünstiges Data Warehouse“ [6]. Für unseren Zweck konzentrieren wir uns auf dessen ML-Fähigkeiten, die über Standard-SQL-Abfragen (!) integriert werden. BQML bietet dazu einen ständig wachsenden Satz von trainierbaren, parametrisierbaren Modellen (wie lineare Regression, K-Means, Matrixfaktorisierung und sogar „Boosted Trees“ und Deep-Learning-Modelle) [7]. Diese können per Mausklick zum Serverendpoint für Echtzeit-Serving exportiert werden [8].

Zunächst möchten wir darüber informieren, wie der Algorithmus funktioniert. Dann geben wir einen architektonischen Überblick und gehen anschließend in die Implementierungsdetails.

Der Algorithmus: Matrix-Faktorisierung

In diesem Artikel konzentrieren wir uns auf das kollaborative Filtern („Collaborative Filtering“). Diese Gruppe von Algorithmen baut auf Informationen auf Benutzerebene und deren Interaktion mit bestimmten Inhalten, Elementen oder Diensten auf, um daraus Empfehlungen abzuleiten. Dabei fokussieren wir uns auf eine spezifische Implementierung: die Matrix-Faktorisierung.

Wir werden hier nicht auf die mathematischen Details eingehen, so dass es ausreicht zu wissen, dass die Matrixfaktorisierung alle verfügbaren Informationen gleichzeitig zur Vorhersage nutzt. Das heißt, die unbekannte Bewertung eines Benutzers wird auf der Grundlage von Benutzern mit ähnlichen Mustern vorhergesagt. Input und Output dieses Ansatzes sehen aus wie in Abbildung 2:

Abbildung 2: Matrix-Faktorisierung veranschaulicht, Credits an Google [9].

Architektur

Google hat BigQuery so konzipiert, dass es für viele Anwendungsfälle autark ist. Das heißt, es enthält den Datensatz, den wir für das Training eines ML-Modells verwenden, enthält Funktionen zur Transformation der Daten und erstellt und evaluiert das ML-Modell selbst. Batch-Vorhersagen können die Data-Science-Teams direkt in BigQuery durch SQL-Statements vornehmen. Im Falle von Online-Vorhersagen kann das Modell zu GCPs „AI Platform“ exportiert und von dort gemanaged mit Autoscaling über einen API Endpoint Prädiktionen liefern [10] (siehe Abbildung 3).

Abbildung 3: Batch- und Online-Prädiktion mit einem BQML-Modell.

Datensatz

Für unseren Test verwenden wir einen Webmarketing-Datensatz, der auf GCP öffentlich verfügbar ist. Die Daten wurden von der Webseite der österreichischen Zeitung https://kurier.at/ gesammelt. Laut Wikipedia ist sie eine überregionale österreichische Tageszeitung,deren Onlinepräsenz bereits seit 1996 existiert. Der Datensatz erfasst rund 280.000 Benutzerinteraktionen mit Artikeln auf der Website und enthält die Dauer jedes Besuchs. Unser Ziel ist es, diese Daten zu nutzen, um auf der Grundlage der impliziten Präferenzen der Nutzer weitere Artikel zu empfehlen.

Arbeitsschritte

Wir verwenden das offizielle BQML Tutorial von Google als Ausgangpunkt [11]. Der Datenimport und das Modelltraining können durch reines SQL in der BigQuery GUI ausgeführt werden. Wir werden folgende Schritte näher erläutern:

Datenimport
Modelltraining
Modellevaluation
Batch-Prädiktion
Online-Prädiktion

Wir gehen nun im Einzelnen auf die Schritte ein.

Datenimport

Der Datenimport ist ein längeres SQL-Statement, das hier zu viel Platz benötigen würde. Wir verweisen gerne auf das offizielle Google Tutorial. Die Daten werden in die Tabelle bqml_tutorial.analytics_session_data geladen und sehen aus wie in Abbildung 4.

Abbildung 4: Auszug der eingeladenen Daten. Hinter der visitorId verbirgt sich ein Nutzer der Website, und hinter einer contentId verbergen sich Artikel der Zeitung. session_duration ist die Dauer in Millisekunden, die der Nutzer auf der Seite verbracht hat.

Modelltraining

Das Modelltraining funktioniert ebenfalls durch ein SQL-Statement (siehe Codesnippet 1). Keine Provision von Maschinen und kein Coding abseits von SQL ist dafür notwendig. Wir skalieren das Rating auf das Intervall [0,1]. Als Daumenregel schneiden wir alle Sessionlängen bei 277.190 ms ab, um die Ausreißer nach oben zu eliminieren (z. B. jemand hatte das Browserfenster die ganze Nacht geöffnet). 277 Sekunden entspricht dem 90 % Quantil. Das bedeutet, dass 90 Prozent der Sessionlängen einer visitorId auf einer contentId kürzer war als diese Zeitspanne. Für die restlichen Parameter, Regularisierung und Anzahl Faktoren (in Abbildung 4 mit „k“ bezeichnet), haben wir einfach die von Google angegebenen Standardwerte angenommen.

1CREATE OR REPLACE MODEL
2  bqml_tutorial.my_implicit_mf_model
3  OPTIONS (
4    model_type='matrix_factorization',
5    feedback_type='implicit',
6    user_col='visitorId',
7    item_col='contentId',
8    rating_col='rating',
9    l2_reg=1.0,  -- Default
10    num_factors=18) AS  -- calculated default
11SELECT
12  visitorId,
13  contentId,
14  IF ((session_duration / 277190) >= 1,
15      1, session_duration / 277190) AS rating
16FROM
17  bqml_tutorial.analytics_session_data

Codesnippet 1: Erstellen eines matrix_factorization Modells in BigQuery.

Das Training für einen Datensatz von 280.000 Nutzer-Artikel-Interaktionen hat in unserem Fall 9 Minuten gedauert. Wir können in Abbildung 5 sehen, dass das Modell konvergiert ist.

Abbildung 5: Wir sehen, dass das Modell konvergiert ist (Loss sinkt und stagniert auf einem Level). In unserem Fall hat das Training frühzeitig gestoppt („Early Stopping“), weil keine Verbesserung mehr zu sehen war.

Modellevaluation

Jedes maschinelle Lernmodell kann aus zwei verschiedenen Perspektiven evaluiert werden:

Basierend auf ML-Metriken [12]
Basierend auf Business-Metriken, wie z. B. Clickthrough Rate, Conversion Rate, Average Basket Size [13].

BQML bietet ML-Metriken direkt an (siehe Abbildung 6). Business-Metriken sind zum jetzigen Zeitpunkt noch nicht verfügbar. Spätestens mit Rollout des MVP sollte jedoch gesichert werden, dass der Einfluss des Recommenders aus einer Geschäftsperspektive gemessen werden kann.

Abbildung 6: Metriken des trainierten Modells werden in der BigQuery UI dargestellt.

Wir werden hier nicht im Detail auf die Iteration eingehen und uns an den naiven Ansatz mit Standardparametern halten. Es gäbe zwei verbesserungswürdige Bereiche:

Unser Weg zur Normalisierung der Sitzungsdauer könnte verbessert werden, indem wir die Daten genauer untersuchen und vielleicht auch andere Faktoren berücksichtigen, z. B. die Länge des betrachteten Artikels.
Ein Hyperparameter-Tuning (Regularisierung und Anzahl Faktoren) würde die Ergebnisse sicherlich weiter verbessern, auch wenn es schwer zu sagen ist, wie sehr.

Im Allgemeinen sind wir zufrieden, dass das Modell konvergiert ist und die Metriken nicht komplett unrealistisch aussehen („Mean average Precision“ sollte in [0,1] und „Normalized discounted cumulative gain“ in [0,100] liegen, wobei größer gleich besser gilt).

Batch-Prädiktion

Die Batch-Prädiktion kann via SQL durchgeführt werden (siehe Codesnippet 2). Beispielsweise gibt folgende SQL-Query nach nur wenigen Sekunden eine Tabelle mit den Top-5-Artikeln (contentId) je visitorId zurück:

1CREATE TABLE 
2  bqml_tutorial.top_5_contentIds_per_visitorId
3AS
4SELECT
5  visitorId,
6  ARRAY_AGG(
7    STRUCT(contentId, predicted_rating_confidence)
8    ORDER BY predicted_rating_confidence DESC
9    LIMIT 5) AS recommendations
10FROM (
11  SELECT *
12  FROM ML.RECOMMEND(
13    MODEL bqml_tutorial.my_implicit_mf_model
14  )
15)
16GROUP BY visitorId

Codesnippet 2: Batch-Prädiktion in SQL

Online-Prädiktion

Um die Online-Prädiktion zu ermöglichen, müssen wir das Modell zunächst aus BigQuery exportieren, und dann in GCP „AI Platform“ importieren.

Das Modell kann einfach über die GUI oder durch ein Skript in den Google Cloud Storage (GCS) exportiert werden (siehe Abbildung 7). Man sieht dann, dass das trainierte Modell ein Tensorflow-Model ist (Abbildung 8).

Abbildung 7: Die “Export Model”-Funktionalität von BQML

Abbildung 8: Das exportierte Modell liegt in einem Standard-Tensorflow-Format vor [14].

Dann muss man folgendem Prozess folgen, um das Modell für Online-Prädiktion zu deployen (Abbilung 9):

Gehe zu AI Platform -> Models -> Create Model -> Create Version -> Link zum Model auf GCS. Anschließend erscheint das Modell auf der GCP AI Platform und kann nach nur wenigen Minuten über einen Endpoint abgefragt werden.

Abbildung 9: Unser Modell liegt nun abholbereit auf einem Endpoint. Wir haben für das Deployment die Option „Autoscaling“ ausgewählt, d. h. es sollte theoretisch selbst eine stark nach oben schwankende Anzahl Requests bedienen können.

Reservierungen für BigQuery Slots

Wir weisen darauf hin, dass für das Training von BQML-Matrixfaktorisierung sogenannte “BigQuery Slots” reserviert werden müssen [15]. Die kleinste buchbare Einheit sind 100 Slots (Stand Juni 2021), die pro Stunde in Summe 4 Euro kosten. Man kann diese Slots aber sekündlich ordern und abbestellen. Es entsteht jedoch ein Overhead, die Nutzung und Buchung der Slots gewissenhaft zu monitoren, damit keine unnötigen Kosten entstehen.

Qualität

Insbesondere bei Recommendation-Systemen sind das „Kaltstartverhalten“ und die Variation in den Recommendations Eigenschaften, auf die man achten sollte.

„Kaltstart“

Das Kaltstart-Problem scheint für uns zufriedenstellend gelöst. Wir können frei erfundene visitorIds in das Modell geben, es kommen die vom Modell gefundenen Standard-Recommendations zurück. Neue Nutzer können also problemlos mit Recommendations versorgt werden. Obwohl es schwierig ist, zu einer endgültigen Schlussfolgerung zu kommen, erscheinen uns die Ergebnisse vernünftig. Die Top Ten der Standardempfehlungen kombinieren populäre Artikel mit anderen, was darauf hinweist, dass das Modell sowohl die allgemeine Popularität als auch die durchschnittlichen Präferenzen der Benutzer erfolgreich berücksichtigt.

Variation in den Recommendations

Wir sind auch mit der Variation zwischen den Empfehlungen für bekannte Benutzer zufrieden. Beispielsweise drehen sich die Empfehlungen für einige Benutzer um Bildung, während andere Nachrichten über Prominente erhalten. Dies deutet darauf hin, dass unser Out-of-the-box-Modell in der Lage war, Cluster von Präferenzen innerhalb der Webseitenbesucher zu erkennen und in passende Empfehlungen umzusetzen.

Alternative und ergänzende Services

Die vollständig gemanagte „Recommendations AI“ [16] kann stattdessen als Alternative genutzt werden. Mehr Freiheit, aber auch mehr Aufwand würde es bedeuten, Googles Open-Source-Framework “TFX” (TensorFlow eXtended) [17] für „ML Production Pipelines“ zu nutzen. Zum Zeitpunkt der Erstellung dieses Artikels bietet TFX keine Matrixfaktorisierung an, aber es enthält alle Bausteine, um dies zu erreichen. Es kodiert die „Best Practices“ für Machine Learning Pipelines von Google.

Ergänzend zu BQML bietet das GCP-Ökosystem Kubeflow [18] als Pipeline-Orchestrator für maschinelles Lernen an. Es kann BQML-Pipelines planen und daneben beliebige Pipelines hosten, auch viel mehr kundenspezifische ML-Lösungen oder TFX Pipelines.

Fazit

In unserem Beispiel waren die Daten direkt in BigQuery zugänglich. Wie schnell die Daten für den gewünschten Use Case in BigQuery verfügbar sind, hängt jedoch von vielen Faktoren ab (z. B.langwierige unternehmensinterne Prozesse). Wir haben folgendes festgestellt:

Wie schnell können wir das Recommendation System zum Laufen bringen?

Unser erstes Modell war nach etwa einer Stunde für die Auswertung bereit, einschließlich Diskussionen über den besten Cut-off-Wert und die Einrichtung von Slots für die BigQuery-Berechnungen.

Wie einfach ist es, die Ergebnisse zu verbessern, d. h. wie bequem sind Iterationen?

Iterationen mit anderen Hyperparametern würden genauso schnell funktionieren wie das Einzeltraining.

Wie viel Arbeit ist erforderlich, um die Ergebnisse in ein Produkt oder eine Dienstleistung zu integrieren?

Nach unserem eintägigen Test könnten wir bereits zwei Produkte zur Verprobung ausliefern:

Ein Analysetool für die hauseigene Analyseabteilung. Einzige Voraussetzung ist, dass der Nutzer SQL beherrscht.
Unser durch AI Platform zur Verfügung gestellter Endpoint könnte jetzt durch andere Services konsumiert werden (wie z.B. eine Website).

Aus unserer Sicht sind Dienste wie BigQuery ML ein großer Schritt zur Kommoditisierung und Kommerzialisierung von Machine Learning. Darüber hinaus ermöglichen sie eine hohe Entwicklungs- und Integrationsgeschwindigkeit. Uns hat der Service überzeugt. Der tatsächliche Arbeitsablauf hat unsere Erwartungen in punkto Geschwindigkeit und Benutzerfreundlichkeit sogar übertroffen.

Referenzen

[1] „Hidden Technical Debt in Machine Learning Systems – NIPS ….“ https://papers.nips.cc/paper/5656-hidden-technical-debt-in-machine-learning-systems.pdf . Accessed 27 Jun. 2020.

[2] „Introduction to BigQuery ML | Google Cloud.“ . Accessed 27 Jun. 2020.

[3] „Wie man Data-Science-Projekte nicht in die PoC-Sackgasse ….“ 27 Mar. 2020, /wissens-hub/blog/wie-man-data-science-projekte-nicht-in-die-poc-sackgasse-manoevriert . Accessed 27 Jun. 2020.

[4] „Data Science in der Praxis: Häufige Fehler und Vorgehen – Blog.“ 29 Aug. 2019, /wissens-hub/blog/data-science-in-der-praxis-haeufige-fehler-und-vorgehen . Accessed 27 Jun. 2020.

[5] „Machine learning: Moving from experiments to production – Blog.“ 19 Mar. 2019, /en/knowledge-hub/blog/machine-learning-experiments-production . Accessed 27 Jun. 2020.

[6] „BigQuery – Google Cloud.“ https://cloud.google.com/bigquery . Accessed 27 Jun. 2020.

[7] „REST Resource: models | BigQuery | Google Cloud.“ https://cloud.google.com/bigquery/docs/reference/rest/v2/models . Accessed 27 Jun. 2020.

[8] „Exporting models | BigQuery ML | Google Cloud.“ https://cloud.google.com/bigquery-ml/docs/exporting-models . Accessed 27 Jun. 2020.

[9] „Building a Recommendation System in TensorFlow: Overview ….“ https://cloud.google.com/solutions/machine-learning/recommendation-system-tensorflow-overview . Accessed 27 Jun. 2020.

[10] „Exporting a BigQuery ML model for online prediction | Google ….“ https://cloud.google.com/bigquery-ml/docs/export-model-tutorial . Accessed 27 Jun. 2020.

[11] „Using BigQuery ML to make recommendations from Google ….“ https://cloud.google.com/bigquery-ml/docs/bigqueryml-mf-implicit-tutorial . Accessed 27 Jun. 2020.

[12] „The ML.EVALUATE function | BigQuery ML | Google Cloud.“ https://cloud.google.com/bigquery-ml/docs/reference/standard-sql/bigqueryml-syntax-evaluate . Accessed 27 Jun. 2020.

[13] „Measuring recommendation performance – Google Cloud.“ https://cloud.google.com/recommendations-ai/docs/recommender . Accessed 27 Jun. 2020.

[14] „Module: tf.saved_model | TensorFlow Core v2.2.0.“ https://www.tensorflow.org/api_docs/python/tf/saved_model . Accessed 28 Jun. 2020.

[15] „Using BigQuery Flex Slots to run machine learning workloads ….“ 17 May. 2020, https://medium.com/google-cloud/using-bigquery-flex-slots-to-run-machine-learning-workloads-more-efficiently-7fc7f400f7a7 . Accessed 28 Jun. 2020.

[16] „Recommendations AI – Google Cloud.“ https://cloud.google.com/recommendations . Accessed 28 Jun. 2020.

[17] „TensorFlow Extended (TFX) | ML Production Pipelines.“ https://www.tensorflow.org/tfx . Accessed 27 Jun. 2020.

[18] „Kubeflow.“ https://www.kubeflow.org/ . Accessed 27 Jun. 2020.

War dieser Beitrag hilfreich?

Beitrag teilen

Blog-Autor*innen

Niklas Haas

Service Lead GenAI

Du hast noch Fragen zu diesem Thema? Dann sprich mich einfach an.

Timo Böhm

Du hast noch Fragen zu diesem Thema? Dann sprich mich einfach an.

Weitere Beiträge

von Niklas Haas & Timo Böhm

Interview: Accelerate IT bei der METRO.digital

Interview: Accelerate IT bei der METRO.digital Dr. Anna Hannemann ist Data Science Engineering Manager und Domain Owner bei METRO.digital , der Software-Unit der METRO AG, die den digitalen Wandel vorantreibt. Niklas Haas, Machine Learning Engineer...

Accelerate

11.10.2021 | 2 Minuten Lesezeit

Niklas Haas

Kürzere Time-to-Market für ML-Modelle durch Googles BigQuery ML

Machine Learning (ML) erzeugt erst dann realen Mehrwert, wenn es in Produktion benutzt wird. Allerdings kann die Zeitspanne zwischen der Entwicklung eines belastbaren Modells und dessen Einsatz frustrierend lange sein. Insbesondere in schnelllebigen ...

Agile Methoden
Cloud
Machine Learning

26.7.2021 | 5 Minuten Lesezeit

Timo Böhm

Niklas Haas

Höhere Business Agility durch den aktiven Umgang mit Push- und Pull-Systemen...

Im Rahmen agiler Transformationen entstehen häufig starke Reibungsflächen in der Ablauforganisation. Ein verbreitetes Beispiel ist das Aufeinandertreffen klassischer Projekt- bzw. Budgetplanungen auf der einen und einer agilen Arbeitsweise in den operativen...

Agilität
Agile Transformation
Change Management
Process Management

9.12.2022 | 10 Minuten Lesezeit

Timo Böhm

Kürzere Time-to-Market für ML-Modelle durch Googles BigQuery ML

Agile Methoden
Cloud
Machine Learning

26.7.2021 | 5 Minuten Lesezeit

Timo Böhm

Niklas Haas

Reifegradanalyse & Roadmap: Der Kompass für deine wirksame Daten- und ...

Dies ist Teil 2 unserer Blog-Serie: 7 Schritte zur wertstiftenden Daten- und KI-Strategie. Den ersten Teil der Blog-Serie könnt ihr hier lesen. Wie können wir die Möglichkeiten von Daten und KI bei uns voll ausschöpfen? Diese Frage hören wir in fast ...

Data
Data Science
Künstliche Intelligenz
Generative KI

10.12.2025 | 5 Minuten Lesezeit

Shirin Elsinghorst

Elena Rüdenauer

7 Schritte zur wertstiftenden Daten- und KI-Strategie: RRW-DECKO-Ansatz

Die erwarteten Wertbeiträge von Daten und KI sind groß – McKinsey (2023) schätzt das globale Potenzial auf bis zu 25,6 Billionen US-Dollar. Gleichzeitig berichten viele Unternehmen, mit denen wir sprechen, von ähnlichen Herausforderungen. Und dies best...

Data
Data Science
Datenschutz
Big Data
Generative KI
Künstliche Intelligenz

2.12.2025 | 6 Minuten Lesezeit

Shirin Elsinghorst

Elena Rüdenauer

DuckDB vs. DataFrame Bibliotheken

Hinweis: Der folgende Artikel wurde auf Englisch erstellt und nachträglich maschinell auf Deutsch übersetzt. Update 10.12.25 – Nach hilfreichen Hinweisen von Polars-Entwickler Thijs Nieuwdorp nach der ersten Veröffentlichung dieses Artikels konnten ...

MotherDuck
Data
Data Science
Python
Datenbank

1.12.2025 | 10 Minuten Lesezeit

Niklas Niggemann

Vom Datenschatz zum Erkenntnissystem: Ein Multi‑Agenten‑Ansatz mit LLMs

Dieser Artikel ist der zweite Teil meiner Erfahrungen mit Projekten bei denen wir LLMs in Umgebungen mit großen, chaotischen Daten eingesetzt haben. Den ersten Teil findet ihr hier. Viele Unternehmen sitzen auf einem enormen Datenschatz – und können ...

LLM
Data
Data Science
Künstliche Intelligenz
NLP
Generative KI

29.10.2025 | 4 Minuten Lesezeit

Daniel Töws

LLMs im Data Engineering: Wie wir chaotische Daten in verlässliche Ergebnisse...

Wer mit Daten arbeitet, kennt den Frust: Dateien, die sich nicht an ihr eigenes Schema halten. CSVs, deren Spalten plötzlich mehrere Werte mit zusätzlichen Trennzeichen enthalten. Datenlager, in denen Tausende Tabellen existieren – mit unvollständiger...

LLM
Data
Künstliche Intelligenz
NLP
Generative KI

27.10.2025 | 6 Minuten Lesezeit

Daniel Töws

DuckDBs Friendly SQL ist ein Game Changer für die Developer Experience

Ich denke nicht, dass irgendjemand überrascht sein wird, wenn ich sage, dass SQL nicht die angenehmste Sprache zum Arbeiten ist. Manche würden sogar so weit gehen zu sagen, dass die Ergonomie von SQL furchtbar ist. Insbesondere bei großen und komplexen...

Data
MotherDuck

14.10.2025 | 11 Minuten Lesezeit

Lennart Hensler

Zero-ETL mit MotherDuck: Ein technischer Deep Dive

MotherDuck, der auf DuckDB aufbauende Cloud-native Service, verändert grundlegend, wie Unternehmen mit Daten arbeiten, die in Cloud-Object-Stores abgelegt sind. Durch den Wegfall klassischer ETL/ELT-Pipelines ermöglicht MotherDuck direkte SQL-Analysen...

MotherDuck
Data

7.10.2025 | 5 Minuten Lesezeit

Hendrik Kamp

Datenanalyse mit MotherDuck und DuckDB: Aus CSV zu Insights in 5 Minuten

CSV-Dateien sind der ewige Klassiker im Datenaustausch. Auch wenn modernere Formate wie JSON und Parquet ihren Platz erobern, bleiben die einfachen, aber robusten Comma Separated Values das Rückgrat vieler Daten-Workflows. Aber Hand aufs Herz: Wer hat...

Data
Datenbank
MotherDuck
Big Data

30.9.2025 | 7 Minuten Lesezeit

Christian Galsterer

5 Gründe, warum wir uns über den Motherduck Launch in AWS Frankfurt freuen

Hinweis: Dieser Blog-Post wurde mit LLM-unterstützung von Englisch auf Deutsch übersetzt. Seit einiger Zeit besteht für europäische Datenteams die zentrale Herausforderung darin, Innovation mit strenger Regulierung in Einklang zu bringen. Häufig erscheinen...

Data
Big Data
Datenbank
News
MotherDuck

24.9.2025 | 5 Minuten Lesezeit

Marcel Mikl

Warum digitale Souveränität mehr als ein Buzzword ist

Digitale Souveränität beginnt oft mit einer einfachen Frage: Können wir unseren Cloud-Anbieter wechseln? Ein Migrationsprojekt von AWS Textract zeigt, warum die Antwort meist komplizierter ist als erwartet.Diese auf den ersten Blick rein technische Frage...

Digitale Souveränität
Cloud

16.9.2025 | 5 Minuten Lesezeit

Lorenzo Petricone

Erstes Data Engineering Projekt mit Databricks Asset Bundles und GitLab...

Einleitung In diesem Artikel geht es um das Aufsetzen eines Datenprojekts mit Databricks Asset Bundles. Wir schauen uns das Basis Setup an und eine typische Projektstruktur, gehen anschließend auf einige wichtige Details und mögliche Stolpersteine und...

Data

15.6.2025 | 10 Minuten Lesezeit

Denis Khaskin

Serverless aus Europa: Meine Erfarhrung mit Scaleway als Alternative zu...

Neben den dominierenden US-Anbietern wie AWS, Azure und GCP bietet das französische Unternehmen Scaleway jetzt auch ein umfangreiches Serverless-Computing-Angebot. Dieses umfasst unter anderem Services für Function as a Service, einen leichtgewichtigen...

Compliance
Infrastructure
Datenschutz
Cloud Native
Cloud
Infrastructure as Code

28.5.2025 | 5 Minuten Lesezeit

Florian Lüdiger

Team ’25 Rückblick – Was Atlassian in Anaheim bewegt hat

Vom 8. bis 10. April 2025 traf sich die Atlassian-Community in Anaheim zur Team ’25 – der jährlichen Leitkonferenz rund um moderne Zusammenarbeit, ITSM, Agile, DevOps und skalierbare Teamstrukturen.Ein paar Tage sind seitdem vergangen – genug Zeit, um...

Cloud
Wissensmanagement
Atlassian
Community
Projektmanagement
Collaboration

11.5.2025 | 5 Minuten Lesezeit

Benedikt Hoffschröer

Kubernetes-Konfiguration mit Jsonnet

YAML ist die gängige Konfigurationssprache im Container- und Kubernetes-Umfeld. Das hat zum einen Vorteile, denn YAML besitzt wenige Konstrukte und spezielles Markup, das man sich merken muss. Andererseits wirft die Arbeit mit YAML auch einige Probleme...

Infrastructure as Code
Kubernetes
Cloud Native
Cloud

8.4.2025 | 5 Minuten Lesezeit

Oliver Frommel

Kategorisierung von Schnittstellen: Data Interface Quadrants (DIQs)

In der heutigen schnelllebigen und datengesteuerten Welt stehen Unternehmen vor einer zunehmend komplexen Herausforderung: Wie können Datenschnittstellen so gestaltet, implementiert und verwaltet werden, dass sie sowohl den unmittelbaren betrieblichen...

API
Data

30.1.2025 | 9 Minuten Lesezeit

Daniel Kocot

Miriam Greis

Das ultimative Tool für Ingenieure und Entwickler: Compass Premium

Es kommt nicht jeden Tag vor, dass ein Tool auf den Markt kommt und die Arbeitsweise von Ingenieur- und Entwicklungsteams neu definiert, aber Compass ist das Tool mit einer bahnbrechenden Lösung. Als sofort einsatzbereite interne Entwicklerplattform ...

Atlassian
Cloud

3.12.2024 | 4 Minuten Lesezeit

Özge Kavas

AWS European Sovereign Cloud: Die wichtigsten Informationen

Im Oktober 2023 hat Amazon Web Services seine Pläne vorgestellt, die AWS European Sovereign Cloud als “unabhängige” europäische Cloud-Lösung auf den Markt zu bringen. Erklärtes Ziel des Vorhabens ist es, Kunden im öffentlichen Sektor und streng regulierten...

Cloud
AWS
Compliance

29.10.2024 | 9 Minuten Lesezeit

Björn Bohn

Wir haben unsere SaaS-Anwendung auf fly.io deployed (und dabei richtig...

Wie wir unsere Anwendung in einem Bruchteil der Zeit bereitgestellt und dabei 100 % der Kosten eingespart haben. Unser Team, bestehend aus einer Gruppe erfahrener Software-Entwickler ohne Cloud Vorkenntnisse, wollte unseren OCPP-konformen EV-Ladesäulen...

AWS
Cloud

23.10.2024 | 4 Minuten Lesezeit

Jannis Mainczyk

Cloud-Lösungen in der Architekturrichtlinie des Bundes

Um die Rahmenbedingungen für IT- und Digitalisierungsvorhaben für die Bundesverwaltung festzulegen, existiert bereits seit einigen Jahren die Architekturrichtlinie für die IT des Bundes. Im Folgenden haben wir die Vorgaben hinsichtlich des Themas Cloud...

Cloud
Compliance

10.10.2024 | 7 Minuten Lesezeit

Björn Bohn

Marc Bialowons

Lessons learned: Was wir in einem Jahr ML Orchestrierung mit Dagster gelernt...

In einem gemeinsamen Projekt haben Tom Scholz und ich Machine Learning (ML) Services gebaut, um einem Kunden bei der Analyse von Dokumenten zu helfen. Eine Proof-Of-Concept Lösung war schnell gebaut, die es nun zu operationalisieren gilt. Hierbei war...

Machine Learning
Python
Data
Data Science

12.9.2024 | 27 Minuten Lesezeit

Patrick Soschinski

Tom Scholz

Schnelles Training eines Recommendation-Modells durch BigQuery ML

Recommendations mit SQL mit BigQuery ML (BQML) erstellen

Der Algorithmus: Matrix-Faktorisierung

Architektur

Datensatz

Arbeitsschritte

Datenimport

Modelltraining

Modellevaluation

Batch-Prädiktion

Online-Prädiktion

Reservierungen für BigQuery Slots

Qualität

„Kaltstart“

Variation in den Recommendations

Alternative und ergänzende Services

Fazit

Referenzen

War dieser Beitrag hilfreich?

Blog-Autor*innen

Weitere Beiträge

Interview: Accelerate IT bei der METRO.digital

Kürzere Time-to-Market für ML-Modelle durch Googles BigQuery ML

Höhere Business Agility durch den aktiven Umgang mit Push- und Pull-Systemen...

Kürzere Time-to-Market für ML-Modelle durch Googles BigQuery ML

Weitere Artikel in diesem Themenbereich

Reifegradanalyse & Roadmap: Der Kompass für deine wirksame Daten- und ...

7 Schritte zur wertstiftenden Daten- und KI-Strategie: RRW-DECKO-Ansatz

DuckDB vs. DataFrame Bibliotheken

Vom Datenschatz zum Erkenntnissystem: Ein Multi‑Agenten‑Ansatz mit LLMs

LLMs im Data Engineering: Wie wir chaotische Daten in verlässliche Ergebnisse...

DuckDBs Friendly SQL ist ein Game Changer für die Developer Experience

Zero-ETL mit MotherDuck: Ein technischer Deep Dive

Datenanalyse mit MotherDuck und DuckDB: Aus CSV zu Insights in 5 Minuten

5 Gründe, warum wir uns über den Motherduck Launch in AWS Frankfurt freuen

Warum digitale Souveränität mehr als ein Buzzword ist

Erstes Data Engineering Projekt mit Databricks Asset Bundles und GitLab...

Serverless aus Europa: Meine Erfarhrung mit Scaleway als Alternative zu...

Team ’25 Rückblick – Was Atlassian in Anaheim bewegt hat

Kubernetes-Konfiguration mit Jsonnet

Kategorisierung von Schnittstellen: Data Interface Quadrants (DIQs)

Das ultimative Tool für Ingenieure und Entwickler: Compass Premium

AWS European Sovereign Cloud: Die wichtigsten Informationen

Wir haben unsere SaaS-Anwendung auf fly.io deployed (und dabei richtig...

Cloud-Lösungen in der Architekturrichtlinie des Bundes

Lessons learned: Was wir in einem Jahr ML Orchestrierung mit Dagster gelernt...

Jetzt für unseren Newsletter anmelden