How-to: Dein lokaler Observability-Stack für Python mit OpenTelemetry, Grafana & Co.

11.8.2025 | 7 Minuten Lesezeit

Fehlermeldungen ohne Kontext? Plötzliche Performance-Einbrüche? Wenn du eine Python-Anwendung betreibst, kennst du diese Probleme. Oft fehlt die nötige Transparenz, um schnell zu verstehen, was im Inneren deiner App wirklich vor sich geht. Dieser Artikel zeigt dir, wie du dieses Problem löst.

Wir bauen gemeinsam einen kompletten, lokalen Observability-Stack für eine Python-Anwendung auf. Du lernst, wie du mit Werkzeugen wie OpenTelemetry, Grafana, Loki, Tempo, Prometheus und Alloy einen tiefen Einblick in deine App erhältst. Am Ende dieser Anleitung hast du eine voll funktionsfähige Umgebung auf deinem Rechner, die Logs, Traces und Metriken sammelt, speichert und visualisiert. So bist du für die nächste Fehlersuche perfekt gewappnet.

Teil dieses Blogposts ist ein Beispiel-Repository, das du als Sprungbrett nutzen kannst.

Die Basis: Was du brauchst und der Startschuss

Du benötigst lediglich zwei Dinge, die auf deinem System installiert sind.

Docker
Docker Compose

In 60 Sekunden startklar: Der komplette Stack mit Docker

Das gesamte Setup wird über Docker Compose verwaltet. Klone zunächst das Beispiel-Repository und starte alle Dienste mit einem einzigen Befehl im Hauptverzeichnis deines Projekts:

1docker-compose up -d

Dieser Befehl startet deine Python-Anwendung sowie alle notwendigen Observability-Tools. Das war's schon. Der Stack läuft.

Die Säulen der Observability

Und was macht der Stack nun? Telemetrie-Daten erstellen, sammeln, verwalten und sichtbar machen und Observability ermöglichen. Observability meint die Fähigkeit, den inneren Zustand eines komplexen Systems allein durch die Beobachtung seiner von außen sichtbaren Signale zu verstehen. Observability wird in der Regel durch das Sammeln und Analysieren von drei Hauptdatentypen – den "drei Säulen" – erreicht:

Logs: Detaillierte, zeitgestempelte Aufzeichnungen von Ereignissen, die in der Anwendung stattgefunden haben. Sie beantworten die Frage: "Was ist passiert?". Sie sind ideal für die Detailanalyse von spezifischen Vorkommnissen.
Traces: Traces zeigen die gesamte Reise einer einzelnen Anfrage durch alle Komponenten und Dienste deiner Systemlandschaft. Ein Trace besteht aus mehreren Schritten (Spans) und visualisiert den Anfragefluss sowie die Dauer jeder einzelnen Operation. Sie beantworten die Frage: "Wo ist das Problem aufgetreten?". Sie sind unverzichtbar, um Engpässe zu identifizieren und das Zusammenspiel von Services zu verstehen.
Metrics (Metriken): Aggregierte, numerische Daten über einen bestimmten Zeitraum, wie z. B. CPU-Auslastung oder Anfragen pro Sekunde. Sie beantworten die Frage: "Wie ist der Gesamtzustand?". Sie eignen sich perfekt, um Trends zu erkennen und Alarme für Systemzustände zu definieren.

Das Gehirn des Stacks: Wie Alloy deine Daten lenkt

Mit Grafana Alloy kannst du eine Telemetrie-Daten-Pipeline erstellen und definieren, wie Daten gesammelt, prozessiert und wohin sie exportiert werden. Hier kannst du auch den Status des Collectors überprüfen und die rohen Logs oder Traces einsehen. In einer Konfigurationsdatei (config.alloy) legst du einen einfachen, aber mächtigen Lebenszyklus für deine Daten fest:

Inputs: Woher kommen die Daten? (z.B. Logs von Docker oder Traces von deiner App)
Processing: Wie sollen die Daten aufbereitet werden? (z.B. unwichtige Infos filtern oder nützliche Labels hinzufügen)
Outputs: Wohin sollen die aufbereiteten Daten gesendet werden? (z.B. Logs an Loki, Traces an Tempo)

Schritt 1: Das Fundament – Logging mit Loki

Die einfachste Form der Telemetrie sind Logs. Sie sind die erste Anlaufstelle, um zu sehen, was eine Anwendung tut.

So sammelst du automatisch Logs von deiner App

Im ersten Schritt konfigurierst du Alloy so, dass es alle Log-Ausgaben deines Python-App-Containers sammelt. Alloy erkennt den Container automatisch, sammelt den Log-Stream und fügt das Label service_name hinzu. So weißt du immer, welcher Log-Eintrag zu welcher Anwendung gehört. Anschließend leitet Alloy die Logs zur Speicherung an Loki weiter.

Live-Debugging: Überprüfe deinen Datenfluss in Alloy

Um zu sehen, ob alles funktioniert, bietet Alloy eine praktische Weboberfläche:

Öffne http://localhost:12345 in deinem Browser.
Navigiere zum Component Explorer und wähle die Komponente discovery.docker.linux.
Im Debug Tab siehst du nun die rohen Log-Daten, die Alloy live vom Docker-Daemon empfängt.

Im Alloy Graph kannst du live verfolgen, wie die Telemetriedaten durch dein Observability System fließen. Hier wurde der /task Endpunkt 8x aufgerufen.

Deine Logs in Grafana visualisieren

Du hast nun sichergestellt, dass Logs generiert werden, erfolgreich eingesammelt werden und in Alloy ankommen. Nun kannst du überprüfen, dass die Logs von Alloy zu Grafana kommen, dem zentralen Dashboard-Tool.

Öffne http://localhost:3000.
Logge dich ein (Standard Log-In Daten: admin / admin).
Klicke links auf das Kompass-Symbol (Explore).
Wähle oben die Datenquelle Loki aus.
Klicke auf Log browser, wähle das Label service_name und den Wert python-app aus.
Klicke auf Run query.

Du siehst jetzt eine saubere, durchsuchbare Liste aller Logs deiner FastAPI-Anwendung wie beispielhaft folgende:

Schritt 2: Mehr Kontext – Aussagekräftiges Tracing mit OpenTelemetry

Logs sind gut, aber ihnen fehlt der Kontext einer gesamten Anfrage. Traces füllen diese Lücke. Sie zeigen den kompletten Weg einer Anfrage durch deine Anwendung.

Von Logs zu Traces: Deine App mit OpenTelemetry instrumentieren

Nun erweiterst du deine Anwendung um OpenTelemetry. Dies ist der De-facto-Standard zur Erzeugung von Telemetriedaten. Durch eine automatische Instrumentierung musst du den Anwendungscode kaum ändern, denn OpenTelemetry fängt Anfragen ab und erzeugt daraus Traces.

Die Konfiguration von Alloy muss angepasst werden: Statt die Logs von Docker einzusammeln, empfängt Alloy nun Logs und Traces direkt von OpenTelemetry über OTLP. OTLP steht für OpenTelemetry Protocol. Es ist ein einheitliches, herstellerunabhängiges Protokoll zur Erzeugung und Übertragung von Telemetriedaten. Die Traces werden an Tempo weitergeleitet, dein Speichersystem für Traces. Dank der Herstellerunabhängigkeit könntest du statt Tempo aber auch ein anderes Backend-Tool wie z.B. Jaeger verwenden. Da OTLP ein offener Standard ist, bist du nicht an einen bestimmten Anbieter gebunden. Solange dein Analyse-Tool OTLP versteht, kannst du deine Daten dorthin senden, ohne deine Anwendung neu instrumentieren zu müssen.

Der "Aha-Moment": So verbindest du Logs und Traces

OpenTelemetry versieht Logs und Traces automatisch mit derselben TraceID. Dadurch kannst du sie miteinander verbinden. In Grafana führt das zu einem mächtigen Feature. Stell dir vor, du siehst dir einen langsamen Trace in Tempo an. Du entdeckst eine bestimmte Operation (auch Span genannt), die ein Problem verursacht hat. Mit einem einzigen Klick auf ein Link-Symbol neben diesem Span springst du direkt zu den exakten Log-Einträgen in Loki, die während dieser Operation geschrieben wurden. Du erhältst den perfekten Mix aus Überblick (Trace) und Detail (Logs).

Schritt 3: Das Gesamtbild – Aggregierte Metriken mit Prometheus

Deine aktuelle Anwendung beinhaltet Logs (Details) und Traces (Kontext). Nun fehlt nur noch eine Säule der Observability: Metriken.

Die dritte Säule: Anwendungsmetriken mit Prometheus erfassen

Metriken sind aggregierte, numerische Werte über einen Zeitraum. Beispiele hierfür könnten "Anzahl der Anfragen pro Sekunde" oder "durchschnittliche Antwortzeit" sein. Du nutzt Prometheus, um diese Zeitreihen-Daten zu speichern. Der neue Datenfluss ist simpel:

Die Python-App erzeugt Metriken durch OpenTelemetry (z.B. ein Zähler für verarbeitete Aufgaben).
Alloy empfängt diese Metriken via OTLP.
Alloy leitet sie an Prometheus zur Speicherung weiter.

Vom Zähler zum Graphen: Deine Metriken in Grafana

Genau wie bei Loki und Tempo ist Grafana bereits so konfiguriert, dass es Prometheus als Datenquelle kennt. Du kannst im Explore-View nun die Prometheus-Datenquelle auswählen und deine Metriken abfragen, zum Beispiel den Zähler tasks_processed_total. Damit kannst du Graphen erstellen, die dir den Zustand deiner Anwendung über die Zeit visualisieren.

Zusammenfassung & Ausblick

Herzlichen Glückwunsch! Du hast erfolgreich einen voll funktionsfähigen, lokalen Observability-Stack für deine Python-Anwendung aufgesetzt. Du kannst nun:

Logs in Loki durchsuchen
Anfragen als Traces in Tempo verfolgen
Logs und Traces für eine schnelle Fehleranalyse korrelieren
Anwendungsmetriken mit Prometheus sammeln und in Grafana visualisieren

Dies ist eine solide Grundlage. Von hier aus kannst du eigene, spezifische Dashboards in Grafana bauen, Alarme für kritische Metriken einrichten oder weitere Anwendungen an deinen Observability-Stack anbinden. Du hast nun die Werkzeuge, um die Blackbox deiner Anwendung zu öffnen und datengestützte Entscheidungen zu treffen.

Übrigens: Das Beispiel-Repository ist schrittweise über drei Feature-Branches gewachsen, um die einzelnen Säulen der Observability nacheinander einzuführen. Damit kannst du nachvollziehen, wie die einzelnen Komponenten aufeinander aufbauen können oder wie du vorgehen kannst, wenn OpenTelemetry nicht verfügbar ist, dich aber trotzdem Logs interessieren:

Logs (feat/api-loki-alloy-grafana): Zuerst wurde eine FastAPI-App implementiert, die Logs erzeugt. Diese Logs werden vom Docker-Daemon an Alloy weitergeleitet, welches sie zur Speicherung an Loki sendet. In Grafana können die Logs visualisiert werden.
Traces (feat/api-loki-alloy-grafana-tempo-otel): Im zweiten Schritt wurde die Anwendung mit OpenTelemetry instrumentiert. Alloy sammelt nun Logs und die neu hinzugekommenen Traces über das OTLP-Protokoll und leitet die Traces an Tempo weiter.
Metriken (feat/api-loki-alloy-grafana-tempo-otel-metrics): Abschließend wurde der Stack um Metriken erweitert. Die Anwendung generiert nun auch Metriken, die von Alloy gesammelt und in Prometheus gespeichert werden.

War dieser Beitrag hilfreich?

Beitrag teilen

Blog-Autor*in

Patrick Soschinski

IT Consultant / MLOps Engineer

Du hast noch Fragen zu diesem Thema? Dann sprich mich einfach an.

Weitere Beiträge

von Patrick Soschinski

Lessons learned: Was wir in einem Jahr ML Orchestrierung mit Dagster gelernt...

In einem gemeinsamen Projekt haben Tom Scholz und ich Machine Learning (ML) Services gebaut, um einem Kunden bei der Analyse von Dokumenten zu helfen. Eine Proof-Of-Concept Lösung war schnell gebaut, die es nun zu operationalisieren gilt. Hierbei war...

Machine Learning
Python
Data
Data Science

12.9.2024 | 25 Minuten Lesezeit

Patrick Soschinski

Tom Scholz

Knowledge und Task Management in Notion

Einführung in Knowledge und Task Management Als IT Consultant gibt es immer etwas zu lernen und neue Technologien zu erforschen. Am Puls der Zeit zu bleiben bedeutet für uns, Kunden einen Mehrwert bieten zu können. Während wir uns auf das Meistern neuer...

Agilität
Collaboration
Projektmanagement

26.7.2023 | 14 Minuten Lesezeit

Patrick Soschinski

Michel Ehmen

Keycloak Deployment: Docker Compose vs. Kubernetes mit Helm-Chart

Bei der Installation von Keycloak hat man im Wesentlichen zwei Optionen: Eine traditionelle Installation oder eine containerisierte Installation. Bei ersterer wird Keycloak direkt als Java-Anwendung auf dem Betriebssystem installiert (sei es Bare Metal...

IAM
Keycloak
Container
Kubernetes

24.10.2025 | 4 Minuten Lesezeit

Stefan Gries

Deployment von n8n und ngrok in Minikube

Deployment von n8n in minikube und ngrok Seit einigen Monaten sorgt das Low-Code-Integrationstool n8n für Gesprächsstoff in der Tech-Welt. Angetrieben vom aktuellen Hype um KI-Agenten hat sich das Tool zum Liebling vieler Automatisierungsfans entwickelt...

DevOps
Kubernetes
Künstliche Intelligenz
Integration
Framework

11.8.2025 | 6 Minuten Lesezeit

Benjamin Lüdicke

Vorgaben oder Freiheit? Spannungsfeld Platform Engineering

Plattformen sind heutzutage sehr beliebt. Der Term “Platform” taucht überall auf. Developer Plattformen in Platform Engineering, GitLab, die DevSecOps Platform, E-Commerce Platform, Cloud Platform, Social Media Platform und so weiter. Aber was macht ...

Platform Engineering
DevOps

30.7.2025 | 3 Minuten Lesezeit

Marc Schnitzius

Dateien sicher löschen in Dockerfiles

Docker hat sich als leistungsstarkes Werkzeug etabliert, das Entwicklern hilft, Anwendungen effizient zu containerisieren und zu skalieren. Doch wie bei jeder Technologie gibt es Aspekte, die es ermöglichen, versehentlich Sicherheitslücken zu erzeugen...

Container
IT-Security
DevSecOps

11.6.2025 | 3 Minuten Lesezeit

David

Spring Boot Admin - 10 Jahre Wrap Up

Spring Boot Admin - Wrap Up Nach über 10 Jahren seiner Existenz möchten wir in diesem Blogpost die Geschichte des Spring Boot Admin beleuchten und Hintergründe über die aktuelle Entwicklung geben. Wie hat alles angefangen? Was war die Motivation? Wo ...

Open Source
Spring
Softwareentwicklung
Infrastructure
Backend
Observability

28.2.2025 | 5 Minuten Lesezeit

Stephan Köninger

Der Platform Orchestrator von Humanitec

Der Platform Orchestrator von Humanitec ist eine SaaS Tool zum effektiven Aufbau von Backends für interne Developer Plattformen. Er hilft dabei klare getrennte Verantwortlichkeiten zwischen Platform Team und Entwickler*innen herzustellen und den gesamten...

Platform Engineering
CI/CD
DevOps
Infrastructure as Code

6.2.2025 | 5 Minuten Lesezeit

Marc Schnitzius

Lessons learned: Was wir in einem Jahr ML Orchestrierung mit Dagster gelernt...

Machine Learning
Python
Data
Data Science

12.9.2024 | 27 Minuten Lesezeit

Patrick Soschinski

Tom Scholz

Datenbanken testen mit Testcontainers in Mule4

Hier erfährst du die Möglichkeiten Testcontainers in Mule4 zu nutzen, um deine Datenbankaufrufe zu testen. Vor einiger Zeit hat mein Kollege Christian Langmann eine Blogartikelserie veröffentlicht, in welcher er aufzeigt, wie man in Mule3 Munit-Tests...

Community
Softwareentwicklung
Testing
API
Open Source
Datenbank
Container
Integration

19.1.2024 | 3 Minuten Lesezeit

Benjamin Lüdicke

Zukunftssichere Observability mit OpenTelemetry

Observability, also die Möglichkeit, das Verhalten von Anwendungen in Echtzeit zu überwachen, Fehler schnell zu identifizieren und Probleme proaktiv anzugehen, ist ein unverzichtbares Element für erfolgreiche digitale Unternehmen. OpenTelemetry ist eine...

Observability

16.6.2023 | 2 Minuten Lesezeit

Matthias Niehoff

„Eine Plattform ist ein Produkt, die Entwickler-Teams sind die Kunden“

Platform Engineering mit BackstageIm folgenden Interview berichten Marc Schnitzius und Pascal Sochacki von ihren ersten Erfahrungen mit Backstage als Platform-Engineering-Lösung.Marco Paga: Marc, Pascal, ihr habt eine Sicht auf Platform Engineering, ...

Softwareentwicklung
Accelerate
CI/CD
DevOps
Platform Engineering

2.3.2023 | 12 Minuten Lesezeit

Marco Paga

Maximilian Mayer

„Platform Engineering ist eine Art von Knowledge Sharing“

Warum „Platform Engineering“ eigentlich der falsche Begriff ist und wie man den Golden Path findet, erklärt Daniel Kocot, Senior Solution Architect, im folgenden Interview.Marco Paga: Warum ist Platform Engineering interessant?Daniel Kocot: Ich habe ...

Softwareentwicklung
Accelerate
CI/CD
DevOps
Platform Engineering

20.2.2023 | 11 Minuten Lesezeit

Daniel Kocot

Marco Paga

ChatGPT im Alltag eines Python-Entwicklers

Seit einigen Tagen spiele ich mit ChatGPT herum. Beruflich und privat konnte ich damit einige Fragen bearbeiten, bspw. welche Alternativen es zu bestimmten Tools gibt, was Vorteile von Teilzeit für den Arbeitgeber sind oder wer ich bin. Leider weiß ChatGPT...

NLP
Python
Künstliche Intelligenz

27.1.2023 | 7 Minuten Lesezeit

Robert Meißner

Platform Engineering – Machen das nicht alle schon?

Plattformen sind aktuell ein sehr populäres Konzept, insbesondere in der Softwareentwicklung von Unternehmen. Viele sagen aber auch: So neu ist das doch gar nicht. Wir bieten unseren Entwicklern seit Jahren alle relevanten Tools und Werkzeuge, damit ...

DevOps
Accelerate

7.12.2022 | 2 Minuten Lesezeit

Matthias Niehoff

Manches gehört zusammen, manches besser nicht - Konnaszenz in Python

Wir alle kennen es. Wir bekommen neuen Code und irgendwie macht der merkwürdige Sachen. Teilweise müssen wir Reverse Engineering betreiben. Wir wundern uns, warum eine Umgebungsvariable nicht korrekt gesetzt wird oder der Login schief geht. Bis wir merken...

Python
Softwareentwicklung
Softwarearchitektur

30.11.2022 | 7 Minuten Lesezeit

Robert Meißner

Platform Engineering – Eine Einordnung

Aktuell kocht mit Platform Engineering gerade ein Thema hoch, das in den Weiten des World Wide Web für viele Reaktionen sorgt. Gerade auch Kunden aus dem Enterprise-Umfeld führt es zu interessanten Nebeneffekten, wenn aus DevOps-Teams plötzlich Platform...

Accelerate
CI/CD
DevOps

12.9.2022 | 4 Minuten Lesezeit

Daniel Kocot

„Strawberry JSON Fields Forever“: Filtern nach JSON-Feldern mit GraphQL...

Schon die Beatles besangen ein uraltes Problem in ihrem Song „Strawberry JSON Fields Forever“ : Wie lässt sich mit der GraphQL Library Strawberry für Python nach Werten in JSON-Feldern einer PostgreSQL-Datenbank filtern?SetupUm das zu zeigen, braucht...

Frontend
API
Python

26.6.2022 | 4 Minuten Lesezeit

Michael Eichenseer

Passwörter sicher per GitOps deployen mit SealedSecrets

In einem GitOps-Workflow beschreibt das Entwicklungsteam alle Ressourcen eines Kubernetes-Projekts in einem Git-Repository. Dadurch können sowohl das Entwicklungsteam als auch das Infrastrukturteam alle Bestandteile eines Projektes überblicken. Was jedoch...

DevOps
Kubernetes

13.6.2022 | 10 Minuten Lesezeit

Raffael Gerlach

Terraform Remote State richtig nutzen

Was ist Terraform und was ist State?Terraform ist ein Tool für die Verwaltung von Infrastruktur in Form von Code, gehört also in den sogenannten Infrastructure-as-Code-Bereich (IaC). Eine kurze Einführung und ein Vergleich zu anderen Tools findet sich...

Infrastructure
Softwarearchitektur
Cloud
DevOps

21.4.2022 | 7 Minuten Lesezeit

Alexander Kasper

Wie man Java-Klassen in Python benutzt

Generell sollte man zwar für jedes Problem das passende Werkzeug nutzen. Aber oftmals wird man gezwungen, den Hammer Java zu nutzen, weil der Rest des Hauses mit diesem Hammer gebaut wurde. Eine moderne Lösung dieses Problems ist natürlich die Microservice...

Künstliche Intelligenz
Java
Python

15.11.2021 | 8 Minuten Lesezeit

Hendrik Schawe

Automatisch skaliertes Cloud Native Consent Management in der Google Cloud

Immer häufiger ersetzen unsere Kunden lokale Rechenzentren durch eine Cloud-Infrastruktur. Die Gründe sind Ausfallsicherheit, Wartbarkeit und vor allem Skalierbarkeit. Mit dem letzten dieser Aspekte befassen wir uns in diesem Blogartikel anhand eines...

APM
Python
Cloud
Google Cloud
Infrastructure
Softwarearchitektur
Serverless

28.6.2021 | 16 Minuten Lesezeit

Markus Lüger

Christopher

How-to: Dein lokaler Observability-Stack für Python mit OpenTelemetry, Grafana & Co.

Die Basis: Was du brauchst und der Startschuss

In 60 Sekunden startklar: Der komplette Stack mit Docker

Die Säulen der Observability

Das Gehirn des Stacks: Wie Alloy deine Daten lenkt

Schritt 1: Das Fundament – Logging mit Loki

So sammelst du automatisch Logs von deiner App

Live-Debugging: Überprüfe deinen Datenfluss in Alloy

Deine Logs in Grafana visualisieren

Schritt 2: Mehr Kontext – Aussagekräftiges Tracing mit OpenTelemetry

Von Logs zu Traces: Deine App mit OpenTelemetry instrumentieren

Der "Aha-Moment": So verbindest du Logs und Traces

Schritt 3: Das Gesamtbild – Aggregierte Metriken mit Prometheus

Die dritte Säule: Anwendungsmetriken mit Prometheus erfassen

Vom Zähler zum Graphen: Deine Metriken in Grafana

Zusammenfassung & Ausblick

War dieser Beitrag hilfreich?

Blog-Autor*in

Weitere Beiträge

Lessons learned: Was wir in einem Jahr ML Orchestrierung mit Dagster gelernt...

Knowledge und Task Management in Notion

Weitere Artikel in diesem Themenbereich

Keycloak Deployment: Docker Compose vs. Kubernetes mit Helm-Chart

Deployment von n8n und ngrok in Minikube

Vorgaben oder Freiheit? Spannungsfeld Platform Engineering

Dateien sicher löschen in Dockerfiles

Spring Boot Admin - 10 Jahre Wrap Up

Der Platform Orchestrator von Humanitec

Lessons learned: Was wir in einem Jahr ML Orchestrierung mit Dagster gelernt...

Datenbanken testen mit Testcontainers in Mule4

Zukunftssichere Observability mit OpenTelemetry

„Eine Plattform ist ein Produkt, die Entwickler-Teams sind die Kunden“

„Platform Engineering ist eine Art von Knowledge Sharing“

ChatGPT im Alltag eines Python-Entwicklers

Platform Engineering – Machen das nicht alle schon?

Manches gehört zusammen, manches besser nicht - Konnaszenz in Python

Platform Engineering – Eine Einordnung

„Strawberry JSON Fields Forever“: Filtern nach JSON-Feldern mit GraphQL...

Passwörter sicher per GitOps deployen mit SealedSecrets

Terraform Remote State richtig nutzen

Wie man Java-Klassen in Python benutzt

Automatisch skaliertes Cloud Native Consent Management in der Google Cloud

Jetzt für unseren Newsletter anmelden