Hystrix: Fehlertoleranz statt Hochverfügbarkeit – Eine Einführung in Resilience mit Hystrix

9.10.2016 | 4 Minuten Lesezeit

Der Herr, der eben beim Auspacken seines Laptops beinahe meinen Kaffeebecher umgestoßen hat, schaut kurz auf meinen Bildschirm und sieht den geöffneten Hystrix-Vortrag. Ja, von Hystrix hat er schon einmal gehört, hat sein Team ihm vorgeschlagen, soll gut funktionieren. Doch dann holt er Luft für sein großes Aber: “Warum sollte ich meinen Entwicklern Zeit dafür geben ein Framework einzuführen, das ihnen hilft auf Ausfälle und Fehler zu reagieren? Ich möchte, dass sie in der Zeit stattdessen verhindern, dass diese Fehler überhaupt auftreten”.

Ich vermute, dass ich wohl erst nach Göttingen an dem Vortrag weiter arbeiten kann, klappe den Rechner zu und beginne zu erzählen: In komplexen verteilten Systemen sind Ausfälle und Fehler immanent; Systeme, die nicht fehlertolerant sind, werden keine zufriedenstellende User-Experience bieten können. Der Einsatz von Hystrix sensibilisiert Entwickler beim Einbinden von externen Diensten über den möglichen Einfluss auf das eigene System nachzudenken.

In verteilten Systemen addieren sich die Ausfallzeiten: Angenommen das Team meines Sitznachbarn schafft es, dass jeder Service zu 99,99% erreichbar ist, also deutlich unter 5 Minuten Downtime pro Monat hat. Wenn man dann weiter annimmt, dass ihre Microservice-Architektur aus 30 unabhängigen Services besteht, dann werden nur noch zu 99,7% der Zeit alle Services verfügbar sein – oder anders gesagt: Fast zweieinviertel Stunden pro Monat, ist nicht das komplette System verfügbar. Sind die Services nicht verfügbar oder fehlerhaft, sind die Kunden unzufrieden und man verdient kein Geld mit ihnen – kurzum: die Software ist wertlos.

Die oben skizzierte Erkenntnis führt zu dem Mantra der Resilience-Bewegung: “Do not try to avoid failures. Embrace them”. Wer mehr Details über die Grundlagen von Resilience und Resilient Software Design erfahren möchte, sei auf die gute Resilience-Einführung oder den Talk über Resilience-Patterns von Uwe Friedrichsen verwiesen.

Wir wollen also mit den Fehlern umgehen, anstatt zu versuchen, sie zu vermeiden. Eine Technologie um diese sogenannte Resiliance zu erreichen ist Hystrix, ein Java-Framework aus dem Netflix Open Source Stack. Die Entkopplung einzelner Services in verteilten Systemen ist die Kernaufgabe von Hystrix; und damit der Aufbau eines robusten und fehlertoleranten Systems.

Die wichtigsten Eigenschaften von Hystrix

Alle Aufrufe von externen Systemen werden in HystrixCommands verpackt, welche typischerweise in einem separaten Thread ausgeführt werden.
Aufrufe werden abgebrochen, wenn sie mehr Zeit brauchen als vorab als Obergrenze festgelegt wurde. Es muss also z.B. nicht mehr auf Netzwerk- oder Datenbank-Timeouts gewartet werden, bis eine Programmausführung fortgesetzt werden kann.
Für jede externe Abhängigkeit wird ein eigener kleiner Thread-Pool verwaltet. Damit wird verhindert, dass eine einzelne fehlerhafte Abhängigkeit ein ganzes System non-responsive machen kann.
Die Ausführungszeiten, Erfolge und Fehler eines jeden HystrixCommands werden gemessen, erfasst und in einem Dashboard zur Verfügung gestellt.
Ein circuit-breaker stoppt alle Aufrufe einer externen Abhängigkeit, die derzeit nicht erreichbar oder fehlerhaft ist.
Es können Fallback-Logiken implementiert werden, für den Fall, dass externe Abhängigkeiten keine oder fehlerhafte Antworten liefern.

Hello World mit Hystrix

Nach der Einführung in die grundlegenden Konzepte von Hystrix wird es Zeit für ein Beispiel:

1public class CommandHelloWorld extends HystrixCommand {
2 
3   private final String name;
4 
5   public CommandHelloWorld(String name) {
6     super(HystrixCommandGroupKey.Factory.asKey("ExampleGroup"));
7     this.name = name;
8    }
9 
10   @Override
11   protected String run() {
12     //network call
13     return getLocalizedGreeting(name);
14    }
15 
16   @Override
17   protected String getFallback() {
18     //graceful degradation - use english as fallback
19     return "Hello " + name + "!";
20    }
21 
22    [...]
23 }

Der obige Code zeigt ein einfaches HystrixCommand, das versucht eine entferne Ressource aufzurufen um eine Begrüßung in der Sprache des Nutzers abzurufen. Sollte der Aufruf fehlschlagen, so wird als Fallback eine englische Begrüßung ausgegeben. Ein HystrixCommand kann synchron, asynchron oder mit dem Observer-Pattern ausgeführt werden:

1) Synchrone Ausführung

1String s = new CommandHelloWorld("World").execute();

2) Asynchrone Ausführung

1Future fs = new CommandHelloWorld("World").queue();
2 String s = fs.get();

3) Observer-Pattern

1Observable fWorld = new CommandHelloWorld("World").observe();
2 fWorld.subscribe((v) -> {
3   System.out.println("onNext: " + v);
4 })

Die Wiki-Dokumentation des Hystrix-Projektes ist umfangreich und gut verständlich. Daher verzichte an dieser Stelle auf weitere Einstiegsbeispiele und verweise stattdessen auf das originale Tutorial bei GitHub.

Konfiguration und Metriken

Hystrix ist schnell eingebaut, aber es gibt doch eine gewisse Lernkurve, die man einplanen sollte. Zum Beispiel für die Konfiguration: Die Möglichkeiten der Konfiguration sind umfangreich. Der Ansatz von Netflix ist es, die Kommandos in der Standardkonfiguration zu starten und dann im Betrieb zu messen, beobachten und feinzujustieren. Dafür braucht man zwingend dynamische Konfiguration und jemanden, der das Hystrix-Dashboard im Auge behält.

Auch langfristig sollte man die Metriken von Hystrix überwachen und die sehr umfangreichen Informationen nicht ungenutzt lassen. So kann man zum Beispiel die Hystrix Streams, bzw. deren aggregierte Informationen, in Elasticsearch speichern und langfristig aus den Metriken lernen

Neues und Ausblick auf Hystrix 2.0

Das aktuelle Hystrix-Release 1.5 beinhaltet Erweiterungen im Bereich der Metriken. Die Metric-Streams werden nun auch unaggregiert angeboten und können dadurch deutlich flexibler konsumiert und ausgewertet werden. Die HystrixCommands unterstützen seit Version 1.5.3 nun außerdem die Cancellation, so dass dem ausführenden Thread ein interrupt-Signal gesendet wird, wenn auf dem Future ein cancel() aufgerufen wird oder ein unsubscribe() auf der Subscription.

Für Hystrix 2.0 ist das Update auf Java 8 geplant – das wird die Verwendung von Hystrix deutlich kompakter machen.

Fazit

Es wurde erläutert warum in verteilten Systemen immer mit dem Ausfall von Resourcen gerechnet werden muss und wie die Funktionen von Hystrix dabei helfen ein Resilient-Software-Design zu erreichen. Dieser Artikel ist ein kurzer Einstieg in das Thema und ist der Auftakt einer mehrteiligen Blogartikel-Serie zum Thema Hystrix in der verschiedene codecentric-Kollegen ihr Praxiswissen zum Thema teilen werden. Im nächsten Teil wird unter anderem das Thema dynamische Konfiguration von Hystrix beleuchtet werden.

War dieser Beitrag hilfreich?

Beitrag teilen

Blog-Autor*in

Felix Braun

Delivery Manager

Du hast noch Fragen zu diesem Thema? Dann sprich mich einfach an.

Weitere Beiträge

von Felix Braun

Was ist User Story Mapping? Eine Mate mit Hias Wrba #EineMateMit

„Da hab‘ ich gewusst, ich will User Story Mapping ab jetzt in jedem Projekt nutzen“, sagt Hias Wrba, als er davon erzählt, wie er das erste Mal die Methode „User Story Mapping“ nach Jeff Patton angewendet hat. Mathias „Hias” Wrba arbeitet seit nunmehr...

Community
Agile Methoden

12.6.2018 | 2 Minuten Lesezeit

Felix Braun

DevOps und Container: Eine Mate mit… Roland Huss. #EineMateMit

„Das Schöne ist, dass es eine klar definierte Schnittstelle zwischen Operations und Entwicklern gibt“, sagt Roland Huß, als er im Vorfeld des DevOps Meetups „Java-Entwicklung im Zeitalter von Kubernetes und OpenShift“ über die Vorteile von Container...

DevOps
Community
Kubernetes

8.12.2017 | 2 Minuten Lesezeit

Felix Braun

Was ist Software Crafting/Software Craftsmanship? Eine Mate mit Benedikt...

„Es geht nicht darum, sich als Entwickler-Rockstar zu fühlen, der noch das letzte Prozent Perfektion herausholt, sondern gemeinsam, für alle Entwickler, die Software-Entwicklung zu verbessern“, sagt Benedikt Ritter im Gespräch über Software Crafting ...

Agilität
Community
Softwareentwicklung

25.10.2017 | 2 Minuten Lesezeit

Felix Braun

Data Science und Big Data: Eine Mate mit… Michael Plümacher #EineMateMit

„Aufgrund der gestiegenen Rechen- und Speicherkapazitäten sind in den letzten Jahren ganz neue Möglichkeiten entstanden“, sagt Michael Plümacher, Data Scientist bei der codecentric. Einige seiner aktuellen Data-Science- und Big Data-Projekte stellt er...

Big Data
Data
Community

21.9.2017 | 1 Minuten Lesezeit

Felix Braun

Was ist Keycloak? Eine Mate mit… Dieter Dirkes zum Thema SSO #EineMateMit

„Die Software läuft halt einfach“, sagt Dieter Dirkes sichtlich zufrieden, als er über sein letztes großes Keycloak-Projekt erzählt. Dieses Projekt ist seit einem Jahr im Einsatz und bietet verteilt über 26 Länder Single-Sign-On (SSO), Idendentiy- und...

Community
Java
Keycloak
IT-Security

12.7.2017 | 2 Minuten Lesezeit

Felix Braun

Rapid-Prototyping und Digitization Labs. Eine Mate mit… Nils Wloka.

„Software-Entwicklung muss nicht wehtun“, sagt Nils Wloka in der ersten Folge von #EineMateMit, dem neuen IT-Talk-Format der codecentric. Wo es zuweilen schmerzte, und wie er dies abstellen möchte, erläutert der Kopf des codecentric Digitization Labs...

Digitalisierung
Community
Agile Methoden

26.6.2017 | 1 Minuten Lesezeit

Felix Braun

Spezialisierung in Agilen Feature-Teams

Die Luft ist zum Schneiden, der Beamer rauscht auf höchster Stufe und die Hemden vieler Teilnehmer sehen alles andere als frisch aus. Erleichterte Blicke, als der PO dem Team dankt und das Planungsmeeting beenden will – „Aber“, fällt ihm da eine Entwicklerin...

Agilität
Softwareentwicklung

17.2.2016 | 8 Minuten Lesezeit

Felix Braun

Dein Job bei codecentric?

Jobs

Agile Developer und Consultant (w/d/m)

Alle Standorte

Der lange und steinige Weg zur Resilienz – Teil 4

Im letzten Beitrag haben wir das Plateau der Stabilität, die erste Zwischenstation auf dem Weg zur Resilienz, erörtert – wozu es gut ist, wo seine Grenzen liegen und warum es so beliebt ist.In diesem Beitrag werden wir die 100-%-Verfügbarkeitsfalle, ...

Resilienz

30.6.2025 | 13 Minuten Lesezeit

Uwe Friedrichsen

Der lange und steinige Weg zur Resilienz – Teil 3

Im vorigen Beitrag haben wir das Tal der Feature-Vollständigkeit besprochen, den Ausgangspunkt unserer prototypischen Reise in Richtung Resilienz, und wir haben festgestellt, dass ein solches Setup in der Regel nicht mehr ratsam ist.In diesem Beitrag...

Resilienz

9.6.2025 | 16 Minuten Lesezeit

Uwe Friedrichsen

Der lange und steinige Weg zur Resilienz – Teil 2: Das Tal der Feature...

Im letzten Beitrag haben wir den Grundstein für unsere Reise zur Resilienz gelegt, indem wir geklärt haben, was Resilienz ist. Das war notwendig, um ein gemeinsames Ziel für unsere Reise zu schaffen.In diesem Beitrag werden wir den Ausgangspunkt unserer...

Resilienz

19.5.2025 | 11 Minuten Lesezeit

Uwe Friedrichsen

Der lange und steinige Weg zur Resilienz – Teil 1

Im Kern geht es in dieser Blogserie um drei Fragen: Was ist Resilienz? Wie können wir resilient werden? Müssen wir immer das volle Programm durchziehen? Die zweite Frage leuchtet wahrscheinlich sofort ein, während die erste und dritte Frage dich vielleicht...

Resilienz

29.4.2025 | 13 Minuten Lesezeit

Uwe Friedrichsen

Architektur Review mit LASR in Lichtgeschwindigkeit!

Vorweg: Dieser Blog basiert auf einer realen Projekterfahrung. Alle Personen, Unternehmen und Namen sind NDA-konform fiktiv und frei erfunden. Jede Ähnlichkeit mit einer Person, einem bestehenden Unternehmen oder einer Marke ist rein zufällig und absolut...

Softwarearchitektur

4.4.2025 | 15 Minuten Lesezeit

Karl Södler

Pedro Marques

Feature-Sliced Design und was wir für eine gute Frontend-Architektur brauchen

Feature-Sliced Design und was wir für eine gute Frontend-Architektur brauchen Während zum Thema Softwarearchitektur im Backend schon viel publiziert wurde und es gut erprobte Best-Practices gibt, is dieses Thema für Frontend-Anwendungen weniger präsent...

Softwarearchitektur
Frontend

23.1.2025 | 10 Minuten Lesezeit

Felix Abele

Hexagonale Architektur ist auch nur eine Insel

Stellt euch eine Insel namens "Alistair Island" vor. Diese Insel ist ein lebendiger Ort mit Häusern, fruchtbaren Böden und einer eingespielten Gemeinschaft von Bewohnern, die nach klaren Abläufen leben. Jedes Geschehen auf der Insel ist von Bedeutung...

Softwarearchitektur
Testing
Softwareentwicklung

22.1.2025 | 11 Minuten Lesezeit

Danny Keller

Modularisierung leicht gemacht: Spring Modulith mit Kotlin und Hexagonale...

Modularisierung leicht gemacht: Spring Modulith mit Kotlin und Hexagonale Architektur Modularisierung ist ein Schlüsselkonzept in der modernen Softwareentwicklung, um Anwendungen wartbar, testbar und flexibel zu gestalten. In diesem Artikel zeigen wir...

Softwarearchitektur
Kotlin
Spring

14.1.2025 | 11 Minuten Lesezeit

Danny Keller

ArchUnit in der Praxis: Architektur sauber halten und optimieren

Wer kennt es nicht: Ein neues Projekt beginnt oder der alte Code soll endlich aufgeräumt werden. Ein großes Meeting mit allen Entwicklern und Entwicklerinnen wird einberufen: „Diesmal machen wir es sauber, korrekt und strukturiert!“ Architecture-Decision...

Softwarearchitektur
Java
Kotlin
Softwareentwicklung

20.9.2024 | 18 Minuten Lesezeit

Danny Keller

When Business Meets Technology: Vom Datenprodukt zur Datenarchitektur ...

Zusammenfassung Der Data Product Canvas (DPC) ist ein Werkzeug für die leichtgewichtige und iterative Konzeption von Datenprodukten. Dabei steigert er die Effizienz der Produktdefinition, indem er die wesentlichen Einflussbereiche auf Datenprodukte übersichtlich...

Softwarearchitektur
Data
DDD
Digitale Produktentwicklung

6.8.2024 | 21 Minuten Lesezeit

Daniel Engelhardt

Dr. Florian Rademacher

Zero Trust Azure Identity & Access Architektur

Falko Lehmann und Hendrik Kamp haben in ihrem Blog Post zu Zero-trust Architecture bereits dargelegt, warum Zero-Trust Sicherheitsmodelle gegenüber traditionellen Perimetersicherheitsmodellen zu bevorzugen sind, um Schaden durch Cyber-Angriffe zu minimieren...

IT-Security
IAM
Azure
Softwarearchitektur

4.6.2024 | 13 Minuten Lesezeit

Philip Sanetra

Green Cloud: Daten und Emissionen sparen

Das Internet produziert jährlich 900 Millionen Tonnen CO₂ – das ist deutlich mehr als Deutschland insgesamt emittiert. Hauptverantwortlich ist der immer weiter steigende Stromverbrauch beim Transport und der Speicherung von Daten. Wenn ihr kurz darüber...

Cloud
Green IT
Softwarearchitektur
Data

11.3.2024 | 5 Minuten Lesezeit

Dennis

Charge your APIs Volume 23: REST vs. gRPC

APIs dienen als Verbindungsstück zwischen Daten und Verarbeitung und erlauben uns damit, Daten im richtigen Kontext als Informationen zu interpretieren. Passende fachliche Themen sind dabei präsenter denn je und erreichen bald auch den Endverbraucher...

Java
Softwareentwicklung
Spring
Softwarearchitektur
API
Data

11.2.2024 | 7 Minuten Lesezeit

Sebastian Tiemann

Green Cloud: Nachhaltig skalieren

Wenn Softwareprojekte in die Cloud gebracht werden, versprechen wir uns davon hohe Verfügbarkeit, planbare Kosten und eine immer dem Bedarf entsprechende Skalierung. Aufgrund der grenzenlosen Angebote ist es aber auch leicht, die Komponenten eines Systems...

Cloud
Softwarearchitektur
Green IT

12.6.2023 | 5 Minuten Lesezeit

Dennis

Green Cloud: Ideen für eine nachhaltigere Architektur

Die ökologische Nachhaltigkeit eines Systems ist aktuell häufig noch kein Thema. Nachhaltigkeit bedeutet für mich in diesem Kontext die Reduktion der verursachten Emissionen durch gesenkten Ressourcenverbrauch – egal ob die Emissionen beim Cloudprovider...

Cloud
Softwarearchitektur
Green IT

5.5.2023 | 5 Minuten Lesezeit

Dennis

Microservice Integration Testing done right

In diesem Artikel beschreiben wir gesammelte Best Practices für das Integration Testing von Microservices. Zu diesem Zweck haben wir ein Projekt namens toti-example-service erstellt und auf GitHub veröffentlicht. Wir werden uns in diesem Beitrag immer...

Testing
Microservices
Spring
Kotlin

11.4.2023 | 7 Minuten Lesezeit

Tobias Dittrich

Till Voß

Manches gehört zusammen, manches besser nicht - Konnaszenz in Python

Wir alle kennen es. Wir bekommen neuen Code und irgendwie macht der merkwürdige Sachen. Teilweise müssen wir Reverse Engineering betreiben. Wir wundern uns, warum eine Umgebungsvariable nicht korrekt gesetzt wird oder der Login schief geht. Bis wir merken...

Python
Softwareentwicklung
Softwarearchitektur

30.11.2022 | 7 Minuten Lesezeit

Robert Meißner

Open Policy Agent – Maschinen, die auf Regeln starren

Der Open Policy Agent (OPA) ist eine universell einsetzbare, quelloffene Policy Engine, also eine Sammlung von Komponenten, die eine einheitliche und effiziente Umsetzung von Regeln aller Art erlaubt. Dieser Artikel zeigt ein kleines Praxisbeispiel. ...

CI/CD
Softwarearchitektur
IT-Security

19.10.2022 | 5 Minuten Lesezeit

Marco Paga

Microstream – das Ende der O/R-Mapper?

Über eine Suche nach Alternativen zu O/R-Mappern und Persistenz-Frameworks für NoSQL-Datenbanken bin ich auf Microstream aufmerksam geworden und war ziemlich schnell interessiert. Zum einen, weil Microstream wie ich aus der Oberpfalz kommt, aber haupts...

Java
Datenbank
Softwarearchitektur

29.9.2022 | 13 Minuten Lesezeit

Felix Rieß

Hotwire: Ein neuer (alter) Ansatz für moderne Webanwendungen

Hotwire (HTML over the wire) wurde Ende 2020 von Basecamp vorgestellt und verspricht einen alternativen Ansatz zur Entwicklung moderner Webanwendungen mit weniger JavaScript:Hotwire is an alternative approach to building modern web applications without...

Frontend
Softwarearchitektur
Microservices
JavaScript
Webdevelopment

24.8.2022 | 9 Minuten Lesezeit

Felix Rieß

Hystrix: Fehlertoleranz statt Hochverfügbarkeit – Eine Einführung in Resilience mit Hystrix

Die wichtigsten Eigenschaften von Hystrix

Hello World mit Hystrix

Konfiguration und Metriken

Neues und Ausblick auf Hystrix 2.0

Fazit

War dieser Beitrag hilfreich?

Blog-Autor*in

Weitere Beiträge

Was ist User Story Mapping? Eine Mate mit Hias Wrba #EineMateMit

DevOps und Container: Eine Mate mit… Roland Huss. #EineMateMit

Was ist Software Crafting/Software Craftsmanship? Eine Mate mit Benedikt...

Data Science und Big Data: Eine Mate mit… Michael Plümacher #EineMateMit

Was ist Keycloak? Eine Mate mit… Dieter Dirkes zum Thema SSO #EineMateMit

Rapid-Prototyping und Digitization Labs. Eine Mate mit… Nils Wloka.

Spezialisierung in Agilen Feature-Teams

Dein Job bei codecentric?

Agile Developer und Consultant (w/d/m)

Weitere Artikel in diesem Themenbereich

Der lange und steinige Weg zur Resilienz – Teil 4

Der lange und steinige Weg zur Resilienz – Teil 3

Der lange und steinige Weg zur Resilienz – Teil 2: Das Tal der Feature...

Der lange und steinige Weg zur Resilienz – Teil 1

Architektur Review mit LASR in Lichtgeschwindigkeit!

Feature-Sliced Design und was wir für eine gute Frontend-Architektur brauchen

Hexagonale Architektur ist auch nur eine Insel

Modularisierung leicht gemacht: Spring Modulith mit Kotlin und Hexagonale...

ArchUnit in der Praxis: Architektur sauber halten und optimieren

When Business Meets Technology: Vom Datenprodukt zur Datenarchitektur ...

Zero Trust Azure Identity & Access Architektur

Green Cloud: Daten und Emissionen sparen

Charge your APIs Volume 23: REST vs. gRPC

Green Cloud: Nachhaltig skalieren

Green Cloud: Ideen für eine nachhaltigere Architektur

Microservice Integration Testing done right

Manches gehört zusammen, manches besser nicht - Konnaszenz in Python

Open Policy Agent – Maschinen, die auf Regeln starren

Microstream – das Ende der O/R-Mapper?

Hotwire: Ein neuer (alter) Ansatz für moderne Webanwendungen

Jetzt für unseren Newsletter anmelden