Der lange und steinige Weg zur Resilienz – Teil 4

30.6.2025 | 13 Minuten Lesezeit

Im letzten Beitrag haben wir das Plateau der Stabilität, die erste Zwischenstation auf dem Weg zur Resilienz, erörtert – wozu es gut ist, wo seine Grenzen liegen und warum es so beliebt ist.

In diesem Beitrag werden wir die 100-%-Verfügbarkeitsfalle, die ich am Ende des letzten Beitrags vorgestellt habe, ausführlicher erörtern und uns erneut mit dem Thema Verfügbarkeit befassen. Wir werden auch die Erkenntnisse diskutieren, die notwendig sind, um die Reise zum nächsten Plateau fortzusetzen.

Die 100-%-Verfügbarkeitsfalle

Die 100 %-ige Verfügbarkeitsfalle habe ich bereits in einem früheren Blogbeitrag ausführlich besprochen. Daher fasse ich mich hier kurz.

Die 100-%-Verfügbarkeitsfalle ist der (immer noch weit verbreitete) Trugschluss, dass IT-Systeme zu 100 % der Zeit verfügbar sind.

Es ist der Nachfolger der „Ops ist für Verfügbarkeit verantwortlich“-Mentalität. Es ist die implizite Annahme, dass alle Teile der Systemlandschaft, für die man selbst nicht verantwortlich ist, nie und nimmer ausfallen werden.

Natürlich würde jede(r), wenn er bzw. sie direkt gefragt würde, zustimmen, dass alle Teile der Systemlandschaft ausfallen können und dass der Zeitpunkt des Ausfalls in der Regel nicht vorhergesagt werden kann. In der Praxis wird dieses theoretische Wissen jedoch weitgehend ignoriert. Nur selten werden Designs und Implementierungen erstellt, die mögliche Ausfälle anderer Systemteile berücksichtigen wie z. B.:

Betriebssysteme
⁠Scheduler (wie z. B. Kubernetes) u. ä.
Router
Switches
Message Busses
Datenbanken
Service Meshes
Cloud-Dienste

und insbesondere andere Anwendungen und Dienste.

Bei der Konzeption und Implementierung wird implizit davon ausgegangen, dass alles, was über den Rahmen der eigenen Anwendung hinausgeht, jederzeit verfügbar ist. Wir können es überall sehen:

Das Senden von Nachrichten oder Events an einen Message Bus wird als ausreichend angesehen, um die garantierte und korrekte Verarbeitung der Nachrichten bzw. Events zu gewährleisten.
Das Erstellen von Anwendungen, die beim Start versuchen, Verbindungen zu allen Systemen herzustellen, mit denen sie zusammenarbeiten. Sollte eines der Systeme nicht verfügbar sein, stürzt die Anwendung einfach mit einer Fehlermeldung ab, da diese Situation nicht erwartet wird. [1]
Das blinde Verlassen auf die perfekte Verfügbarkeit der Dienste eines Cloud-Anbieters. Als z. B. Kinesis bei AWS einmal ausfiel, fielen die Anwendungen der meisten Unternehmen, die Kinesis nutzen, ebenfalls aus, weil sie nicht mit Blick auf einen möglichen Ausfall von Kinesis (oder eines anderen AWS-Dienstes) entwickelt wurden. All diese Anwendungen gingen blind davon aus, dass Kinesis niemals ausfallen würde, auch wenn das SLA von Kinesis etwas anderes besagte.
Und so weiter …

Mein persönliches Erklärungsmodell für dieses weit verbreitete Verhalten ist, dass es sich um eine Verallgemeinerung der tief verwurzelten „Ops ist für Verfügbarkeit verantwortlich“-Mentalität handelt. Es scheint, dass die „Problem Anderer Leute“-Einstellung (auch bekannt als P.A.L.) in Bezug auf die Verfügbarkeit eines nicht von einem selbst betreuten Systemteils sehr oft zu einer impliziten Annahme von 100 % Verfügbarkeit führt (selbst wenn die verantwortliche Partei in ihrem SLA deutlich macht, dass sie keine 100 % Verfügbarkeit garantiert).

Die 100-%-Verfügbarkeitsfalle führt sehr oft auch zu einer Art implizitem „Induktionsbeweis“ bezüglich Verfügbarkeit:

Alles außer den Systemteilen, für die ich verantwortlich bin, ist zu 100 % verfügbar.
Wenn ich also Ausfälle in meinen Teilen mit Hilfe der anerkannten Redundanz-, Failover- und Überlastvermeidungsmethoden (siehe die Beschreibung des Stabilitätsplateaus im vorherigen Beitrag) vermeide, ist alles zu 100 % verfügbar.

Der vielleicht faszinierendste Aspekt der 100 %igen Verfügbarkeitsfalle ist jedoch, dass sie allen anerkannten und bewährten Ingenieurspraktiken völlig widerspricht. Pat Helland und Dave Campbell begannen ihr großartiges Paper „Building on Quicksand“ mit dem Satz:

Zuverlässige Systeme wurden schon immer aus unzuverlässigen Komponenten gebaut.

Das heißt, wir rechnen damit, dass die verwendeten Komponenten ausfallen können und entwerfen und implementieren unsere Systeme so, dass sie trotz des Ausfalls der verwendeten Komponenten zuverlässig funktionieren. Zumindest ist dies die akzeptierte und bewährte Ingenieurspraxis.

Außer bei der Entwicklung von Unternehmenssoftware!

Bei der Entwicklung von Unternehmenssoftware neigen wir dazu, diese Praxis auf den Kopf zu stellen:

Bei der Entwicklung von Unternehmenssoftware bauen wir unzuverlässige Systeme (Anwendungen und Dienste) und erwarten von den verwendeten Komponenten (Infrastruktur und Middleware), dass sie das Gesamtsystem zuverlässig machen.

Dies ist das genaue Gegenteil davon, wie zuverlässige Systeme aufgebaut werden – eine Auswirkung der 100-%-Verfügbarkeitsfalle, die immer noch sehr weit verbreitet ist.

Das ist der Grund, warum so viele Unternehmen auf dem Plateau der Stabilität feststecken – einfach weil sie die 100-%-Verfügbarkeitsfalle noch nicht überwunden haben.

Die zweite Erkenntnis

Die 100-%-Verfügbarkeitsfalle ist jedoch eine Sackgasse in Bezug auf die Ausfallsicherheit, denn wie Michael Nygard in einem seiner Blog-Beiträge schreibt:

Kontinuierliche Teilausfälle sind der Normalzustand.

Heutige komplexe und hochgradig vernetzte Systemlandschaften laufen fast immer in einer Art degradiertem Modus, d.h. fast immer funktionieren einige Teile davon nicht wie erwartet.

Und Werner Vogels, der CTO von Amazon, benutzte die folgende, nur teilweise scherzhafte Definition, um verteilte Systeme zu beschreiben:

Alles kaputt. Andauernd. (Everything fails, all the time.)

Beide wissen viel über verteilte Systeme und den Betrieb großer, komplexer, verteilter und stark vernetzter Systemlandschaften. Ihre Erkenntnisse sind die gleichen:

Ausfälle sind unvermeidlich.

Im Grunde ist diese Erkenntnis nicht neu und nicht auf verteilte Systeme beschränkt. Michael Nygard z. B. macht in seinem oben erwähnten Blog-Beitrag deutlich, dass Ausfälle bei allen Arten von Systemen etwas ganz Normales sind.

Bis zum Plateau der Stabilität haben die Menschen jedoch immer noch ihre Scheuklappen auf und versuchen, die Tatsache zu ignorieren, dass Fehler unvermeidlich sind.

Daher besteht die zweite notwendige Erkenntnis darin, zu akzeptieren, dass Fehler unvermeidlich sind, was uns weg von der Vermeidung von Ausfällen hin zum Akzeptieren und sinnbildlichen "Umarmen" von Ausfällen führt.

Verfügbarkeit neu bewertet

Was bedeutet das für Verfügbarkeit? Wie können wir Verfügbarkeit maximieren, wenn Ausfälle unvermeidlich sind?

Um diese Fragen zu beantworten, müssen wir kurz zur Formel für Verfügbarkeit zurückkehren:

Verfügbarkeit := MTTF / (MTTF + MTTR)

mit

MTTF: Mean Time To Failure (Durchschnittliche Zeit bis zum Ausfall), die durchschnittliche Zeit vom Beginn des Normalbetriebs bis zum Ausfall des betrachteten Systems, d.h. bis zum Auftreten eines von der Spezifikation abweichenden Verhaltens.
MTTR: Mean Time To Recovery (Durchschnittliche Zeit bis zur Wiederherstellung), die durchschnittliche Zeit nach einem Ausfall, bis das betrachtete System wieder den normalen Betrieb aufnimmt, d. h. wie spezifiziert arbeitet.

Wenn wir uns diese Formel ansehen, können wir einige Beobachtungen machen:

Der Nenner beschreibt die Gesamtzeit, während der Zähler die Zeit angibt, in der das System wie vorgesehen funktioniert, sprich der Bruch beschreibt den Anteil der Zeit, in der das System wie vorgesehen funktioniert.
MTTF und MTTR sind beide positive Zahlen. Theoretisch könnten beide auch 0 sein, aber in der Praxis können wir davon ausgehen, dass beide Zahlen positiv sind, solange das betrachtete System überhaupt in der Lage ist, spezifikationskonform zu arbeiten (also MTTF ist nicht 0 ist).
Aus der Tatsache, dass MTTF und MTTR beide positive Zahlen sind, können wir schließen, dass der Nenner immer größer ist als der Zähler, d. h., der Wert des Bruches ist eine Zahl zwischen 0 und 1 (beides in der Praxis ausgeschlossen) - oder zwischen 0 % und 100 %, wenn du Prozentsätze lieber magst.
Je größer MTTF im Vergleich zu MTTR ist, desto näher liegt die Verfügbarkeit bei 1 (oder 100 %).

Letztendlich geht es uns darum, dass die Verfügbarkeit so nahe wie möglich an 1 (oder 100 %) herankommen soll.

Auf dem Plateau der Stabilität versuchen die handelnden Personen, Ausfälle zu vermeiden. Sie versuchen, MTTF so groß zu machen, dass MTTR keine Rolle mehr spielt. Wenn du sie fragen würdest, würden sie wahrscheinlich nicht sagen, dass sie versuchen, MTTF unendlich groß zu machen, sondern dass sie versuchen, MTTF hinreichend groß zu machen. [2]

Eine solche „hinreichend große“ MTTF könnte zum Beispiel 1.000.000 Stunden betragen. Dies würde eine erwartete Verfügbarkeit von mehr als 100 Jahren bedeuten. Wenn du davon ausgehst, dass nicht du, sondern deine Nachkommen mit einem Ausfall konfrontiert werden, ist dir MTTR eigentlich egal - einfach weil du keinen Ausfall erwartest. Es spielt keine Rolle, ob MTTR eine Stunde, einen Tag oder eine Woche beträgt. Selbst wenn MTTR eine Woche betragen würde, wäre die Gesamtverfügbarkeit immer noch höher als 99,98 %.

Da aber die MTTF als so hoch angenommen wird, denkt niemand über 99,98 % nach, sondern alle erwarten implizit, dass das System niemals ausfällt. Willkommen in der 100-%-Verfügbarkeitsfalle!

Wenn wir jedoch akzeptieren, dass Ausfälle unvermeidlich sind, müssen wir auch akzeptieren, dass MTTF für unser System eine Obergrenze hat. Wir können MTTF nicht willkürlich erhöhen. Wir kennen die Obergrenze nicht genau, aber höchstwahrscheinlich liegt sie näher bei 1.000 Stunden (das sind etwas mehr als 40 Tage) als bei 1.000.000 Stunden.

Wenn wir für unser System eine MTTF von 1.000 Stunden annehmen, wäre selbst eine MTTR von „nur“ einem Tag ein Problem, da dies eine Gesamtverfügbarkeit von ca. 97,5 % bedeuten würde, was für die meisten Szenarien zu wenig ist. Eine MTTR von 1.000 Stunden macht auch deutlich, dass Ausfälle nicht unsere Nachkommen treffen werden, sondern uns!

Das bedeutet, dass es keine Option ist, einfach zu versuchen, MTTF immer weiter zu erhöhen und dabei MTTR zu ignorieren, wenn wir akzeptieren, dass Ausfälle unvermeidlich sind und MTTF daher eine Obergrenze hat, die wir einfach nicht überwinden können. Wir sollten immer noch versuchen, eine gute MTTF zu erreichen, aber um unsere Gesamtverfügbarkeit weiter zu erhöhen, müssen wir auch unsere MTTR im Auge behalten und versuchen, sie zu verringern.

Wenn wir in unserem Beispiel MTTR von einem Tag auf eine Stunde senken, würde die Verfügbarkeit auf 99,9 % steigen (unter der Annahme einer MTTF von 1.000 Stunden), was sich wesentlich besser anhört als 97,5 %.

Zusammengefasst: Wenn wir verstehen, dass Ausfälle unvermeidlich sind, erkennen wir auch, dass MTTF eine Obergrenze hat und nicht beliebig erhöht werden kann. Um die gewünschte hohe Verfügbarkeit zu erreichen, müssen wir also zusätzlich MTTR reduzieren.

Die dritte Erkenntnis

Mit dieser Einsicht denken wir dann über die möglichen Arten von Fehlern nach, die uns treffen könnten, und darüber, wie wir sie schnell beheben können, d. h. wie wir unsere MTTR verringern können [3]. Dies führt unmittelbar zur dritten Erkenntnis:

Es gibt andere Fehlerarten als Abstürze und Überlastsituationen.

Auf dem Plateau der Stabilität neigt man dazu, sich auf Abstürze und Überlastsituation zu konzentrieren und versucht, diese mit allen Mitteln zu vermeiden, in der Annahme, dass dies ausreicht, um die gewünschte Verfügbarkeit zu erreichen.

Wenn man akzeptiert, dass Ausfälle unvermeidlich sind, fängt man an, sich die Fehler genauer anzuschauen, die das eigene System heimsuchen. Dann erkennt man sofort eine ganze Reihe von Fehlertypen, die nur darauf warten, die Robustheit deines Systems herauszufordern, wie z. B.:

Absturzfehler
Überlastfehler
Auslassungsfehler
Zeitfehler (Latenzen)
Antwortfehler
Byzantinische Fehler
Software-Fehler
Konfigurationsfehler
Firmware-Fehler
Sicherheitslücken
Und, und, und ...

All diese Fehlermöglichkeiten führen in der Praxis zu einigen recht unangenehmen Auswirkungen, wie z. B.:

Wir verlieren Nachrichten vollständig oder erhalten unvollständige Updates.
Wir erhalten Nachrichten mehrfach.
Es kommt zu Zeitüberschreitungen bis hin zum völligen Stillstand der gesamten Systemlandschaft aufgrund von Abhängigkeiten in der Aufrufkette.
Knoten erhalten Updates in unterschiedlicher Reihenfolge (out-of-order), was zu unterschiedlichen Wissensständen der betroffenen Knoten führt (out-of-sync).
Wir erleben Split-Brain-Situationen, in denen Teile der Systemlandschaft einander und ihre jeweiligen Updates nicht sehen.
Wir treffen auf persistente Fehlfunktionen von Systemen oder Systemteilen, z. B. aufgrund von Softwarefehlern.
Wir stoßen auf metastabile Ausfälle, d. h. auf Situationen, in denen das Fehlverhalten auch dann noch andauert, wenn die ursprüngliche Fehlerursache beseitigt wurde.
Wir verlieren Daten oder haben beschädigte Daten.
Wir verlieren („leaken") vertrauliche Informationen.
Und so weiter …

All diese unschönen Dinge und noch viele weitere können passieren, was deutlich mehr ist als nur die Auswirkungen von Abstürzen und Überlastfehlern.

Ich habe z. B. einmal mit einem Kunden gearbeitet, der auf dem Plateau der Stabilität lebte. Er hat einen enormen Aufwand betrieben, um Absturz- und Überlastfehler zu vermeiden, aber alle anderen Arten von Fehlern weitgehend ignoriert. Für die Behebung von Softwarefehlern brauchten sie in der Regel Tage bis Wochen, weil sie ein sehr komplexes und rigides Deployment-Verfahren mit vielen Stufen und menschlichen Freigaben hatten, um „sicherzustellen, dass nichts schief geht“ (zur Erinnerung: Auf dem Plateau der Stabilität wird MTTR in der Regel ignoriert, was bedeutet, dass manuelle Deployment-Prozesse als "okay" angesehen werden).

Ich war auch Zeuge eines Fehlers, den sie in der Konfiguration der Datenreplikation für eine ihrer Control Planes hatten. Der Konfigurationsfehler blieb unbemerkt, bis eines Tages der ursprüngliche Primary der Control Plane ausfiel. Es wurde automatisch ein anderer Primary bestimmt. So weit, so gut. Leider hatte der neue Primary aufgrund des Fehlers in der Replikationskonfiguration nie Aktualisierungen über den Zustand der zugehörigen Worker Nodes erhalten. Die Zustandsdatenbank des neuen Primary war im Grunde genommen ein leeres Blatt – sie enthielt nichts. Infolgedessen fuhr die Control Plane sofort alle Worker Nodes herunter, da sie aufgrund der (fehlenden) Zustandsdaten in der Datenbank des neuen Primary zu dem Schluss kam, dass nichts (mehr) laufen sollte. Ups!

Es dauerte fast eine Woche, bis der normale Betrieb wieder aufgenommen werden konnte, denn in ihrem Stabilitätsdenken war dies etwas, das als Fehlermöglichkeit nicht vorgesehen war. Sie hatten damit keine Möglichkeit, im Rahmen ihrer unzähligen ausgeklügelten Prozessen und Regeln zügig darauf zu reagieren, weil die implizite Annahme war, dass solche Ausfälle nicht vorkommen können.

Wenn man aber akzeptiert, dass Fehler unvermeidlich sind, beginnt man auch, diese Fehlerarten genauer unter die Lupe zu nehmen. Man fragt sich vor allem, wie man solche Fehler schneller erkennen und beheben kann, um die MTTR zu verringern.

Diese beiden Erkenntnisse – dass Fehler unvermeidlich sind und dass es viele Arten von Fehlern gibt – führen uns zu unserem zweiten Zwischenstopp, den wir in unserem nächsten Beitrag erörtern werden.

Zusammenfassung

Wir haben uns die 100-%-Verfügbarkeitsfalle angesehen und gelernt, dass sie ein falscher Freund ist, der uns zu unzulässigen Annahmen verleitet. Dies führte uns zu der Erkenntnis, dass Ausfälle unvermeidlich sind.

Wir haben uns dann erneut mit dem Thema Verfügbarkeit befasst und festgestellt, dass es nicht ausreicht, MTTF zu erhöhen, wenn wir Verfügbarkeit maximieren wollen, sondern dass wir auch MTTR verringern müssen. Die Überlegung, wie MTTR reduziert werden kann, führte zu der Erkenntnis, dass es viele Arten von Ausfällen gibt, die berücksichtigt werden müssen.

Mit diesen beiden Erkenntnissen sind wir bereit für das nächste Plateau, das Plateau der Robustheit, das wir in unserem nächsten Beitrag behandeln werden. Bleibt dran ... ;)

[1] Diese Art der Programmierung führt übrigens zu einem sehr unangenehmen Verhalten der Systemlandschaft nach größeren Ausfällen, die die gesamte Systemlandschaft oder zumindest einen größeren Teil davon zum Erliegen gebracht haben. Wenn die Administratoren versuchen, die Systeme wieder hochzufahren, fahren sich nahezu alle Systeme sofort wieder herunter, weil ein oder mehrere andere Systeme, die sie zur Laufzeit benötigen, noch nicht verfügbar sind. Die Administratoren müssen dann manuell – häufig durch Ausprobieren – die Abhängigkeiten zwischen den Systemen herausfinden und versuchen, die Systeme eines nach dem anderen in der richtigen Reihenfolge hochzufahren. Im schlimmsten Fall hat sich im Laufe der Zeit eine zyklische Abhängigkeit zwischen einigen Systemen entwickelt und die Administratoren stehen im Regen.

[2] Meiner Erfahrung nach machen sich Leute, die sich auf dem Plateau der Stabilität befinden, nicht allzu viele Gedanken über Dinge wie MTTF und Ähnliches. Normalerweise wenden sie die „Standardmaßnahmen“ wie Redundanz und Rate Limiting an. Basierend auf diesen Maßnahmen und der genutzten Middleware und Infrastruktur gehen sie dann davon aus, dass dies ausreichend ist, d. h. dass sie sich über diese Standardmaßnahmen hinaus keine weiteren Gedanken über Verfügbarkeit machen müssen, sondern davon ausgehen können, dass keine Ausfälle auftreten werden.

[3] Hoffentlich denken wir nicht nur darüber nach, welche Ausfälle uns treffen könnten, sondern erheben auch Daten zu den in der Produktion tatsächlich auftretenden Ausfällen und wie lange es dauert, sie zu beheben.

Dieser Blogpost ist ursprünglich auf Englisch in Uwe Friedrichsens Blog erschienen.

War dieser Beitrag hilfreich?

Beitrag teilen

Blog-Autor*in

Uwe Friedrichsen

CTO

Du hast noch Fragen zu diesem Thema? Dann sprich mich einfach an.

Weitere Beiträge

von Uwe Friedrichsen

Der lange und steinige Weg zur Resilienz – Teil 6

Der lange und steinige Weg zur Resilienz – Teil 6 Im vorherigen Beitrag haben wir über das Plateau der Robustheit gesprochen, die zweite Zwischenstation auf dem Weg zur Resilienz, wozu es gut ist, wo seine Grenzen liegen und was es bedeutet, dort anzukommen...

Resilienz

28.10.2025 | 13 Minuten Lesezeit

Uwe Friedrichsen

Der lange und steinige Weg zur Resilienz – Teil 5

Der lange und steinige Weg zur Resilienz – Teil 5 Im vorherigen Beitrag haben wir die 100-%-Verfügbarkeitsfalle diskutiert und das Thema Verfügbarkeit erneut betrachtet. Wir haben auch die beiden Erkenntnisse besprochen, die notwendig sind, um unsere...

Resilienz

25.8.2025 | 17 Minuten Lesezeit

Uwe Friedrichsen

Der lange und steinige Weg zur Resilienz – Teil 3

Im vorigen Beitrag haben wir das Tal der Feature-Vollständigkeit besprochen, den Ausgangspunkt unserer prototypischen Reise in Richtung Resilienz, und wir haben festgestellt, dass ein solches Setup in der Regel nicht mehr ratsam ist. In diesem Beitrag...

Resilienz

9.6.2025 | 16 Minuten Lesezeit

Uwe Friedrichsen

Der lange und steinige Weg zur Resilienz – Teil 2: Das Tal der Feature...

Im letzten Beitrag haben wir den Grundstein für unsere Reise zur Resilienz gelegt, indem wir geklärt haben, was Resilienz ist. Das war notwendig, um ein gemeinsames Ziel für unsere Reise zu schaffen. In diesem Beitrag werden wir den Ausgangspunkt unserer...

Resilienz

19.5.2025 | 11 Minuten Lesezeit

Uwe Friedrichsen

Der lange und steinige Weg zur Resilienz – Teil 1

Im Kern geht es in dieser Blogserie um drei Fragen: Was ist Resilienz? Wie können wir resilient werden? Müssen wir immer das volle Programm durchziehen? Die zweite Frage leuchtet wahrscheinlich sofort ein, während die erste und dritte Frage dich vielleicht...

Resilienz

29.4.2025 | 13 Minuten Lesezeit

Uwe Friedrichsen

The Need for Speed – eine Geschichte über DevOps, Microservices, Continuous...

Derzeit sind drei Megatrends auszumachen, die die IT zu einem dramatischen Wechsel zwingen: WirtschaftsdarwinismusDigitalisierungDisruptive TechnologienAlle drei sind außerordentlich wichtig und Firmen, die diese Trends ignorieren, werden früher oder...

Digitalisierung
Cloud
DevOps
Agile Transformation
Microservices

18.8.2015 | 12 Minuten Lesezeit

Uwe Friedrichsen

W-JAX Nachlese …

Vom 5.11.2012 bis zum 9.11.2012 öffnete wie bereits seit mehreren Jahren die W-JAX in München ihre Pforten – fünf Tage randvoll mit Vorträgen, Tutorien, Diskussionen, Ausstellung und Neuigkeiten rund um Java-basierte Enterprise- und Web-Anwendungen im...

11.11.2012 | 4 Minuten Lesezeit

Uwe Friedrichsen

Skalierbarkeit, Fehlertoleranz und emergente Architektur

Ihr fragt Euch vielleicht, was emergente Architektur mit Skalierbarkeit und Fehlertoleranz zu tun haben. Nun, um ehrlich zu sein: Gar nichts. Mit diesem kurzen Blog Post möchte ich nur kurz auf ein paar meiner kürzlich gehaltenen Vorträge hinweisen, ...

Softwarearchitektur
Chaos Engineering

16.6.2012 | 1 Minuten Lesezeit

Uwe Friedrichsen

Hochskalierbare Cloud-Architekturen

Auf der W-JAX 2011 haben mein Kollege Patrick Peschlow und ich über hochskalierbare Cloud-Architekturen gesprochen. Der Ausgangspunkt dafür war ein konkretes Cloud-Projekt, in dem es um ein praktisch beliebig skalierbares Cloud-SaaS-Angebot ging. In...

Softwarearchitektur
Cloud

17.1.2012 | 1 Minuten Lesezeit

Uwe Friedrichsen

Architektur ist ein Kompass, kein Blueprint

Es sind die Weihnachtsfeiertage und wie viele andere Leute nutze ich die Zeit, um ein wenig abzuschalten – keine großen Verwandschaftsbesuche, keine große Urlaubsreise, nur ein wenig zu Hause abhängen und dabei darauf achten, nur nicht zu viel zu tun...

Softwarearchitektur

27.12.2011 | 3 Minuten Lesezeit

Uwe Friedrichsen

Cloud Compliance – ein eher unbeliebtes, aber wichtiges Thema

Auf der W-JAX 2011 hatte ich die Gelegenheit, über das Thema Cloud Compliance zu sprechen. Ich hatte im Vorfeld das mehr oder minder zweifelhafte Vergnügen, mich im Rahmen einer Cloud-Entwicklung für ein SaaS-Startup recht intensiv mit den zugehörigen...

Cloud
Compliance
IT-Security

21.12.2011 | 1 Minuten Lesezeit

Uwe Friedrichsen

Der Business Case für Architektur

Vor diversen Jahren, als ich noch ein junger, recht enthusiastischer und unbedarfter Junior-Architekt war, hatte mich einmal ein Manager gefragt, wofür den dieser ganze Architekturkram gut sei und warum er Geld dafür ausgeben solle. Als Antwort hatte...

Softwarearchitektur

8.12.2011 | 3 Minuten Lesezeit

Uwe Friedrichsen

Ist die Cloud innovativ oder alter Wein in neuen Schläuchen?

Ich lese immer wieder Aussagen wie „wirklich neu ist Cloud nicht“ oder härter formuliert „das ist doch nur alter Wein in neuen Schläuchen“. Ja, das kann man so sehen, aber ich tue mich etwas schwer mit diesen Aussagen. Warum? Disruptive Innovationen ...

Cloud

11.6.2011 | 2 Minuten Lesezeit

Uwe Friedrichsen

Agile Worst Practices – Teil 4

Willkommen zum vierten Post aus der Serie Agile Worst Practices, die ich mit diesem Post begonnen hatte. Wir bleiben bei den Worst Practices für das Team und greifen ein Problem auf, das es auch außerhalb der agilen Welt gibt, im agilen Kontext aber...

Agilität

24.2.2011 | 3 Minuten Lesezeit

Uwe Friedrichsen

Agile Worst Practices – Teil 3

Willkommen zum nächsten Post aus der Serie Agile Worst Practices, die ich mit diesem Post begonnen hatte. Wir bleiben bei den Worst Practices für das Team und greifen ein häufiges Missverständnis im agilen Umfeld auf: Team Worst Practice #3: Alles ist...

Agilität

9.2.2011 | 3 Minuten Lesezeit

Uwe Friedrichsen

Agile Worst Practices – Teil 2

So, nach einer kleinen Pause über die Feiertage und den Jahreswechsel begrüße ich Euch zum nächsten Post aus der Serie Agile Worst Practices, die ich mit diesem Post begonnen hatte. Wir bleiben bei den Worst Practices für das Team: Team Worst Practice...

Agilität

18.1.2011 | 2 Minuten Lesezeit

Uwe Friedrichsen

Agile Worst Practices – Teil 1

Auf der WJAX 2010 habe ich einen Vortrag mit dem Titel „Der agile Machiavelli oder wie kippe ich ein agiles Projekt?“ gehalten. Da meine Folien sehr minimalistisch waren und man auch nach fast 10 Jahren agilem Manifest noch überraschend viele „Worst...

Agilität

23.12.2010 | 5 Minuten Lesezeit

Uwe Friedrichsen

Wir brauchen mehr Inline-Kommentare!

Inline-Kommentare im Code sind „böse“ und jeder, der heutzutage noch immer Inline-Kommentare verwendet, ist ein sehr, sehr schlechter Entwickler und man sollte ihm dringend seine Lizenz entziehen. Das ist es, was allgemeiner Konsens in der Entwicklergemeinde...

Softwareentwicklung

23.9.2010 | 3 Minuten Lesezeit

Uwe Friedrichsen

Softwarearchitektur-Workshop mit Dana Bredemeyer und Meet the Experts

Nun denn, ich versuche einmal, den wahrscheinlich kürzesten Post zu schreiben, der jemals auf dem codecentric Blog erschienen ist … 😉 Worum geht’s? Ich wollte nur diejenigen unter Euch, die es noch nicht wissen, kurz darauf hinweisen, dass Dana Bredemeyer...

Softwarearchitektur
Community

31.8.2010 | 1 Minuten Lesezeit

Uwe Friedrichsen

Ist Qualität messbar? – Ein „moderiertes Streitgespräch“ auf der SEACON...

Eine Reihe interessanter bis erschreckender Erfahrungen in meiner beruflichen Laufbahn im Zusammenhang mit dem Messen bzw. Nichtmesssen von „Qualität“ hatte mich dazu bewogen, einen Vorschlag für eine entsprechende Session bei der SEACON 2010 einzureichen...

Softwareentwicklung
Community

29.6.2010 | 7 Minuten Lesezeit

Uwe Friedrichsen

Perfektion in der IT – oder „weniger ist mehr“

Nur ein Gedanke … Vor ein paar Tagen habe ich das folgende Zitat gelesen: „Perfektion entsteht offensichtlich nicht dann, wenn man nichts mehr hinzuzufügen hat, sondern wenn man nichts mehr wegnehmen kann.“ (A. Saint-Exupéry) Ich habe ein wenig darüber...

Softwarearchitektur
APM
Softwareentwicklung

19.4.2010 | 6 Minuten Lesezeit

Uwe Friedrichsen

Agilität und EAM

Unternehmensarchitektur-Management (UAM oder englisch EAM) ist für die meisten Unternehmen ein wichtiges Thema, nicht nur für die großen Unternehmen. Seine Einführung ist aber immer noch mit einer Menge Risiken verbunden und die Ergebnisse bleiben hä...

Agilität
DevOps
Softwarearchitektur

15.4.2010 | 1 Minuten Lesezeit

Uwe Friedrichsen

Das Märchen vom agilen Entwickler

Welche Geschichte hört man typischerweise über Agilität? Genau, meistens klingt es in etwa folgendermaßen: Agilität wurde von einigen frustrierten Entwicklern erfunden, die die Nase von nicht funktionierenden Prozessen voll hatten und von Dutzenden an...

Agile Methoden
Agilität

18.3.2010 | 5 Minuten Lesezeit

Uwe Friedrichsen

Was ist der Unterschied zwischen Architektur und Design?

Mittlerweile tobt seit längerem eine hitzige Debatte über die Frage, ob Architektur und Design die gleiche Sache sind oder nicht. Die Vertreter der „Beides ist das Gleiche“-Fraktion sagen, dass Architektur eigentlich einfach nur die erste Phase des Designs...

Softwarearchitektur
Softwareentwicklung

16.2.2010 | 5 Minuten Lesezeit

Uwe Friedrichsen

meet the experts – architektur | 27. November 2009 – Eine Nachlese

Am 27. November hat unser drittes Meet the Experts stattgefunden, dieses Mal zum Thema Architektur. Trotz einer Reihe krankheitsbedingter Absagen (der beginnende Winter fordert seinen Tribut) haben wieder über 80 Interessierte ihren Weg nach Solingen...

Softwarearchitektur
Framework
Community

5.12.2009 | 2 Minuten Lesezeit

Uwe Friedrichsen

Der klassische Projektmanager in Scrum

Viele „klassische“ Projektmanager stehen Scrum sehr reserviert oder gar ablehnend gegenüber. Einer der Gründe dafür ist, dass sie sich in Scrum nicht wiederfinden. Es gibt keine Rolle „Projektmanager“ in Scrum. Im Rahmen unseres Meet the Experts – Agilit...

Agilität
Agile Transformation
Controlling
Community
Agile Methoden

20.10.2009 | 4 Minuten Lesezeit

Uwe Friedrichsen

meet the experts – architektur | 27. November 2009

Das erste meet the experts – performance im Juni war für alle Beteiligten ein erlebnisreicher Tag. Auch das zweite meet the experts – agilität am 4. September war ein interessanter Tag mit vielen spannenden Vorträgen und Diskussionen. Daher freue ich...

Agilität
Community
Java
Search
APM
Softwarearchitektur

17.9.2009 | 6 Minuten Lesezeit

Uwe Friedrichsen

Eindrücke von der SET 2009 in Zürich

Letzte Woche habe ich die SET 2009 in Zürich besucht. Die von SIGS DATACOM organisierte Konferenz ist nicht so groß wie ihre große Konferenz, die OOP. Die SET hatte etwa 160 Besucher, dauerte zwei Tage und hatte ein gutes Programm, das in drei parallelen...

Softwarearchitektur
Community
Search
Frontend

13.5.2009 | 4 Minuten Lesezeit

Uwe Friedrichsen

JAX 2009 – Agile Day

Gestern habe ich den Agile Day auf der JAX 2009 in Mainz besucht. Es würde nicht viel Sinn machen, wenn ich irgendwelche Bewertungen zu den Vorträgen abgeben würde, da ich einer der Speaker war … 😉 … aber ich möchte hier einige persönliche Eindrücke...

Agilität
Community

20.4.2009 | 3 Minuten Lesezeit

Uwe Friedrichsen

TOGAF in der Praxis

Mittlerweile kenne ich TOGAF seit einigen Jahren, habe aber nie die Gelegenheit gefunden, es in seinem vollen Umfang in einem Kundenprojekt anzuwenden. In jeder konkreten Projektsituation erschien TOGAF mit all seinen Phasen und Ergebnisartefakten jedes...

Framework
Community
Softwarearchitektur

26.12.2008 | 3 Minuten Lesezeit

Uwe Friedrichsen

Wikipedia hat immer recht

Wenn wir eine Definition für einen Begriff suchen oder Erklärungen zu einem Thema, wo schauen wir dann nach? Richtig, in Wikipedia ! Und wir wissen, dass die gesammelten Informationen nach dem Prinzip der offenen Community zusammengetragen worden sind...

Softwarearchitektur
Community
Search
Framework

10.12.2008 | 3 Minuten Lesezeit

Uwe Friedrichsen

Der lange und steinige Weg zur Resilienz – Teil 6

Der lange und steinige Weg zur Resilienz – Teil 6Im vorherigen Beitrag haben wir über das Plateau der Robustheit gesprochen, die zweite Zwischenstation auf dem Weg zur Resilienz, wozu es gut ist, wo seine Grenzen liegen und was es bedeutet, dort anzukommen...

Resilienz

28.10.2025 | 13 Minuten Lesezeit

Uwe Friedrichsen

Der lange und steinige Weg zur Resilienz – Teil 5

Der lange und steinige Weg zur Resilienz – Teil 5Im vorherigen Beitrag haben wir die 100-%-Verfügbarkeitsfalle diskutiert und das Thema Verfügbarkeit erneut betrachtet. Wir haben auch die beiden Erkenntnisse besprochen, die notwendig sind, um unsere ...

Resilienz

25.8.2025 | 17 Minuten Lesezeit

Uwe Friedrichsen

Der lange und steinige Weg zur Resilienz – Teil 3

Resilienz

9.6.2025 | 16 Minuten Lesezeit

Uwe Friedrichsen

Der lange und steinige Weg zur Resilienz – Teil 2: Das Tal der Feature...

Im letzten Beitrag haben wir den Grundstein für unsere Reise zur Resilienz gelegt, indem wir geklärt haben, was Resilienz ist. Das war notwendig, um ein gemeinsames Ziel für unsere Reise zu schaffen.In diesem Beitrag werden wir den Ausgangspunkt unserer...

Resilienz

19.5.2025 | 11 Minuten Lesezeit

Uwe Friedrichsen

Der lange und steinige Weg zur Resilienz – Teil 1

Resilienz

29.4.2025 | 13 Minuten Lesezeit

Uwe Friedrichsen

Hystrix & Archaius – Dynamische Konfiguration zur Laufzeit

Wer sich mit Hystrix aus dem Hause Netflix beschäftigt und es im besten Fall auch einsetzt, ist mit sehr großer Wahrscheinlichkeit schon einmal der Bibliothek Archaius begegnet. Doch was ist Archaius und welche Möglichkeiten bieten sich mir? Habe ich...

Softwareentwicklung
Data
Resilienz

28.11.2016 | 8 Minuten Lesezeit

Benjamin Wilms

Hystrix: Fehlertoleranz statt Hochverfügbarkeit – Eine Einführung in Resilience...

Der Herr, der eben beim Auspacken seines Laptops beinahe meinen Kaffeebecher umgestoßen hat, schaut kurz auf meinen Bildschirm und sieht den geöffneten Hystrix-Vortrag. Ja, von Hystrix hat er schon einmal gehört, hat sein Team ihm vorgeschlagen, soll...

Softwarearchitektur
Microservices
Resilienz

9.10.2016 | 4 Minuten Lesezeit

Felix Braun

Der lange und steinige Weg zur Resilienz – Teil 4

Die 100-%-Verfügbarkeitsfalle

Die zweite Erkenntnis

Verfügbarkeit neu bewertet

Die dritte Erkenntnis

Zusammenfassung

War dieser Beitrag hilfreich?

Blog-Autor*in

Weitere Beiträge

Der lange und steinige Weg zur Resilienz – Teil 6

Der lange und steinige Weg zur Resilienz – Teil 5

Der lange und steinige Weg zur Resilienz – Teil 3

Der lange und steinige Weg zur Resilienz – Teil 2: Das Tal der Feature...

Der lange und steinige Weg zur Resilienz – Teil 1

The Need for Speed – eine Geschichte über DevOps, Microservices, Continuous...

W-JAX Nachlese …

Skalierbarkeit, Fehlertoleranz und emergente Architektur

Hochskalierbare Cloud-Architekturen

Architektur ist ein Kompass, kein Blueprint

Cloud Compliance – ein eher unbeliebtes, aber wichtiges Thema

Der Business Case für Architektur

Ist die Cloud innovativ oder alter Wein in neuen Schläuchen?

Agile Worst Practices – Teil 4

Agile Worst Practices – Teil 3

Agile Worst Practices – Teil 2

Agile Worst Practices – Teil 1

Wir brauchen mehr Inline-Kommentare!

Softwarearchitektur-Workshop mit Dana Bredemeyer und Meet the Experts

Ist Qualität messbar? – Ein „moderiertes Streitgespräch“ auf der SEACON...

Perfektion in der IT – oder „weniger ist mehr“

Agilität und EAM

Das Märchen vom agilen Entwickler

Was ist der Unterschied zwischen Architektur und Design?

meet the experts – architektur | 27. November 2009 – Eine Nachlese

Der klassische Projektmanager in Scrum

meet the experts – architektur | 27. November 2009

Eindrücke von der SET 2009 in Zürich

JAX 2009 – Agile Day

TOGAF in der Praxis

Wikipedia hat immer recht

Weitere Artikel in diesem Themenbereich

Der lange und steinige Weg zur Resilienz – Teil 6

Der lange und steinige Weg zur Resilienz – Teil 5

Der lange und steinige Weg zur Resilienz – Teil 3

Der lange und steinige Weg zur Resilienz – Teil 2: Das Tal der Feature...

Der lange und steinige Weg zur Resilienz – Teil 1

Hystrix & Archaius – Dynamische Konfiguration zur Laufzeit

Hystrix: Fehlertoleranz statt Hochverfügbarkeit – Eine Einführung in Resilience...

Jetzt für unseren Newsletter anmelden