Der lange und steinige Weg zur Resilienz – Teil 7

27.11.2025 | 9 Minuten Lesezeit

Das Hochplateau der grundlegenden Resilienz

Im vorherigen Beitrag haben wir darüber gesprochen, was es bedeutet, sich auch auf Überraschungen vorzubereiten, welche Erkenntnisse uns zum nächsten Plateau führen und was dabei wahrscheinlich das größte Hindernis ist: Effizienz-Besessenheit.

In diesem Beitrag werden wir uns damit befassen, was uns auf dem dritten Plateau erwartet, dem Hochplateau der grundlegenden Resilienz.

Das Hochplateau der grundlegenden Resilienz

Das Hochplateau der grundlegenden Resilienz ist die dritte Zwischenstation, die Unternehmen auf ihrem Weg zur Resilienz in der Regel erreichen.

Der Berg mit dem Hochplateau der grundlegenden Resilienz.

Dort sind nur wenige Unternehmen angekommen – zumindest aus IT-Sicht. Die Hauptgründe dafür sind:

Es braucht Zeit, um zu akzeptieren, dass Überraschungen unvermeidlich sind.
Die Vorbereitung auf Überraschungen erfordert in der Regel Veränderungen in den Prozessen und der Organisation – und Veränderungen sind bekanntermaßen schwierig.
Resilienz und Effizienz sind gewissermaßen Gegenspieler. Hocheffiziente Organisationen können nicht resilient sein, und resiliente Organisationen sind nicht hocheffizient. Das Schlüsselwort ist „hoch“. Resiliente Organisationen sind in der Regel effizient, aber sie versuchen nicht, das letzte Quäntchen Effizienz aus ihrer Organisation herauszupressen. Effizienz und Resilienz müssen in Einklang gebracht werden, was in der Regel äußerst schwierig ist, da die meisten Organisationen so sehr auf Effizienz fixiert sind, dass ihre Antwort auf alle Probleme „mehr Effizienz” lautet, was Resilienz verhindert. Wir haben diesen Punkt bereits im vorherigen Beitrag diskutiert.

Wie zuvor bedeutet der Übergang zum Hochplateau der grundlegenden Resilienz nicht, dass die tiefer gelegenen Plateaus irrelevant werden. Es ist ziemlich sinnlos, mit Überraschungen umgehen zu können, wenn wir mit erwarteten widrigen Ereignissen und Situationen nicht richtig umgehen können. Daher brauchen wir weiterhin die Konzepte aus den tiefer gelegenen Plateaus.

Robustheit ausbalancieren

Die Konzepte des neuen Plateaus schaffen eine weitere Ebene und ergänzen die bisherigen Konzepte. Sie helfen auch dabei, Prioritäten neu zu justieren und zu optimieren. Auf dem Plateau der Robustheit haben wir gelernt, dass es nicht sinnvoll ist, die MTTF übermäßig zu maximieren. Auf dem Hochplateau der grundlegenden Resilienz lernen wir, dass es nicht sinnvoll ist, unsere Anwendungen übermäßig robust zu gestalten.

Dafür gibt es zwei Gründe:

Jede Robustheitsmaßnahme erhöht die Komplexität der Lösung. Der Code wird komplexer. Die Laufzeitumgebung wird komplexer. Komplexität steht jedoch im Widerspruch zu Robustheit. Je einfacher eine Lösung ist, desto robuster ist sie in der Regel: leichter zu verstehen, weniger bewegliche Teile zur Laufzeit, weniger fehleranfällig. Das bedeutet, dass wir ein Gleichgewicht zwischen der Einfachheit der Lösung und dem Umfang der integrierten Robustheitsmaßnahmen finden müssen. Wie so oft liegt das Optimum zwischen den beiden Extremen.
Robustheitsmaßnahmen können manchmal zu unerwarteten, emergenten Verhaltensweisen führen. Das heißt, während sie mit der Art von widrigen Situationen, für die sie entwickelt wurden, gut umgehen können, kann es unter anderen Bedingungen zu Überraschungen kommen, wie z. B. metastabilen Ausfällen [1]. Natürlich wollen wir keine neuen unerwünschten Überraschungen hervorrufen, indem wir mit erwarteten widrigen Situationen umgehen. Daher müssen wir sorgfältig abwägen, welche Robustheitsmaßnahmen wir wie in unsere Systeme integrieren und welche Teile wir der Organisation überlassen wollen. Es ist jedoch nicht einfach, den richtigen Mittelweg zu finden, und es kann eine Weile dauern, bis wir ihn gefunden haben.

Eine gute Faustregel ist, mit einer eher geringen Anzahl von Robustheitsmaßnahmen zu beginnen, die sich gegenseitig ergänzen, und dann zu prüfen, ob zusätzliche Maßnahmen erforderlich sind. Sich gegenseitig ergänzende Maßnahmen sind Maßnahmen, die in Kombination mehr unerwünschte Ereignisse und Situationen bewältigen können als einzeln, d. h. zusammen bilden sie eine Art Konstellation, bei der „das Ganze mehr ist als die Summe seiner Teile“. Es kann eine Weile dauern, bis man eine solche Reihe sich wechselseitig ergänzender Maßnahmen identifiziert hat, aber letztendlich lohnt sich der Aufwand.

Bewertung des Hochplateaus der grundlegenden Resilienz

Nach diesen einleitenden Bemerkungen wollen wir nun das Hochplateau der grundlegenden Resilienz anhand des bereits bekannten Bewertungsschemas genauer erkunden.

Haupttreiber

Der Haupttreiber ist, das Unerwartete zu erwarten.

Mit der Akzeptanz, dass Überraschungen unvermeidlich sind, kommt die Erkenntnis, dass wir uns auf sie vorbereiten müssen, wenn wir das Risiko verringern wollen, von der nächsten Überraschung, die uns trifft, aus der Bahn geworfen zu werden.

Leitfragen

Dies führt zu einer ganz anderen Reihe typischer Leitfragen, wie z. B.:

Wie kann ich die Wahrscheinlichkeit maximieren, einen unerwarteten Fehler schnell zu erkennen und darauf zu reagieren, bevor er zu einem Ausfall führt?
Wie kann ich mich am besten organisieren, um schnell und erfolgreich auf unerwünschte Überraschungen reagieren zu können?
Welche Ressourcen benötigt meine IT-Organisation, um schnell und erfolgreich auf unerwünschte Überraschungen reagieren zu können?
Wie schaffe ich ein Gleichgewicht zwischen Resilienz und Effizienz?

Es ist wichtig zu verstehen, dass wir nicht garantieren können, dass uns Überraschungen niemals aus der Bahn werfen werden, egal wie sehr wir uns auch bemühen. Wir können lediglich die Wahrscheinlichkeit verringern. Eine 50-prozentige Chance, einer unangenehmen Überraschung standzuhalten oder sich schnell davon zu erholen, ist jedoch viel besser als eine 0-prozentige Chance. Wenn du mit einem sicherheitskritischen System arbeitest, kann jedes zusätzliche Prozent letztendlich Menschenleben retten oder Verletzungen verhindern.

Resilienz wirkt sich auch auf die Organisation und Prozesse aus. Da wir in der Regel aus Organisationen kommen, die auf Effizienz optimiert sind, müssen wir unsere Prozesse und Organisationen höchstwahrscheinlich bis zu einem gewissen Grad ändern, um resilient zu werden. Das Gute daran ist, dass resiliente Organisationen in der Regel perfekt für hochdynamische VUCA-artige Märkte geeignet sind, in denen die eigene Reaktionsgeschwindigkeit und Flexibilität entscheidend sind (“economies of speed”). Sich für hochdynamische Märkte (die heute meistens gegeben sind) aufzustellen, erfordert ähnliche Maßnahmen wie das Streben nach Resilienz. [2]

Wir haben bereits im vorherigen Beitrag darüber gesprochen, dass wir ein Gleichgewicht zwischen Effizienz und Resilienz finden müssen. Effizienzoptimierung bedeutet, eine Aufgabe mit möglichst wenigen Ressourcen zu erledigen. Resilienz hingegen erfordert gewisse Reserven an Ressourcen und personellen Kapazitäten, um unerwartete Widrigkeiten zu bewältigen oder sich schnell davon erholen zu können. Wenn wir also unsere Resilienz wirklich verbessern wollen, müssen wir die Effizienz so ausbalancieren, dass sie die Resilienz nicht beeinträchtigt.

Typische Maßnahmen

Wir betreten einen Bereich, in dem wir nicht nur die IT-Systeme berücksichtigen müssen, sondern insbesondere auch die umgebende Organisation und Prozesse. Daher konzentrieren sich die typischen Maßnahmen auch eher auf die Organisation und die Prozesse als auf die technischen Systeme:

Selbstorganisierte Teams tragen dazu bei, die spontanen Kooperationsmuster zu etablieren, die wir benötigen, um mit unerwarteten Situationen umzugehen.
Fire Drills und Chaos Engineering schaffen die erforderliche Routine und tragen dazu bei, Überraschungen „langweilig“ zu machen.
Bestärken breiten Wissens und Kreativität fördert unkonventionelles Denken und Kreativität, was oft erforderlich ist, um unerwartete widrige Situationen erfolgreich zu meistern.
Spielraum („Slack”) im System bietet die Kapazitäten und Ressourcen, die erforderlich sind, um unerwarteten Widrigkeiten standzuhalten oder sich schnell davon zu erholen.
Observability der IT-Systeme erhöht die Wahrscheinlichkeit, drohende widrige Situationen früher zu erkennen, und hilft, die Situationen besser zu analysieren.

Trade-offs

Der Ansatz des Hochplateaus der grundlegenden Resilienz hat mehrere Vor- und Nachteile:

Es erfordert viel Arbeit und Mühe, um dieses Plateau zu erreichen, insbesondere aufgrund der erforderlichen Veränderungen in Bezug auf die Organisation und die Prozesse.
Ein Umdenken ist erforderlich, weg von der Effizienz-Besessenheit hin zu einem vernünftigen Gleichgewicht zwischen Effizienz und Resilienz, was für Unternehmen, die traditionell auf Effizienz fixiert sind, oft sehr schwierig ist.
Das gesamte soziotechnische System muss berücksichtigt werden.
In der Regel müssen die Kooperationsmodelle an den Systemgrenzen neu gestaltet werden, d. h. die Art und Weise, wie die jeweiligen Geschäfts- und IT-Abteilungen (oder funktionsübergreifende, prozessorientierte Teams) mit anderen Teilen des Unternehmens interagieren.
Der Ansatz funktioniert sehr gut mit einem “Economies of Speed”-Geschäftsmodell, d. h. für Unternehmen, die sich auf Markt-Feedback-Zykluszeiten konzentrieren.
Er ermöglicht eine sehr hohe Verfügbarkeit, selbst im Angesicht unerwarteter widriger Situationen.
Er ermöglicht eine sehr hohe Innovationsgeschwindigkeit, ohne die Zuverlässigkeit selbst in hochgradig ungewissen und unklaren Umgebungen zu beeinträchtigen. [3]
Resilienz, d. h. die Fähigkeit, erwartete und unerwartete widrige Ereignisse und Situationen erfolgreich zu bewältigen, wird erreicht.

Wann ist es sinnvoll

Eine solche Aufstellung ist für sicherheitskritische Kontexte auf jeden Fall erforderlich.

Sie eignet sich auch, wenn die Verfügbarkeitsanforderungen sehr hoch sind, die technische Umgebung jedoch tendenziell sehr unzuverlässig ist.

Außerdem eignet sie sich, wenn hohe Innovationsgeschwindigkeit in hochgradig ungewissen Geschäftskontexten erforderlich ist.

Wann ist es zu vermeiden

Eine solche Konfiguration reicht nicht aus, wenn sich die Angriffsfläche (“Threat surface”) häufig ändert (siehe auch „Blinder Fleck“ weiter unten).

Wirkungskreis

Der Wirkungskreis umfasst das gesamte soziotechnische System, d. h. er umfasst die IT-Systeme, die IT-Abteilung, die Fachabteilungen, die Prozesse, die Organisation und die Kooperationsmodi an den (soziotechnischen) Systemgrenzen.

Blinder Fleck

Der blinde Fleck dieser Konfiguration ist der Mangel an Weiterentwicklung. Die Organisation ist zwar in der Lage, mit Überraschungen umzugehen, lernt aber nicht dazu und passt sich so nicht kontinuierlich an eine sich verändernde Bedrohungslage an.

Zusammenfassung

Das Hochplateau der grundlegenden Resilienz ist die dritte Zwischenstation auf unserem Weg zur Resilienz. Hier akzeptieren wir, dass Überraschungen unvermeidlich sind und dass Überraschungen nicht allein durch technische Systeme behandelt werden können, sondern dass Menschen mit einbezogen werden müssen. Daher ändert sich unsere Grundeinstellung zu “Erwarte das Unerwartete” und wir berücksichtigen das gesamte soziotechnische System.

Es erfordert viel Aufwand, um dieses Plateau zu erreichen: Eine große Umstellung in der Denkweise ist erforderlich. Es sind mehr Parteien beteiligt. Prozesse und die Organisation sind betroffen. Die Kooperationsmodi an den Systemgrenzen sind betroffen. Daher haben bisher nur wenige Unternehmen dieses Plateau erreicht.

Es ermöglicht hervorragende Verfügbarkeit, selbst wenn widrige Überraschungen auftreten. Daher eignet es sich auch für sicherheitskritische Kontexte. Allerdings schöpft es das volle Potenzial der Resilienz nicht aus, da es keine kontinuierliche Anpassung an eine sich verändernde Bedrohungslage ermöglicht.

Im nächsten Beitrag werden wir uns damit befassen, was erforderlich ist, um sich kontinuierlich an eine sich wandelnde Bedrohungs- und Überraschungslandschaft anzupassen, die uns schließlich auf den Gipfel des Berges der Resilienz bringen wird. Bleibt dran … ;)

1) Metastabile Fehler sind Fehlermodi, die aufgrund unerwarteter Nebenwirkungen von Robustheitsmaßnahmen auch dann bestehen bleiben, wenn die ursprüngliche Fehlerursache beseitigt wurde. Wer sich näher mit diesem Thema befassen möchte, dem empfehle ich zunächst als Einführung „Metastable Failures in Distributed Systems” von Bronson et al. sowie „Metastable Failures in the Wild” von Lexiang et al., das eine praktische Untersuchung des Themas enthält.

2) Ergänzend ist zu beobachten, dass Economies of Speed nicht versuchen, die Effizienz zu maximieren (Minimierung der Herstellungskosten). Stattdessen versuchen sie, die Effektivität zu maximieren (Maximierung des Umsatzes durch Maximierung der Wirksamkeit der Arbeit). Um die Gewinne zu maximieren, versuchen sie, die linke Seite der Bilanz zu verbessern, nicht die rechte Seite. Aus wirtschaftlicher Sicht versucht Resilienz, das Risiko von Umsatzverlusten (aufgrund von Nichtverfügbarkeit) zu minimieren, d. h. sie zielt ebenfalls auf die linke Seite der Bilanz ab. Daher stehen Resilienz und Economies of Speed nicht im Widerspruch zueinander, wie dies bei Resilienz und Effizienz-Besessenheit der Fall ist. Eine ausführlichere Diskussion über Effizienz und Effektivität findest du im (englischen) Blogbeitrag „Forget efficiency”.

3) Denke daran, dass eine der Folgen der fortschreitenden digitalen Transformation darin besteht, dass Geschäft und IT nicht mehr voneinander trennbar sind. Das bedeutet auch, dass wir auf der Geschäftsseite nichts ändern können, ohne die IT anzufassen. Daher begrenzt die Geschwindigkeit, mit der die IT Änderungen ohne Qualitätseinbußen (was für Robustheit und Resilienz unerlässlich ist) implementieren und ausliefern kann, auch die Geschwindigkeit, mit der die Geschäftsseite auf Marktbewegungen reagieren kann. Darüber hinaus begrenzt die Fähigkeit der IT-Abteilung, mit erwarteten und unerwarteten widrigen Ereignissen und Situationen umgehen zu können, auch die Fähigkeit der Geschäftsseite, auf widrige Ereignisse und Situationen zu reagieren.

Dieser Blogpost ist ursprünglich auf Englisch in Uwe Friedrichsens Blog erschienen.

War dieser Beitrag hilfreich?

Beitrag teilen

Blog-Autor*in

Uwe Friedrichsen

CTO

Du hast noch Fragen zu diesem Thema? Dann sprich mich einfach an.

Die menschliche Seite der KI-Transformation

Die menschliche Seite der KI-Transformation Warum wir nicht nur über Produktivität sprechen sollten – sondern auch über Identität, kognitive Belastung und die Zukunft professioneller Expertise „KI wird Entwickler:innen nicht ersetzen – aber Entwickler...

Change Management
Generative KI
Resilienz

17.7.2026 | 6 Minuten Lesezeit

Melanie Volk

Warum jedes Redesign dein Playwright-Projekt zerstört — und wie drei Schichten...

TL;DR: Wir zeigen, wie eine strukturelle Trennung von UI-Selektoren und Fachlogik beim Einsatz von Playwright aussehen kann, und adaptieren dafür das bewährte Robot Pattern zum Layered Robot Pattern. So kann eine Browser-Automatisierung erfolgen, ohne...

Künstliche Intelligenz
Softwareentwicklung
Frontend
Testing
Pattern
UX/UI
Test Driven Development
Softwarearchitektur
Resilienz
Webdevelopment
BDD
Android

3.7.2026 | 8 Minuten Lesezeit

Lars Jouon

Rebecca Jox

Resilienz in der Softwareentwicklung: Warum wir im KI-Zeitalter einen ...

Resilienz in der Softwareentwicklung: Warum wir im KI-Zeitalter einen neuen Autopiloten brauchen In der modernen IT-Landschaft ist „Resilienz“ längst zu einem Modewort geworden. Jeder möchte sie haben, viele behaupten, sie zu besitzen, doch nur wenige...

Resilienz
DevOps
Generative KI

25.3.2026 | 4 Minuten Lesezeit

Niko Blättermann

Der lange und steinige Weg zur Resilienz – Teil 6

Der lange und steinige Weg zur Resilienz – Teil 6Im vorherigen Beitrag haben wir über das Plateau der Robustheit gesprochen, die zweite Zwischenstation auf dem Weg zur Resilienz, wozu es gut ist, wo seine Grenzen liegen und was es bedeutet, dort anzukommen...

Resilienz

28.10.2025 | 13 Minuten Lesezeit

Uwe Friedrichsen

Der lange und steinige Weg zur Resilienz – Teil 5

Der lange und steinige Weg zur Resilienz – Teil 5Im vorherigen Beitrag haben wir die 100-%-Verfügbarkeitsfalle diskutiert und das Thema Verfügbarkeit erneut betrachtet. Wir haben auch die beiden Erkenntnisse besprochen, die notwendig sind, um unsere ...

Resilienz

25.8.2025 | 17 Minuten Lesezeit

Uwe Friedrichsen

Der lange und steinige Weg zur Resilienz – Teil 4

Im letzten Beitrag haben wir das Plateau der Stabilität, die erste Zwischenstation auf dem Weg zur Resilienz, erörtert – wozu es gut ist, wo seine Grenzen liegen und warum es so beliebt ist.In diesem Beitrag werden wir die 100-%-Verfügbarkeitsfalle, ...

Resilienz

30.6.2025 | 13 Minuten Lesezeit

Uwe Friedrichsen

Der lange und steinige Weg zur Resilienz – Teil 3

Im vorigen Beitrag haben wir das Tal der Feature-Vollständigkeit besprochen, den Ausgangspunkt unserer prototypischen Reise in Richtung Resilienz, und wir haben festgestellt, dass ein solches Setup in der Regel nicht mehr ratsam ist.In diesem Beitrag...

Resilienz

9.6.2025 | 16 Minuten Lesezeit

Uwe Friedrichsen

Der lange und steinige Weg zur Resilienz – Teil 2: Das Tal der Feature...

Im letzten Beitrag haben wir den Grundstein für unsere Reise zur Resilienz gelegt, indem wir geklärt haben, was Resilienz ist. Das war notwendig, um ein gemeinsames Ziel für unsere Reise zu schaffen.In diesem Beitrag werden wir den Ausgangspunkt unserer...

Resilienz

19.5.2025 | 11 Minuten Lesezeit

Uwe Friedrichsen

Der lange und steinige Weg zur Resilienz – Teil 1

Im Kern geht es in dieser Blogserie um drei Fragen: Was ist Resilienz? Wie können wir resilient werden? Müssen wir immer das volle Programm durchziehen? Die zweite Frage leuchtet wahrscheinlich sofort ein, während die erste und dritte Frage dich vielleicht...

Resilienz

29.4.2025 | 13 Minuten Lesezeit

Uwe Friedrichsen

Hystrix & Archaius – Dynamische Konfiguration zur Laufzeit

Wer sich mit Hystrix aus dem Hause Netflix beschäftigt und es im besten Fall auch einsetzt, ist mit sehr großer Wahrscheinlichkeit schon einmal der Bibliothek Archaius begegnet. Doch was ist Archaius und welche Möglichkeiten bieten sich mir? Habe ich...

Softwareentwicklung
Data
Resilienz

28.11.2016 | 8 Minuten Lesezeit

Benjamin Wilms

Hystrix: Fehlertoleranz statt Hochverfügbarkeit – Eine Einführung in Resilience...

Der Herr, der eben beim Auspacken seines Laptops beinahe meinen Kaffeebecher umgestoßen hat, schaut kurz auf meinen Bildschirm und sieht den geöffneten Hystrix-Vortrag. Ja, von Hystrix hat er schon einmal gehört, hat sein Team ihm vorgeschlagen, soll...

Softwarearchitektur
Microservices
Resilienz

9.10.2016 | 4 Minuten Lesezeit

Felix Braun

Der lange und steinige Weg zur Resilienz – Teil 7

Das Hochplateau der grundlegenden Resilienz

Das Hochplateau der grundlegenden Resilienz

Robustheit ausbalancieren

Bewertung des Hochplateaus der grundlegenden Resilienz

Haupttreiber

Leitfragen

Typische Maßnahmen

Trade-offs

Wann ist es sinnvoll

Wann ist es zu vermeiden

Wirkungskreis

Blinder Fleck

Zusammenfassung

War dieser Beitrag hilfreich?

Blog-Autor*in

Weitere Artikel in diesem Themenbereich

Die menschliche Seite der KI-Transformation

Warum jedes Redesign dein Playwright-Projekt zerstört — und wie drei Schichten...

Resilienz in der Softwareentwicklung: Warum wir im KI-Zeitalter einen ...

Der lange und steinige Weg zur Resilienz – Teil 6

Der lange und steinige Weg zur Resilienz – Teil 5

Der lange und steinige Weg zur Resilienz – Teil 4

Der lange und steinige Weg zur Resilienz – Teil 3

Der lange und steinige Weg zur Resilienz – Teil 2: Das Tal der Feature...

Der lange und steinige Weg zur Resilienz – Teil 1

Hystrix & Archaius – Dynamische Konfiguration zur Laufzeit

Hystrix: Fehlertoleranz statt Hochverfügbarkeit – Eine Einführung in Resilience...

Jetzt für unseren Newsletter anmelden