Tags

, , ,

Vor kurzem kam es zu einem Störfall in meiner Firma. Eine Mail, gedacht für interne Augen, ging an den Mitarbeiter eines Kunden. Eigentlich war es eine Frage: „Das glauben die doch nicht ernsthaft?“ Da kocht dann schon mal Panik in einem hoch! Oh Gott, wie wird er wohl reagieren?! Roter Alarm!

Bei jeder Botschaft besteht die Gefahr, dass sie als persönlicher Angriff gewertet wird.1 Deshalb haben wir gelernt, so sachlich und informativ wie möglich zu schreiben. Die Mail des Kollegen entsprach natürlich nicht so ganz diesen Erwartungen….

Natürlich war alles halb so schlimm. Es zahlte sich aus, dass wir und der Kunde bis heute transparent und offen miteinander umgehen, wodurch die Bemerkung in kein Fettnäpfchen fallen konnte.

Interessanter fand ich allerdings die Umstände, die dazu führten. Um es klar zu sagen: Es war nicht die Schuld des Senders. Er verschickte die Mail nur intern. Aber ist es eine Frage von Schuld?

Letztlicher Auslöser war eine in Outlook falsch eingerichtete automatische Weiterleitung bei einem anderen Mitarbeiter. Also hat der die Schuld. Richtig?

Das Ganze war eine Verkettung unglücklicher Umstände, wie man so schön sagt:

  1. Der Kunde wollte über bestimmte Fehler auf dem Staging System informiert werden.
  2. Meldungen dazu werden per Mail von einem Monitoring-System verschickt.
  3. Das Problem war, der Hoster lässt keine externen Mail-Adressen in seinem Monitoring-System zu.
  4. Es wurde daher eine Weiterleitung in einem internen Postfach eingerichtet, die auf die Bedingungen Absender= monitor@xy.de und Betreff=“Fehler z auf Server a“ achtete. Im Falle beider Bedingungen wurde die Mail an interne und externe Adressen weitergeleitet.
  5. Unabhängig davon wurden firmenweit die Domains und damit die Email-Adressen gewechselt.
  6. Die Weiterleitung musste übernommen werden.
  7. Beim Übertragen der Weiterleitung in das neue Postfach wurde die Absender-Bedingung vergessen.
  8. Die Regel funktionierte und leitete wie gewünscht eine Fehler-Mail des Monitoring-Systems weiter.
  9. Auf diese Monitor-Mail mit dem passenden Betreff antwortete ein Kunde und stellte eine Frage.
  10. Diese Mail wurde dank der Weiterleitung und der nun fehlenden Bedingung (Absender=monitor@xy.de) an interne und externe Adressen verschickt.
  11. Auf diese Mail stellte der Mitarbeiter seine Frage, die dann dank der (fehlerhaften) Weiterleitung auch an den Kunden verschickt wurde…
  12. Kabumm

An vielen Stellen könnte man hier einhacken und fragen warum das so passiert ist? Warum antwortet der Kunde auf eine Mail vom Monitoring-System? Warum merkt der Fragesteller nicht, dass die Mails vom Kunden weitergeleitet wurde? Warum lässt der Hoster andere Email-Adressen nicht einfach zu?

Das Ganze war keine Katastrophe und die Probleme sind auch vermeidbar, dennoch musste ich an dieses Buch denken:

Normale KatastrophenPerrows Grundthese ist, dass in allen Systemen Fehler nicht vermeidbar sind. Ich denke darüber muss man nicht streiten. Es hängt stark vom System-Aufbau und von der dadurch bedingten System-Organsiation ab, ob ein System durch einen Fehler einen Totalschaden erleidet, oder ob der Fehler in einem Teilsystem abgefangen werden kann.

Wir sind glücklicherweise kein Unternehmen mit Großtechnik, aber auch ein System im Sinne Perrows. Jedes System verfolgt einen bestimmten Zweck, der angestrebt  wird, indem bestimmte Abläufen und Interaktionen aufrecht erhalten werden. Darunter fallen sowohl Chemiewerke, Frachtschiffe und Kernkraftwerke als auch Universitäten, Postämter oder eben auch Software-Firmen.

Interaktionen in einem solchen System können sein:

  1. Komplex oder Linear
  2. Eng gekoppelt oder lose Gekoppelt

Komplex sind Interaktionen, wenn die Änderung in einer Systemkomponente auch andere Stellen beeinflusst. Es treten unerwartete oder nicht unmittelbar durchschaubare Ereignisse auf. Linear sind Abläufe wie an einem Fließband, bei denen eine Aktion nur Einfluss auf die folgende Komponente hat. Sie sind leichter zu durchschauen.

Eng gekoppelt sind Systeme, bei denen die Ressourcen zu einer Fehlerbewältigung knapp sind. Es fehlt im Vergleich zu einer losen Koppelung an (Puffer-)Zeiten, Knowhow, Mitarbeitern, Ersatzteilen oder alternativen Abläufen. Lose gekoppelt ist entsprechend das Gegenteil. Es sind genug Ressourcen vorhanden und es sind auch alternative Abläufe möglich um ein Ziel zu erreichen.

Fehler müssen nicht unbedingt zum Systemkollaps führen. Sie können Einzelteile (bspw. ein Ventil) oder ein Subsystem (bspw. einem Dampfkessel) lahmlegen, ohne das Gesamtsystem zu gefährden.2

Je nach System-Aufbau ist nach Perrow eine zentrale oder eine dezentrale Organisationsstruktur für das frühzeitige Abfangen von Fehlern entscheidend.

  • Bei loser Koppelung ist es irrelevant, ob Entscheidungen zentral oder denzentral getroffen werden. Beispiel Postamt: die Abläufe sind linear und ohne große Interaktionen. Das könnte auch ohne einen zentralen Chef funktionieren, indem das Team sich selbst organisiert.
  • Bei enger Koppelung ist eine zentrale Struktur wichtig – beispielsweise im Schienenverkehr.
  • Bei linearen Systemen geht beides – es kommt nur auf die Kopplung an.
  • Sind die Systeme komplex, dann ist eine dezentrale Organisation wichtig, um Improvisieren zu können und um auf unerwartete Interaktionen adäquat reagieren zu können. Beteiligte müssen die Freiheit haben, einzelne Dinge auszuprobieren, um herauszufinden, was die Ursache eines seltsamen Fehlverhaltens ist.

Es ist offensichtlich, dass ein komplexes UND eng gekoppeltes System kaum die Möglichkeit hat optimal organisiert zu werden: Es müsste dezentral und zentral organisiert sein. Perrow geht es hier vor allem um Kernkraftwerke. Diese System sind nach seiner Auffassung sowohl sehr eng gekoppelt und zudem hochkomplex.

Komplex sind sie, da einige Subsysteme doppelte Funktionen haben, wie bspw. bei der Wärmeabführung und der Energiegewinnung. Bei den Energien, die dort Walten und den interagierenden Systemen, kann es zu unerwarteten Interaktionen von Subsystemen kommen. Zudem haben die Angestellten nicht die Möglichkeit ein System von jeder Seite aus zu betrachten. Sie verlassen sich auf einzelne Messwerte, wie eine Druckanzeige, die bei unerwarteten Interaktionen vielleicht nur deshalb einen normalen Wert anzeigt, weil an anderer Stelle Gas entweicht.

Die Abläufe sind zum anderen maximal eng gekoppelt. Es gibt kaum Möglichkeiten von geplanten Abläufen abzuweichen. Es gibt zwar Redundanz- und Notfallsysteme, die aber nie in vollem Umfang getestet werden können, da man damit die Technik weiteren Gefahren aussetzt. Beispielsweise strömen bei einer Notabschaltung Unmengen von kaltem Wasser unter starkem Druck in den Reaktorraum, der im Ernstfall noch unter großer Hitze steht. Es kommt zu einer ungleichmäßigen Abkühlung des Reaktorbehälters wodurch gefährliche Mikrorisse im Material entstehen können. Die Angestellten haben im Fehlerfall wenig Zeit auf die Messwerte verschiedener Anzeigen zu reagieren. Sie können auch nicht einfach mal in den Reaktor spazieren und eine Komponente austauschen.

Perrow schreibt, dass wir nur deshalb mit komplexen Systemen arbeiten, weil wir (noch) nicht wissen wie wir sie linear betreiben können. Glaubt er noch an mögliche Verbesserungen in anderen Technologien, wie zum Beispiel in der Chemie-Industrie, ist er bei Kernkraftwerken sehr viel skeptischer. Nimmt man zum hohen Risiko den möglichen Schaden eines Systemversages hinzu, dann ist die Technologie einfach nicht vertretbar.3

Was hat das Ganze nun mit meiner Mail-Geschichte zu tun?

Auch wenn ich keine Kernkraftwerke baue, und die Mail keine Kernschmelze ausgelöst hat, kann man Parallelen ziehen. Im Fall der Weiterleitung wurde ebenfalls ein Subsystem – Outlook – für zwei Interaktionen verwendet: Interner Mailverkehr und Weiterleitung von Mails an den Kunden. Es gab komplexe, unerwartete Interaktionen.

Zudem war das System zeitlich eng gekoppelt. Es gab keine Möglichkeit in den Fehler – das „Versagen“ des Subsystems – einzugreifen. Die Mail war schon verschickt.

Die Moral von der Geschichte ist also nicht, dass der Mitarbeiter zu vergesslich war die Weiterleitung „richtig“ einzurichten, sondern in der grundsätzlich vermeidbaren Einrichtung einer komplexen Interaktion überhaupt. Nochmal mach ich das nicht :-)

Der Fehler konnte aber in diesem Fall durch das restliche System abgefangen werden. Möchte man die Projekt-Organisation auf Perrows Modell übertragen, dann würde ich sagen, dass sie ein gutes Maß an Dezentralität besitzt. Es geht nicht alles über den Chef. Die Beteiligten interagieren oft und vertrauensvoll miteinander, wodurch eine flapsige Bemerkung nicht als Problem wahrgenommen wird. Dadurch bleibt Raum zum Reagieren und nicht jeder Fehler führt zum Systemversagen.

Zusammengefaßt: Fehler passieren. Vermeide komplexe Interaktionen und auch enge Koppelungen. Man sollte sich immer Raum zum Reagieren lassen – auch beim Autofahren:

  1. siehe bspw. das Vier Seiten Modell []
  2. Glücklicherweise hat die Mail bei uns weder einen „Teil“ – einen Mitarbeiter – noch das Subsystem Projekt „beschädigt“ :-) []
  3. Man lese sich einfach mal den Ablauf der Fukushima Katastrophe durch, dann wird einem schnell klar wie viele Querabhängigkeiten es gibt. []