rumlingen und der Wald vor lauter Bäumen

Murphy’s Meisterstück

Hinterlasse einen Kommentar

Zeit, mal wieder die ITler unter euch in Schrecken zu versetzen.

Wir haben 3 DMZen, die je ein Drittel der Welt abdecken. Verbindungen zu unserem Backend passieren primär über die jeweils nächstgelegene DMZ. Geräte in China verbinden sich über die DMZ Asien. Geräte in Canada über die DMZ America.
Jede DMZ hat einen Schwarm Router, die das organisieren.

Nun sind ja in letzter Zeit so einige Backdoors und 0-days bekannt geworden. Vielleicht keine schlechte Idee, die Router mal zu updaten?

Letzte Woche: Fangen wir mal mit Europa an. Und damit wir nicht zur besten Sendezeit stören, machen wir das gegen 22 Uhr. Wird schon nichts schiefgehen, wir haben das ja vorher in unserer Testumgebung getestet…
Rumi tapert morgens um 7 ins Büro und wird mit einem fröhlichen „Gut, dass du schon da bist!“ begrüßt. Oh oh…
Der gut getestete Patch hat nach weniger als einer Stunde den Router stillgelegt, und alle Tunnel auf diesem Router sind down. Es jammern bereits $ziemlichgroßerKundeinDE und $nochgrößererKundeweltweit. Ooops.
Das ist aber schnell behoben. Nach knapp einer Stunde ist der Patch zurückgerollt, ein besserer gefunden, ausgerollt, und angestrengt beobachtet.
Diesmal verhält sich der Patch anständig, also wird er auf alle anderen Router in dieser DMZ ausgerollt, und die Welt ist wieder in Ordnung.
Die Testumgebung hat offenbar nicht genug Traffic generiert, um den Fehler auszulösen.

Diese Woche: Da das ja letzte Woche so gut geklappt hat (*hust*), bringen wir den Patch diesmal auf alle Router gleichzeitig auf. Router aus einer anderen Baureihe. Aber der Patch wird schon passen…
30 Minuten später steht $Entwickler neben mir. „Äh… Mach mal bitte ein SuperGAU-Ticket auf. Die ganze DMZ steht still.“
Nach dem Patch und dem damit verbundenen Neustart waren die Router nicht mehr erreichbar.
Kollege S ruft in dem Rechenzentrum an, in dem unsere Router stehen. Also, er versucht es. Die erste Nummer existiert nicht mehr. Die zweite Nummer führt ihn durch ein mehrstufiges Menü und legt dann einfach auf. Also ruft er einen uns bekannten Supervisor an, um so jemanden zu finden, der sich per Konsolenkabel an unsere Router hängen kann, um mal zu gucken was da so abgeht.
Der Supervisor hat Probleme, jemanden mit den passenden Berechtigungen zu finden. Offenbar hat Murphy beschlossen, uns mal so richtig zu zeigen, was er kann.
Stunden vergehen. 5, um genau zu sein. Langsam wachen die Leute in der DMZ auf und möchten gerne arbeiten. Böse Nachfragen schlagen auf, warum die Downtime nicht angekündigt wurde.
Ich schicke weiter stündlich das gleiche Update raus: „No update available. Expect the next update in about an hour.“
Nach 6 Stunden haben wir vielleicht jemanden, der innerhalb von 45 Minuten vor Ort sein kann und dann auch an die Hardware darf…
Wir sind in dieser Situation die zentrale Anlaufstelle. Wir haben den Kontakt zum Rechenzentrum, wir haben Kontakt zu den Kunden, wir haben Kontakt zu den Entwicklern, die das Update durchgeführt haben. Aber wir sammeln nur, die Verantwortung liegt woanders. Im Grunde stehen wir mit einem Klemmbrett neben einem größeren Unfall und versuchen, nicht allszu offensichtlich jemanden auszulachen.
Nach einigen Stunden stufen die Entwickler ihre Ticketpriorität runter, Grund: „no access to hardware“.
Nach 10 (!!!) Stunden kann der Spätschichtkollege endlich das SuperGAU-Ticket schließen.
Was das Problem war?
Vor zwei Jahren hat ein Kollege aus Sicherheitsgründen die Zertifikate aller Zugangsberechtigten auf den Routern eingerichtet, und dabei ein Steuerungszeichen falsch escaped. Und das hat dann beim nächsten Neustart ein Problem verursacht.
Ein Hoch auf unsere Uptime!

Nächste Woche: Die dritte DMZ steht an…

Advertisements

Rufe in den Wald hinein

Trage deine Daten unten ein oder klicke ein Icon um dich einzuloggen:

WordPress.com-Logo

Du kommentierst mit Deinem WordPress.com-Konto. Abmelden / Ändern )

Twitter-Bild

Du kommentierst mit Deinem Twitter-Konto. Abmelden / Ändern )

Facebook-Foto

Du kommentierst mit Deinem Facebook-Konto. Abmelden / Ändern )

Google+ Foto

Du kommentierst mit Deinem Google+-Konto. Abmelden / Ändern )

Verbinde mit %s