Skip to content

32°C im Serverraum ist zu viel des Guten

Die Woche fing gerade erst an (es war wohl so so gegen halb 10), ich hatte noch nicht einmal die morgendliche Koffein-Dosis intus, da bekundete ein Mitarbeiter mir gegenüber, daß sein Thunderbird immer in einen Timeout laufe und er auf sein IMAP-Postfach nicht zugreifen könne.

Kurz mal einen Ping abgesetzt und Tatsache - der Server war entweder mit einer ordentlichen Kernel-Panic abgeraucht oder das Kabel/der Switchport oder die NIC waren im Ar^Wkaputt. Keine 2 Minuten später erreichte mich die Nachricht, daß ein weiterer Produktiv-Server ausgefallen sei - nun wurde ich langsam leicht nervös.

Eine Maschine: kann mal passieren.
Zwei Maschinen, gleichzeitig tot: Zufall? Nicht mit mir.

Also Laptop-Tasche mit all den kleinen nützlichen Utensilien geschnappt, ins Auto geschwungen und bei geöffnetem Fahrer- und Beifahrerfenster (es war sonnig und für die Tageszeit schon sehr warm) und lauter Mukke zum Datacenter gedüst.

Kaum angekommen und einem der Datacenter-Mitarbeiter erzählt, wir hätten da Probleme mit 2 Maschinen ... Antwort: "Ja, wissen wir."

Dabei denkt man sich noch nichts - schließlich sind das dort alles Profis und gucken laut SLA auch regelmäßig an unseren Racks vorbei um uns zu informieren, wenn Server mit ihren LEDs um Aufmerksamkeit betteln. Im weiteren Gespräche wurde allerdings schnell klar, daß die Sache etwas heikler war als ich ursprünglich dachte:

Der Mitarbeiter erklärte mir, daß eine der redundant ausgelegten Klimaanlagen wegen einer Verstopfung im Kühlmittelkreislauf ausgefallen sei. Die vorhandene Backup-Klima sei jedoch deshalb nicht hochgefahren, weil die Primäre den Fehler nicht erkannte und die Elektronik weiterhin der Meinung war, die Anlage würde funktionieren.

Schlußendlich haben die Mitarbeiter dann das defekte Bauteil aus der Klimaanlage ausbauen müssen, damit die Elektronik eine Fehlfunktion an die Backup-Klima signalisierte und diese daraufhin wie gewollt den Dienst aufnahm.

*überall hektische Betriebsamkeit im Datacenter*

Dummerweise waren seit dem Ausfall der primären Klimaanlage bis zum Hochfahren der Zweiten einige Minuten vergangen, so daß die Temperatur im Serverraum, wo u.a. auch unsere Server stehen, von etwa 22°C Normalniveau auf 32°C angestiegen war.

Als ich dann im Serverraum vor unseren Racks stand und "meine Babies" überflog, viel mir fast die Kinnlade runter - inzwischen hatten sich zu den zwei Servern, die sich wegen der viel zu hohen Temperatur selbständig abgeschaltet hatten, zwei weitere Rechner gesellt. Vier Server temporär außer Gefecht und das wo alle Server im Produktiv-Einsatz waren :(.

Nach dem Anfahren der Backup-Klima dauerte es noch einmal mindestens 10 Minuten, bis der Raum auf ein Level heruntergekühlt war, bei dem sich die vier Server mit "Hitzefrei" nicht mehr weigerten, den Dienst wieder aufzunehmen.

Zwischenzeitlich kam ein Mitarbeiter des Datacenters mit einem mobilen Klimagerät angerollt und positionierte es vor einem unserer Racks, um ein temperaturbedingtes Abschalten weiterer Server (erfolgreich) zu verhindern.

Resultat dieses turbolenten Vormittags: Ein zerschossenes Journal auf einer ext3-Partition, was sich aber mit ein bisschen Fummelei reparieren ließ und ein ausgefallener Lüfter in einem der vier HP Server, für den aber sofort Ersatz geordert wurde.

*Kaffee schlürf*

{ 5 } Comments

  1. steF | 14. Juni 2006 at 19:03 | Permalink

    jaja das admin leben ist schon hart...haben uns jetzt rollläden vor dem fenster installieren lassen und eine neon-bank besorgt, soviel sommer und licht das hält doch keiner aus...;-)

  2. WinterRaven | 20. Juni 2006 at 09:13 | Permalink

    Die sind bei uns zum Glück ständig zu...Es geht doch nichts über ein abgedunkeltes Büro, Bauhaus aus den Boxen und die Schatten der schwitzenden Mitarbeiter vor den Fenstern, die wahnsinnig genug sind, in der Mittagssonne ihre Pause zu verbringen :)

  3. DCAdmin | 8. August 2006 at 11:22 | Permalink

    Hallo Marcel,

    das ganze war doch nur eine Notfallübung und diente einzig und alleine dem Training der Kunden Admins. Wir hatten die Lage während der ganzen Übung unter Kontrolle und hätten bei bedarf die Klimaanlagen jederzeit wieder zuschalten können.

    Dir können wir nun bestätigen das Du voll "Klimaausfallundeswirdheißimserverraumunddie maschinensterbenmirlangsamweg" Resistent bist. Gute Leistung, weiter so.
    Du erhälst hiermit ein virtuelles "32Grad-Ich war dabei!!" T-Shirt für deine Sammlung.

    Beim nächsten besuch gibst dann wieder nen Kaffee ;-)

    Gruß Michael

  4. Chicken | 11. Oktober 2006 at 21:19 | Permalink

    Moin,
    nach lesen dieses Eintrags und deiner "Selbsteinschätzung"

    begnadeter GNU/Linux-User

    bin ich echt froh, das ich kein User auf einem der von Dir betreuten Server bin! Welcher Chef macht einen Azubi "verantwortlich für rund 60 Server"? Vielleicht solltest du mal nach Nagios googeln und als 61. Server eine Überwachung einrichten, die Dir nicht nur _rechtzeitig_ bescheid sagt (ein "ausgelernter" admin weiß sowas, _bevor_ der erste User anruft), sondern bei kritischen Ereignissen wie der Temperatur die betreffenden Geräte sauber runterfährt? Obwohl ich nur einen Bruchteil deines Geräts betreue (oder sind es virtuelle Server unter XEN auf einem PII 300 MHz?), piept mein Handy schon, wenn ein kritischer Dienst versagt, das Absterben ganzer Server würde sicherlich den Vibrationsmotor zu erdbebenartigen Erschütterungen verleiten...

    Gruß
    Chicken

  5. Marcel | 23. Dezember 2006 at 01:45 | Permalink

    @Chicken

    Inzwischen rennt neben Cacti auch Nagios, womit das Server-Monitoring nun komplett wäre.
    Nein, es sind keine virtuellen Server, sondern eine ganze Menge HP-Pizzaschachteln :)

    Gruß und Frohe Weihnachten,
    Marcel.