24 Kommentare

Hitzeprobleme bei odin.selfhtml.org

Ursachen des Serverausfalls gefunden, Problem gelöst

Wie es aussieht, ist das Problem erkannt worden: es scheint so zu sein, dass die Umgebungs-Temperatur im Rack zu hoch war. Die Sun Fire V20z hat ein eingebautes Sensoren-Set, unter anderem für die Umgebungs-Temperatur. Dieses Sensoren-Set wird überwacht von einem Service-Prozessor, einem embedded PowerPC. Übersteigt die Temperatur einen kritischen Grenzwert, schaltet sich der Rechner sang- und klanglos ab.

Mysteriös bei der Sache ist nur, dass vili.selfhtml.org, der physikalisch über Odin montiert wurde, sich nicht abgeschaltet hat. Die gemessene Umgebungs-Temperatur war dort 42°C. Auch unsere Ansprechpartnerin bei Sun konnte sich dieses Rätsel bisher nicht erklären.

Unser Provider hat jedoch freundlicherweise sehr schnell reagiert und eine provisorische Lösung des Hitze-Problems geschaffen: Es wurden weitere Decken- und Bodenplatten entfernt, außerdem wurden einige Löcher in die Rückwand des Racks gebohrt, so dass mehr heisse Luft direkt hinausgepustet werden kann. Dadurch fiel die Umgebungs-Temperatur auf etwa 35°C. Im Laufe der nächsten Woche soll die Rückwand vollständig durch eine gelochte Rückwand ersetzt werden, so dass die Temperatur weiter sinkt.

Derartige Fehler passieren leider immer wieder: Racks sind relativ eng gebaut, es ist nicht viel überflüssiger Platz da. Dadurch kann sich die Frischluft, die durch den Boden hineingepustet wird (man erinnere sich: warme Luft steigt nach oben), sehr leicht in den unteren Regionen des Racks verwirbeln. Die Folge ist ein Hitzestau in den oberen Regionen. Neuere Racks werden deshalb anders gebaut, geräumiger und mit Luft-Kanälen nach oben, so dass eine gleichmäßige Belüftung stattfinden kann.

eingeordnet unter:

veröffentlicht von Christian Kruse

Kommentieren ist für diesen Artikel deaktiviert.

  1. Oha, "warme Luft steigt nach oben" wer erzählt denn so etwas? Warum sollte sie das tun? Würde sie dann nicht im Weltall verschwinden? Oder hält sie die Ozonschicht gerade noch so fest? Steigt denn warmes Wasser auch nach oben? Wenn ja wie schafft ihr es zu kochen? Fragen über Fragen *scnr*.

    / Jeena

    PS: Kalte Luft drückt, bedingt durch ihre höhere Dichte, die warme Luft nach oben, ansonsten würde sie wirklich im Weltall verschwinden ;-)

  2. Richard, du bist ein Klugscheisser *vfbg*

  3. PS: Kalte Luft drückt, bedingt durch ihre höhere Dichte, die warme Luft nach oben, ansonsten würde sie wirklich im Weltall verschwinden ;-)

    Wenn die kalte Luft die warme wirklich "nach oben drückt", oben aber das Weltall ist, warum verschwindet die warme luft nicht doch im All? Schließlich ist die Dichte dort noch geringer, als in der warmen Luft. :-)

    Spaß beiseite, es ist schön, dass jetzt wenigstens die Fehlerquelle bekannt ist. Das ist ein großer Schritt nach vorn.

  4. Damit die Interessierten auch ein tatsächliches Bild vor Augen haben, hier mal ein gestern im Rechenzentrum getätigter Schnappschuss des betreffenden Racks:

    Unsere Server befinden sich oben im Rack. Von oben nach unten sind da die drei schwarzen Suns (vili, odin, ve) und darunter der gestern neu montierte Datenbank-Server heimdall.

  5. Eben deshalb weil die Dichte da noch geringer ist as die der warmen Luft ;-).

  6. Eben deshalb weil die Dichte da noch geringer ist as die der warmen Luft ;-).

    Richard, jetzt erzählst du Quatsch ;) Die Gasteilchen bleiben um die Erde herum, weil die Erde ein ausreichend großer Himmelskörper ist und so eine stark genügende Anziehungskraft entwickeln kann, um die Gasteilchen (dauerhaft) an sich zu binden.

  7. Eigentlich ist das alles nur eine Geschichte für die Medien. Aber wir haben es bereits herausgefunden! Der Wahre Grund für das temporäre Ableben Odins liegt auf der Hand. Eine Person (wir nenen sie aus diversen Gründen einfach mal "das ominöse C") brauchte mehr Rechenleistung für sein WoW. Der Verzweiflung nahe - den Computer sein Freundin konnte er ja nicht belegen - entschied sich das ominöse C still und heimlich den armen Odin zu übernehmen und der selfGemeinde zu entreissen. Schliesslich ist WoW bedeutend wichtiger als komische Antworten komischer Leute auf komische Fragen anderer komischer Leute. Als Die selfTruppe nun das Rechenzentrum stürmen sollte um den Fehler vor Ort aufzudecken, musste sich das ominöse C natürlich etwas einfallen lassen, damit der Baum und der Rest der Truppe nicht auf den Hintergrund der Probleme aufmerksam werden konnten. Wie wir ja wissen erzeugen CPUs mehr Wärme je mehr sie zu rechnen haben. Wie wir ebenfalls wissen, sind die Lüfter auch nur an die Elektronik angeschlossen. Das alles beachtend hat sich das ominöse C auf der Suche nach der Lüftersteuerung immer tiefer in die tiefen Tiefen des Odins gegraben und die Drehzahlen sämtlicher Gebläse reduziert. Sodass, durch die Erhöhung der Prozessorbelastung der arme Odin nun immer wieder um Hilfe der Walküren rufen musste. Da das mit der weiteren Rechenleistung für WoW aber offensichtlich zu einem öffentlichen Desaster wurde, sah sich das ominöse C gezwungen die zeitverschwendende Software zu deinstallieren. Nachdem Odin nun ganz brav beim Do(c)tor war und das ominöse C zur Vernunft gekommen ist, hat die Geschichte doch noch ihr happy end genommen.

    --- Den Film zum Buch "Geschichten des ominösen C" können Sie demnächst im Kino erleben.

  8. Hallo,

    die eigentlich spannende Frage bleibt ja wirklich nur noch, wieso 1.) vili nicht eher ausgegangen ist und 2.) wieso odin erst nach rund 1,5 Jahren dieses Problem bekommen hat. Das sieht für mich danach aus, dass ein Sensor bzw. das Sensor-Set nicht richtig funktioniert. Die Lösung mit der besseren Durchlüftung ist sicher nicht verkehrt, stellt aber für mich eher ein "rumdoktern" an den Sympthomen dar als eine Beseitigung der echten Ursache.

    Es wäre schön zu erfahren, welche Stellung Sun dazu einnimmt. Ich nehme mal an, dass sich dieses Sensor-Set nicht so ohne weiteres tauschen lässt. Ich würde aber trotzdem versuchen, einen Tausch zu veranlassen. Denn ich glaube nicht, dass sich das Verhalten der Sensoren bessern wird. Es wird eher das Gegenteil eintreten, dass die Sensoren bei noch geringerer Wärme eine Abschaltung veranlassen. Wenn dem so ist, ist das derzeitige Probem also Austausch der Sensoren nur aufgeschoben, nicht aufgehoben.

    Aber vielleicht findet Sun ja auch noch ne andere Lösung. Warten wir es ab ;o)

  9. Alexander, das Sensor-Set funktioniert einwandfrei. Die ausgelesenen Temperaturen stimmen annähernd zu 100% mit den selbst gemessenen überein. Die als kritisch eingestellte Temperatur ist bei beiden SPs identisch. Nein, die Hardware funktioniert einwandfrei - schliesslich sind wir auch nicht doof und haben diese Variante durchaus überprüft. Die einzige Möglichkeit ist ein Unterschied in der Konfiguration. Und diese Möglichkeit möchte die gute Frau von Sun eruieren.

    Was das "herumdoktorn" angeht: eine Aussentemperatur von 40°C ist eindeutig zu heiss. Dem muss dringend Abhilfe geschaffen werden. Da können die Suns auch nichts für, im Gegenteil, es ist gut, dass Odin sich ausgeschaltet hat.Und nein, es ist nicht zu erwarten, dass sie demnächst bei niedrigeren Temperaturen abschalten, dieser Gedanke ist für mich völlig unlogisch, es gibt keinen Grund, warum das passieren sollte.

  10. Ok, die Sensoren sind es nicht. Wenn sie sich also bei um die 40°C abschalten ist das ok für mich. Es drängt sich dann aber die Frage auf, weshalb die Temperatur gestiegen ist (was sie sein muss, da es sonst nicht zu der Abschaltung gekommen wäre, da ja die Sensoren ok sind). Entweder mehr Load auf dem Server, neue komponenten im Rack oder im Serverraum stehen allgemein mehr Server rum die für heisse Luft sorgen. Ungünstig gestelltes Nachbarrack, dass heisse Luft in "unser" Rack bläst etc. ich könnte noch so weiter machen, spare mir das aber mal ;) Was den temperaturdrift bei möglichweise defekten Sensoren angeht, so ist dies nicht so unwahrscheinlich, wie es klingen mag. Setzt bei den Senoren (schöne komplizierte analoge Schaltungswelt) einmal ein Alterungsprozess ein (der irgendwann unweigerlich einsetzt), der nicht durch ausgefeilte Schaltungen oder digitale Korrekturen kompensiert wird, so verschlimmert sich sein Verhalten schon stetig und könnte von dem von mir aufgezeigten Szenario passen.

  11. Alexander, warum die Temperatur gestiegen ist fragen wir uns auch. Am Rack wurde seit Monaten nichts mehr verändert. Wir wissen es nicht, vielleicht ist einfach die Raumtemperatur gestiegen. Es ist auch müßig, darüber nachzudenken, warum das passiert ist: wichtig ist nur, dass etwas dagegen getan wird.

    Was die Verschlechterung von analogen Sensoren angeht: wenn die Sensoren defekt wären, könnte ich deine Argumentation nachvollziehen ;)

  12. "Am Rack wurde seit Monaten nichts mehr verändert."

    vielleicht DESWEGEN. Wenn sich am Lufteingang Staub ansamelt (z.B. an einem Gitter), kann mit der Zeit immer weniger Luft durch. Deswegen sollte der SELF-Verein sich vielleicht eine Putzfrau leisten ;-)

  13. Andreas, hehe, die Luft wird natürlich gereinigt, Staub gibt es in dem Datacenter nur marginal ;)

  14. Hi,

    es war also ein Temperaturproblem, ja? Und wenn ich mir so die Einbaulage anschau und die Ist- und Solltemperaturen ist das kaum verwunderlich, war fast schon zu erwarten. Die Temperaturen bewegen sich meist hart an der Grenze (Kuehlung ist nunmal schweineteuer, deshalb wird sich daran auch nie etwas aendern), da reicht eine Kleinigkeit. Diese Kleinigkeit ist der Umstand, das Odin inmitten eines Sandwiches liegt und daher seine Verlustwaerme nur ueber die Umgebungsluft, also per Kontakt los wird, waehrend die beiden Toastscheiben oben und unten noch zusaetzlich Waerme per Strahlung abgeben koennen. Zur knappen Haelfte auch noch auf den armen Odin. Das mochte er wohl nicht so gerne, kommt er doch aus dem kaltem Norden. Warum erst jetzt? Auch Elektronik altert und Hitze beschleunigt diesen Vorgang.

    so short

    Christoph Zurnieden

    PS: es ist uebrigens guenstiger einen vernuenftigen Stroemungsweg zu bauen, als wahllos ein paar Loecher zu bohren. Aber gut: wenn's schon hilft und die Umgebungsluft gesiebt wird sollte man keinen grossen Aufwand betreiben, stimmt auch mal wieder. CZ

  15. Warum erst jetzt? Auch Elektronik altert und Hitze beschleunigt diesen Vorgang.

    Christoph, die Sensorik ist beim ersten Besuch des Sun-Technikers vollständig ausgetauscht worden. Deine Argumentation weist Lücken auf ;)

  16. Hi,

    meine Argumentation weist Luecken auf? Das muss so sein, das ist fuer die Kuehlung.
    Na komm, _den_ Kalauer hast Du doch jetzt herausgefordert! ;-)

    Du setzt aber auch zuviel voraus. Das Dingen hat keine Strom- und Spannungskompensierte Messaparatur von Rhode&Schwarz drinnen, da ist ein simpler Temperaturfuehler eingebastelt, mit ein wenig Logik dabei, das die Kiste nicht bei gleich jeder Temperaturspitze die Graetsche macht, wenn ich mich mal so flapsig ausdruecken darf (oder war die Dame von Sun besonders huebsch?). Das Netzteil wurde nicht gewechselt (oder doch?) und auch die Platten sind wahrscheinlich dringeblieben. Alterung bei Elektronik fuehrt auch teilweise zu hoeherem Widerstand, der wiederum zu hoeher Verlustleistung und damit auch zu hoeherer Abgastempereatur. Das sind alles nur minimale Kleinigkeiten, aber die summieren sich schnell auf das noetige Zehntelgrad Erhoehung der Durchschnittstempereatur, die zum Abschalten fuehren. Warum das allerdings nachvollziehbar(!) ploetzlich und ungewarnt passiert ist eine Frage, die sich der Schuldige (bei Sun?) wohl oder uebel gefallen lassen muss.

    so short
    Christoph Zurnieden

  17. Die Suns selbst sind definitiv nicht an der Überhitzung schuld, sie sind bis 35 °C Umgebungstemperatur spezifiziert. Vergleicht man die Einbau-Situation mit wesentlich dichter gepackten Racks, so kann es nur an einer unterdimensionierten Kühlung liegen.

    Diese Kleinigkeit ist der Umstand, das Odin inmitten eines Sandwiches liegt und daher seine Verlustwaerme nur ueber die Umgebungsluft, also per Kontakt los wird, waehrend die beiden Toastscheiben oben und unten noch zusaetzlich Waerme per Strahlung abgeben koennen.

    Wärmeabgabe per Strahlung? Diese Notwendigkeit würde den 1-HE-Formfaktor ad absurdum führen. Warum sind diese Geräte wohl so flach? Damit man möglichst viele von ihnen übereinander stapeln kann …

  18. Wärmeabgabe per Strahlung? Diese Notwendigkeit würde den 1-HE-Formfaktor ad absurdum führen. Warum sind diese Geräte wohl so flach? Damit man möglichst viele von ihnen übereinander stapeln kann …

    Das wird auch keine Probleme machen, wenn die 35 °C Umgebungstemperatur eingehalten werden.
    Die Temperatur im Inneren der Server liegt dann allerdings darüber und hängt auch von vielen weiteren Faktoren ab.
    Der (vielleicht geringe) Anteil an Wärmeabgabe durch Strahlung, kann dabei durchaus erklären, warum gerade odin ausgestiegen ist, wärend die beiden anderen Server eventuell haarscharf unterhalb der Abschalttemperaur blieben.

  19. Detlef, die gemessene Temperatur bei Vili (physikalisch über Odin) war zwei Grad über dem kritischen Limit.

    Alle anderen Temperaturen bei allen Servern sind völlig innerhalb des Limits.

  20. Lieber Christian,

    Du hast also die Temperatur gemessen und die lag oberhalb des kritischen Limits? Wie hast Du denn gemessen, wo und womit? Ist das Verhalten des Servers oberhalb des o.a. Limits deterministisch? Welchen Toleranzen unterliegt das Limit? Ist das Abschaltverhalten aller drei Server geprueft worden? Wenn ja: wie und womit und wie ist das Ergebniss ausgewertet worden? Wie ist die genaue Logik des Abschaltvorganges ("Closed Source" nehme ich mal an?)? Sieht die Dame von Sun wirklcih so gut aus, das Du nichts auf sie kommen laesst? Gibt es keinen anderen Schuldigen? Wer, um Gottes Willen ist auf die Idee gekommen die Dinger in einem fast leerem Schrank spack unter die Decke zu klemmen? Bekommt man vom Aeppelwoi immer noch so einen Duennschiss? Warum poste ich eigentlich in einem Board, wo ich das doch so hasse? Wieso ist das hier ueberhaupt ein Board, wo es alle doch so hassen? Tradition?

    Fragen ueber Fragen und keinen interessiert's. Deshalb geh' ich jetzt auch und nehm' mir zwei bis fuenf zur Brust. Aber mindestens. Wenn nicht mehr.

    Prost

    Christoph Zurnieden

  21. Christoph, die Temperatur wurde von den einzelnen Sensoren der einzelnen Kisten gemessen. Sie lagen alle innerhalb des Limits, mit Ausnahme der Umgebungstemperatur. Ist das so schwer zu verstehen? Warum muss ich das 50 mal schreiben? Warum verstehst du das nicht?

    Das Abschaltverhalten ist von unserer Seite nicht geprüft worden. Trotz allem ist es verwunderlich, warum sich die eine Kiste bei höherer Umgebungstemperatur aber derselben Software nicht abschaltet. Warum ist das Problem so plötzlich aufgetreten? Verschleißende Sensorik ist ausgeschlossen, da sie ausgetauscht wurde. Verstehst du jetzt das wahre Dilemma, mit dem ich mich herumschlage?

    Das hat nichts damit zu tun, dass ich Sun in Schutz nehmen möchte, aber abwegige Theorien bleiben abwegig, auch wenn sie von dir kommen.

    Der Schrank ist übrigens nicht fast leer. Guck dir das Bild doch bitte etwas genauer an. Unsere Hälfte ist nahezu voll.

  22. Das hat nichts damit zu tun, dass ich Sun in Schutz nehmen möchte...

    Es ist ja toll, wenn sich der Sever ausschaltet, bevor irgendwelche Schäden durch die Überhitzung eintreten.
    Ziemlich bescheuert finde ich allerdings, dass dies ohne Vorwarnung und ohne jegliche Logeinträge erfolgt.

    Der Schrank ist übrigens nicht fast leer.

    Naja, etwa zur Hälfte ausgelastet. Wenn ich das mit unseren Serverschränken vergleiche (mit denen ich ehrlch gesagt nicht direkt zu tun habe, und bei denen es bisher, meines Wissens, keine Temperaturprobleme gab), ist das fast leer ;-).

  23. Ach, Christian,

    da versucht man es durch die Blume und es ist auch wieder nicht recht.
    *sigh*
    ;-)

    Die genauen Gruende fuer die Ueberhitzung zu suchen erfordert einen derart hohen Aufwand, das er einfach unrentabel wird. Das habe ich Dir versucht mit dem Haufen Fragen klarzumachen. Der Frankie von brasil.de ist Stroemungsingenieur, der kann Dir da bestimmt mehr drueber erzaehlen.

    Hast Du festgestellt, das es sich um Ueberhitzung handelt (RoT:wenn man einen Server nicht mehr unbeschadet anfassen kann ist er eindeutig zu heiss) dann suche Kuehlung. Erstmal fuer den verbrannten Finger, dann fuer den Server. Wenn das (Loecher bohren, Tuer und Rueckwand entfernen u.ae.) reicht: fertig, naechstes Problem.
    Wenn nicht: versuche aktive Lueftung. Es gibt fuer die Schraenke einen Luefter, den Du an Stelle des Daches aufsetzen kannst. Der hat aber so um die 500 Watt und bringt deshalb auch schon von sich aus Waerme in die Umgebungsluft, die evt muehsehlig ,also teuer wieder entfernt werden muss. Um die kostspielige Luft nutzen zu koennen muss auch die Stroemung im Inneren des Schrankes stimmen, sonst verblaest sich alles. Die Mittel dazu sind spottbillig -- Wellpappe bzw duennes Blech, wenn sich die Feuerwehr beschwert, Gaffatape bzw Blechschrauben und eine Rauchpatrone -- aber der erforderliche Kenntnisstand ist hoch. Und weil ich solchen Nonsense liebe noch einen bloeden Spruch zum Thema:

    Die Luft, die ist nicht dumm, die weht auch um die Ecke rum!

    Also: Du kannst Dich nicht um jeden Mist selber kuemmern, lass das die Leute machen, die Du dafuer bezahlst! Das ist in diesem Fall wohl Sun, wenn ich das richtig verstanden habe. Was hat Dich die Fahrt nach Fft/M eigentlich gekostet (Aber Du wolltest/musstest ja eh hin, wenn ich das richtig verstanden habe)? Haettest Du mich nicht mitnehmen koennen? Ich haette gerne mal wieder den Chinesen schraeg gegenueber vom Hbf besucht (wenn's den denn noch gibt), der hatte so schoene Schweinereien und man kam mit Pidgin-Englisch gut zurecht, wenn auch Kantonesisch auffallend bessere Wuerzung ergab.

    so short

    Christoph Zurnieden

  24. Liebe Diskutanten,

    mit Verlaub, ich habe das Gefühl, dass die meisten Kommentare hier uns bei einer näheren Untersuchung der Fehlerursache nicht weiterhelfen - Christian ist auf die meisten bereits inhaltlich eingegangen. Die Diskussion scheint zudem auszuufern und vom Ursprungsthema abzukommen.

    Ich möchte auf die Kommentar-Policy dieses Weblogs hinweisen, wie sie im ersten Eintrag beschrieben wurde, und alle bitten, diese zu beherzigen:

    Die Kommentarmöglichkeit kann und soll kein zweites Forum sein. Technische Diskussionen über die optimale Kühlung und Spekulationen über den Grund der Serverabschaltung sind, ebenso wie witzelnde Unterhaltung, im Forum besser untergebracht. Dort existieren schon Threads zum Serverausfall.

    Ich bitte daher darum, hier keine weiteren Kommentare dieser Art zu hinterlassen.

    Mathias, Redaktion SELFHTML