{"id":138,"date":"2012-07-27T00:05:22","date_gmt":"2012-07-26T22:05:22","guid":{"rendered":"http:\/\/blog.roellig-it.de\/?p=138"},"modified":"2015-12-06T22:51:48","modified_gmt":"2015-12-06T21:51:48","slug":"mailadresse-fuer-lau-monatsbericht-7","status":"publish","type":"post","link":"https:\/\/blog.roellig-it.de\/index.php\/2012\/07\/27\/mailadresse-fuer-lau-monatsbericht-7\/","title":{"rendered":"Mailadresse f\u00fcr lau [Monatsbericht 7]"},"content":{"rendered":"<p>Heute ist Freitag der 27.07.2012 und das ist der siebente Monatsbericht meines Freemail Services.<\/p>\n<p>Am 21.07 bekam ich morgens um 4:24 Uhr einen Telefonanruf von Nagios!! JAAAA, Nagios kann mit uns Reden. Sowas ist <a href=\"http:\/\/de.wikipedia.org\/wiki\/Unified_Communications\" target=\"_blank\">Echtzeit Kommunikation<\/a>!!!!!!<\/p>\n<p>Upala dachte ich, son Mist! Da hat man schon mal Bereitschaft und wird auch noch mitten beim Schlafen gest\u00f6rt. Scheibenkleister, gut was solls. Also an den Aparat gegangen und Zugeh\u00f6rt was Nagios so zu Sagen hat. Den Anruf zur St\u00f6rungserkennung best\u00e4tigt, ansonsten wird der n\u00e4chste aus dem Bett geklingelt.<\/p>\n<p>Das erste was in einer solchen Situation unbedingt erforderlich ist, ist <a href=\"http:\/\/de.wikipedia.org\/wiki\/Trojan-Room-Kaffeemaschine\" target=\"_blank\">KAAAAFFEEEEE<\/a> \ud83d\ude42 . Ansonsten geht bei mir nicht viel. Also erstmal die Kaffeemaschine angeworfen und danach unter die Dusche. Nachdem der <a href=\"http:\/\/de.wikipedia.org\/wiki\/Trojan-Room-Kaffeemaschine\" target=\"_blank\">KAAAAAFFFFFEEEEEE<\/a> endlich durch war ging es ran an den Rechner um zu sehen was Nagios gefunden hat und um die ersten Ma\u00dfnahmen in die Wege zu leiten.<\/p>\n<p>Normalerweise kann Nagios viele Dinge selbst erledigen, also Maschinen Resetten oder Maschinen Aktivieren, wenn einer unser Cluster droht abzuschmieren oder ungew\u00f6hnliche Lastspitzen auftreten. Aus dem Grund Kaufe ich auch nur HP Maschinen da die GUTEN Modelle schon alle eine <a href=\"http:\/\/de.wikipedia.org\/wiki\/Integrated_Lights-Out\" target=\"_blank\">ILO Karte<\/a> drin haben die sogar den Zugriff erlaubt wenn die Maschinen abgeschaltet sind. Aber Nagios zeige nichts der gleichen, NEIN schlimmer ein Raidcontroller hat die Beine breitgemacht und ein Raidarray gekillt! Scheisse dachte ich, Dovecot TOT. Maschine TOT. Nein NUR Dovecot war abgeschmiert da genau auf dem Raidarray die Indexe der Dovecot Mailboxen drauflagen, da Dovecot das Array nicht mehr findet startet Dovecot nat\u00fcrlich auch nicht mehr, MIST!!!! Also was machst\u00b4e war die erste \u00dcberlegung. Platten wurden vom Controller nicht mehr erkannt, ich kam nicht mal mehr in\u00b4s Controller BIOS rein also WAT NUN??<\/p>\n<p>Erstmal in die DOKU vom Server rein gesehen. Welche Controller sind drin und was h\u00e4ngt an den Controllern. Am Onboard Controller h\u00e4ngen die Systemplatten als Raid 1+0 dran. Also 4 x 400 GB SAS Platten und ein Raid 1 mit zwei Platten auch 400 GB SAS, System belegt mit allem drum und dran knapp 250 GB auf dem Raid 1+0. Dann ins Backup geschaut und den Taschenrechner gez\u00fcckt. Per Hand nachgerechnet wie gro\u00df der Platzverbrauch der Indexe ist und siehe DA es passt. Indexe verbrauchen 284 GB Platz. Also zweites Raidarray leer gemacht und Dovecot gestoppt. Dann rein in die Dovecot Konfiguration und den Pfad f\u00fcr die Indexe angepasst. Konfig nat\u00fcrlich Kopiert und vorsichtshalber gleich in Subversion geschoben.<\/p>\n<p>Zum Testen dann noch Dovecot gestartet und in die Logs geschaut. AHHHH Dovecot l\u00e4uft und Postfix macht seine Queue leer. 800 Mails in der Postfix Queue, 1000 sind das Limit ab dem Nagios anf\u00e4ngt um Hilfe zu schreien. Eskalation merkt aber das Dovecot weggebrochen ist und unterdr\u00fcckt die St\u00f6rmeldung von Postfix!! Nachdem die Postfix Queue leer ist zum Testen noch mal die Komplette Kiste einem Neustart unterzogen.<\/p>\n<p>Neustart erledigt!<\/p>\n<p>Dovecot? L\u00e4uft!<\/p>\n<p>Postfix? L\u00e4uft auch!<\/p>\n<p>Storage f\u00fcr den Dovecot Index?? Super h\u00e4ngt an der korrekten Stelle, und L\u00c4UFT!<\/p>\n<p>Gl\u00fccklicherweise hat es nur den Controller zerrissen auf dem das Array f\u00fcr Dovecot\u00b4s Mailbox Indexes liegen. Das soll ja laut Dokumentation bei Fehlern ein einfaches L\u00f6schen des Indexes helfen. Denn Index baut Dovecot dann wieder beim Zugriff auf die Mailbox wieder allein auf. NAAA mal sehen ob das Funktioniert.<\/p>\n<p>Da aber heute Samstag ist hab ich nicht wirklich gro\u00dfe Lust ins B\u00fcro zu fahren und mich um die Maschine zu k\u00fcmmern!!! HA\u00c4\u00c4\u00c4\u00c4\u00c4 was soll\u00b4s schei\u00df drauf, Wochenende ist sowieso im Arsch. Also zum Becker getrottet, Br\u00f6tchen geholt und erstmal in Ruhe mit $Freundin und $beideKinder Gefr\u00fchst\u00fcckt. War ja mittlerweile dann auch schon 8:00 Uhr durch.<\/p>\n<p>Nach dem Fr\u00fchst\u00fcck in die $Firma gefahren, ein Gl\u00fcck war es der Server der im RZ im B\u00fcro steht und das ist schnell Erreicht! Als erstes im B\u00fcro erstmal die Kaffeemaschine angeworfen, wie gesagt in solch einer SITUATION Hilft nur die Braune Br\u00fche damit ich den Tag \u00fcberstehe. Maschine l\u00e4uft also rein ins RZ Schrank auf gemacht und Server nach vorn gezogen, Deckel auf und mit der Taschenlampe erstmal die Dunkelheit im Server vertrieben!<\/p>\n<p>BOOOOHHHHAAAAAA, Scheisse noch mal!!! Ich hab noch nie gesehen das RICHTIGE Server Hardware HP kaputt gegangen ist. Okay eine Platte und ein Ramriegel, war aber alles noch in der Garantie und wurde gleich von HP Getauscht. Aber der Kontroller ist im wahrsten Sinne Abgebrannt! Da wundert es mich nicht das ich nicht mal mehr ins BIOS vom Kontroller komme. Jetzt noch hoffen das die Platten und das Storage Array das \u00fcberstanden haben. Also wieder in\u00b4s B\u00fcro getigert und am Rechner erstmal die Doku zum Server ausgedruckt und ins Lager gegangen um zu sehen was da noch so rumsteht! Mittlerweile war der Kaffee durch und ich hab wieder Hoffnung gesch\u00f6pft. Im Lager lag dann dann aber nicht wirklich das passende rum, nur nen DL580 G5 mit 32 GB Ram und zwei zus\u00e4tzlichen SmartArray P411 SAS Kontrollern, na gut dann eben den. Also Kiste eingepackt und ins Rack geh\u00e4ngt, Monitor und Tastatur dran und erstmal auf die Platten Debian Installiert damit die Kiste von der Ferne erreichbar ist. Nach 10 Minuten war die Kiste soweit fertig das ich den Rest in meinem B\u00fcro vom Rechner per SSH Konsole machen konnte. Nach knapp 2 Stunden war dann der Rechner komplett Online und ich konnte die alte Maschine abschalten und dem neuen Server die IP des alten Verpassen. Damit war der Cluster wieder Vollst\u00e4ndig und ich konnte wieder nach Hause Fahren.<\/p>\n<p>Sch\u00f6nes Wochenende!!<\/p>\n","protected":false},"excerpt":{"rendered":"<p>Heute ist Freitag der 27.07.2012 und das ist der siebente Monatsbericht meines Freemail Services. Am 21.07 bekam ich morgens um 4:24 Uhr einen Telefonanruf von Nagios!! JAAAA, Nagios kann mit uns Reden. Sowas ist Echtzeit Kommunikation!!!!!! Upala dachte ich, son Mist! Da hat man schon mal Bereitschaft und wird auch noch mitten beim Schlafen gest\u00f6rt. &hellip; <\/p>\n<p class=\"link-more\"><a href=\"https:\/\/blog.roellig-it.de\/index.php\/2012\/07\/27\/mailadresse-fuer-lau-monatsbericht-7\/\" class=\"more-link\"><span class=\"screen-reader-text\">\u201eMailadresse f\u00fcr lau [Monatsbericht 7]\u201c <\/span>weiterlesen<\/a><\/p>\n","protected":false},"author":1,"featured_media":0,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[8],"tags":[],"class_list":["post-138","post","type-post","status-publish","format-standard","hentry","category-freemail"],"_links":{"self":[{"href":"https:\/\/blog.roellig-it.de\/index.php\/wp-json\/wp\/v2\/posts\/138","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/blog.roellig-it.de\/index.php\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/blog.roellig-it.de\/index.php\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/blog.roellig-it.de\/index.php\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/blog.roellig-it.de\/index.php\/wp-json\/wp\/v2\/comments?post=138"}],"version-history":[{"count":1,"href":"https:\/\/blog.roellig-it.de\/index.php\/wp-json\/wp\/v2\/posts\/138\/revisions"}],"predecessor-version":[{"id":224,"href":"https:\/\/blog.roellig-it.de\/index.php\/wp-json\/wp\/v2\/posts\/138\/revisions\/224"}],"wp:attachment":[{"href":"https:\/\/blog.roellig-it.de\/index.php\/wp-json\/wp\/v2\/media?parent=138"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/blog.roellig-it.de\/index.php\/wp-json\/wp\/v2\/categories?post=138"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/blog.roellig-it.de\/index.php\/wp-json\/wp\/v2\/tags?post=138"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}