Mailadresse für lau [Monatsbericht 7]

Heute ist Freitag der 27.07.2012 und das ist der siebente Monatsbericht meines Freemail Services.

Am 21.07 bekam ich morgens um 4:24 Uhr einen Telefonanruf von Nagios!! JAAAA, Nagios kann mit uns Reden. Sowas ist Echtzeit Kommunikation!!!!!!

Upala dachte ich, son Mist! Da hat man schon mal Bereitschaft und wird auch noch mitten beim Schlafen gestört. Scheibenkleister, gut was solls. Also an den Aparat gegangen und Zugehört was Nagios so zu Sagen hat. Den Anruf zur Störungserkennung bestätigt, ansonsten wird der nächste aus dem Bett geklingelt.

Das erste was in einer solchen Situation unbedingt erforderlich ist, ist KAAAAFFEEEEE 🙂 . Ansonsten geht bei mir nicht viel. Also erstmal die Kaffeemaschine angeworfen und danach unter die Dusche. Nachdem der KAAAAAFFFFFEEEEEE endlich durch war ging es ran an den Rechner um zu sehen was Nagios gefunden hat und um die ersten Maßnahmen in die Wege zu leiten.

Normalerweise kann Nagios viele Dinge selbst erledigen, also Maschinen Resetten oder Maschinen Aktivieren, wenn einer unser Cluster droht abzuschmieren oder ungewöhnliche Lastspitzen auftreten. Aus dem Grund Kaufe ich auch nur HP Maschinen da die GUTEN Modelle schon alle eine ILO Karte drin haben die sogar den Zugriff erlaubt wenn die Maschinen abgeschaltet sind. Aber Nagios zeige nichts der gleichen, NEIN schlimmer ein Raidcontroller hat die Beine breitgemacht und ein Raidarray gekillt! Scheisse dachte ich, Dovecot TOT. Maschine TOT. Nein NUR Dovecot war abgeschmiert da genau auf dem Raidarray die Indexe der Dovecot Mailboxen drauflagen, da Dovecot das Array nicht mehr findet startet Dovecot natürlich auch nicht mehr, MIST!!!! Also was machst´e war die erste Überlegung. Platten wurden vom Controller nicht mehr erkannt, ich kam nicht mal mehr in´s Controller BIOS rein also WAT NUN??

Erstmal in die DOKU vom Server rein gesehen. Welche Controller sind drin und was hängt an den Controllern. Am Onboard Controller hängen die Systemplatten als Raid 1+0 dran. Also 4 x 400 GB SAS Platten und ein Raid 1 mit zwei Platten auch 400 GB SAS, System belegt mit allem drum und dran knapp 250 GB auf dem Raid 1+0. Dann ins Backup geschaut und den Taschenrechner gezückt. Per Hand nachgerechnet wie groß der Platzverbrauch der Indexe ist und siehe DA es passt. Indexe verbrauchen 284 GB Platz. Also zweites Raidarray leer gemacht und Dovecot gestoppt. Dann rein in die Dovecot Konfiguration und den Pfad für die Indexe angepasst. Konfig natürlich Kopiert und vorsichtshalber gleich in Subversion geschoben.

Zum Testen dann noch Dovecot gestartet und in die Logs geschaut. AHHHH Dovecot läuft und Postfix macht seine Queue leer. 800 Mails in der Postfix Queue, 1000 sind das Limit ab dem Nagios anfängt um Hilfe zu schreien. Eskalation merkt aber das Dovecot weggebrochen ist und unterdrückt die Störmeldung von Postfix!! Nachdem die Postfix Queue leer ist zum Testen noch mal die Komplette Kiste einem Neustart unterzogen.

Neustart erledigt!

Dovecot? Läuft!

Postfix? Läuft auch!

Storage für den Dovecot Index?? Super hängt an der korrekten Stelle, und LÄUFT!

Glücklicherweise hat es nur den Controller zerrissen auf dem das Array für Dovecot´s Mailbox Indexes liegen. Das soll ja laut Dokumentation bei Fehlern ein einfaches Löschen des Indexes helfen. Denn Index baut Dovecot dann wieder beim Zugriff auf die Mailbox wieder allein auf. NAAA mal sehen ob das Funktioniert.

Da aber heute Samstag ist hab ich nicht wirklich große Lust ins Büro zu fahren und mich um die Maschine zu kümmern!!! HAÄÄÄÄÄ was soll´s scheiß drauf, Wochenende ist sowieso im Arsch. Also zum Becker getrottet, Brötchen geholt und erstmal in Ruhe mit $Freundin und $beideKinder Gefrühstückt. War ja mittlerweile dann auch schon 8:00 Uhr durch.

Nach dem Frühstück in die $Firma gefahren, ein Glück war es der Server der im RZ im Büro steht und das ist schnell Erreicht! Als erstes im Büro erstmal die Kaffeemaschine angeworfen, wie gesagt in solch einer SITUATION Hilft nur die Braune Brühe damit ich den Tag überstehe. Maschine läuft also rein ins RZ Schrank auf gemacht und Server nach vorn gezogen, Deckel auf und mit der Taschenlampe erstmal die Dunkelheit im Server vertrieben!

BOOOOHHHHAAAAAA, Scheisse noch mal!!! Ich hab noch nie gesehen das RICHTIGE Server Hardware HP kaputt gegangen ist. Okay eine Platte und ein Ramriegel, war aber alles noch in der Garantie und wurde gleich von HP Getauscht. Aber der Kontroller ist im wahrsten Sinne Abgebrannt! Da wundert es mich nicht das ich nicht mal mehr ins BIOS vom Kontroller komme. Jetzt noch hoffen das die Platten und das Storage Array das überstanden haben. Also wieder in´s Büro getigert und am Rechner erstmal die Doku zum Server ausgedruckt und ins Lager gegangen um zu sehen was da noch so rumsteht! Mittlerweile war der Kaffee durch und ich hab wieder Hoffnung geschöpft. Im Lager lag dann dann aber nicht wirklich das passende rum, nur nen DL580 G5 mit 32 GB Ram und zwei zusätzlichen SmartArray P411 SAS Kontrollern, na gut dann eben den. Also Kiste eingepackt und ins Rack gehängt, Monitor und Tastatur dran und erstmal auf die Platten Debian Installiert damit die Kiste von der Ferne erreichbar ist. Nach 10 Minuten war die Kiste soweit fertig das ich den Rest in meinem Büro vom Rechner per SSH Konsole machen konnte. Nach knapp 2 Stunden war dann der Rechner komplett Online und ich konnte die alte Maschine abschalten und dem neuen Server die IP des alten Verpassen. Damit war der Cluster wieder Vollständig und ich konnte wieder nach Hause Fahren.

Schönes Wochenende!!