Kennt eigentlich Jeder, man hat den ein oder anderen Server, darauf ein Hardware-Raid und irgendwann bekommt man von seiner Server-Überwachung die Info, dass eine Platte defekt ist. Im Prinzip nichts Wildes, das kommt vor. Im Idealfall sind die Platten Hot-Plug und man kann einfach die defekte Platte rausziehen und eine typgleiche reinschieben. Anschließend wird vom Raid-Controller der Rebuild-Prozess angestoßen und irgendwann ist das Raid wieder OK.
Je nach Hersteller und Hardware eben etwas unterschiedlich. Bei einem alten Dell PowerEdge 2950 hatte ich das die Tage. Ein Raid1 für die Systemdisk darauf läuft ein Citrix XenServer 6.5 und ein Raid1 für die Datenplatte. Eine der Platten der Systemdisk war kaputt und mich hat folgende Email erreicht, die ich mir immer von den Dell Tools per:
/opt/dell/srvadmin/bin/omreport storage pdisk controller=0
schicken lassen. Darauf unter "State" ein Failed:
Da ich immer eine ähnliche oder gleiche Platte vorrätig habe, habe ich die defekte HDD rausgenommen, die neue Platte im laufenden Betrieb des Servers hot-plug eingeschoben. Das wars, den Rest macht der Controller. Eine Abfrage über die Dell-Tools liefert dann für die Platte ein "Rebuilding":
und irgendwann - je nachdem wie groß wie Platte ist wieder ein "State: Online":
Ironischerweise lief der Server seit 3 Jahren online (ohne Reboot) und vor einiger Zeit habe ich den neu mit XenServer 6.5 auf den gleichen Platten aufgebaut, und ich habe alle Platten kurz rausgenommen - im Prinzip einmal abgestaubt, um den Staub von 3 Jahren zu entfernen - und wieder reingeschoben. Die spannende Frage wäre jetzt eigentlich, wäre die Platte auch kaputt gegangen wenn ich den Umbau nicht gemacht hätte und den Server einfach noch hätte weiterlaufen lassen. Frei nach dem Motto "never change a running system" - oder wie oft bei alten Servern: "Nicht anfassen", wer weiß, wenn man diese anfasst, ob dann nicht etwas kaputtgeht ;)
Kommentare
Kommentar veröffentlichen