Eine Geschichte von "Früher"™
Ich habe mal bei einem IT-Dienstleister gearbeitet der für kleine und mittelständische Unternehmen die IT gemanget hat. Das ging von kleinen Sachen wie E-Mail und Webhosting für einen lokalen DJ, bis zu Unternehmen mit einigen hundert Mitarbeitern, die auch mal 2-8 Server in ihrem Keller stehen hatten. Einen solchen Kunden haben wir dann "neu" dazu bekommen, deren alter IT-Dienstleister hat seine Koffer gepackt und ist abgehauen, wir sollten übernehmen. Die hatten auch ein paar Server in der Abstellkammer stehen (3-4 Stück oder so), die verschiedene Dienste bereit stellten, alles nix besonders. Die funktionierten auch an sich und waren kein totaler Murks, also haben wir die erstmal laufen lassen. Die wurden ja auch schließlich benutzt. Etwa 1-2 Wochen, nachdem wir den Kunden übernommen hatten, wurde ich gebeten doch mal nach einem Fehler zu gucken, der bei denen regelmäßig auftrat. Also auf den Server verbunden und mal ein bisschen umgeschaut, was man dazu wohl raus finden kann. Erster Halt: Log-Files. ... und im Syslog fand ich dann Meldungen über ein kaputtes RAID ... und diese Meldungen gingen über 2 Monate zurück, weiter reichten die Log-Files nicht in die Vergangenheit.
Die hatten seit Ewigkeiten eine kaputte Platte in ihrem Server, und keiner hats gemerkt. Wäre noch eine kaputt gegangen, wäre der Server abgeschmiert.
3 Dinge waren dann sofort nötig:
1. Ein Backup des Servers anlegen (falls der Rebuild fehlschlagt)
2. Monitoring einrichten damit wir über sowas einen Alarm bekommen
3. Zwei neue Platten einbauen, eine als Ersatz für die kaputte und eine als Hot-Spare
Als ich das gemerkt habe, is mir damals schon ein bisschen das Herz in die Hose gerutscht. Denn der Rebuild ist immer auch ein kritischer Moment. Das einfachste Beispiel ist ein RAID1 aus zwei Platten. Eine von beiden geht kaputt und wird ersetzt, um das RAID jetzt wieder zu vervollständigen müssen alle Daten die auf der alten, noch heilen Platte, liegen, auf die neue übertragen werden. Also müssen einmal alle Daten von der alten Platte gelesen werden und das neben der normalen Operation auf der alten Platte, denn das System soll ja non-stop weiter laufen. Das sorgt für ganz schön Stress auf der alten Platte und es passiert durchaus häufig, dass die beim Rebuild auf Grund ihres Alters dann die Fühler streckt. RAID tot durch Rebuild!
Darum: Backups! Backups! Backups! Gibt es von Daten kein Backup, sind sie auch nicht wichtig.