今日は大変な事がおきました。
ここのところ妙に故障続きでネタに事欠かない。何故・・・・
火星が近づいてるから?
さて、本題ですが、なんと会社の大事なサーバーが2台故障してしまいました。
その1 ・・・ SQL 兼 ファイル 兼 プリントサーバー の故障
これはここにも時々登場するサーバーです。2003.5.21の記事のサーバー。
春以降RAID5のドライブが過負荷で全部認識されなくなる事件が2度起きてい
ます。でもこの場合ドライブをONLINEにしてやるだけで回避できました。
さて、今日は・・・・
朝、ピーピーとブザーがなっていました。またかな?
調べてみると、3台のドライブのうち、1台だけがfailになっています。
1台、すなわち・・・・こんどこそ故障の可能性が大です。
一応期待を込めてONLINEにしてみますが、なりません。
という事はやっぱり故障確定です。
RAID-BIOS(ADAC)を調査し、故障を自覚したとそのまま起動させたらサーバーが作動しまいました。
さすがRAID5。ドライブ2台でも普通なんだ。
さて、このRAIDシステムは確かホットスワップだったはず・・・・
・そのままドライブユニットを引っこ抜いて、・・・・特に変化ない。
・そのユニットに、代わりのHDドライブを、ちょうど先月買っておいた予備のものを入れ換えて
・ユニットを差し込む。もちろん稼動したまま。
でリビルドの為の設定を・・・・と思っていたら、なにもしなくても勝手にrebuildが始まった。
何もしないのに30分ほどで普通の状態に戻ってしまいました。
さすがRAID-5
前にも同じことがあった気がする。こんどはメモに残しておきます。
問題なのは、ドライブの交換パーツです。
SCSI、手に入りにくくなりましたね。80pinの9G以上でOKなんですがそんなの手に入りません。
メーカー供給も品薄だし。ちなみに39180円です。今後大丈夫かな?
その2 Linux DNS/Mail/WEB サーバーの故障
これは24時間稼働なマシンですが、実は一週間前くらいに再起動させたら電源が入りませんでした。
何度かボタンを押して入れました。これが予兆だったのですね。
今日、HDDのバックアップを取ろうと思って一旦止めたら起動しなくなりました。
各ファン類は回るもののモニタへ出力が行かない。
さてどうしたものか・・・・
マシンはちょっと古いi810のボード、NIC2枚構成なので面倒だからあまり作りなおしたくありません。
結局のところこういう症状そのものを現す典型的な原因、CPU故障です。めずらしいですね。
別の370ソケットのCeleronを引っこ抜いてきて稼働させました。
とりあえず2台とも復活して順調に動作しています。
そうそう、そのHDDのバックアップは?というとうまく行ってません。LinuxのLILOがコピー出来ずに失敗しています