メイン

2003年05月22日

サーバーが・・・RAIDが・・・故障???

今日は朝から会社(事務所)に立ち寄らず、他県へ出かけまいました。

9時に事務所に電話を入れたところ、なにやら、ピーピー音が。

NT4.0のSQL兼ファイルサーバーから音がしていると伝えられた・・・・・・

 いやな予感

以前にもあった。その鳴り方。忘れられないRAID Disk故障の時だった。サーバを入れた直後だったなぁ。その時はGatewayの担当窓口の方(女性)がてきぱきとBIOSの設定方法を教えてくれたなぁ。

もうGatewayは撤退してしまったし・・・・・・・・・・・

まぁ午後にならないと、事務所にはいけないので忘れておこう。



午後になり、事務所に戻りました。

案の定、RAID不良です。

どうやら午前中は本社機能がストップしてたらしいです。

さて、RAIDの状態をBIOSでチェックしてみることに・・・・



うーむ、RAID5 の3台のディスクが全部 fail 。 なんなんだ??

絶対絶命です。

 RAIDコントローラー 故障?

 ディスクを取り仕切るユニット ? そんなの知らないぞ

 それとも 純粋に3台が揃って故障? あり得ない訳では無いが・・・ちと考えにくいな。



どうする・どうする・どうする・どうする・どうする・どうする



いままで経験した中で一番の大惨事だ。

「SQLサーバーとファイルサーバーと社内40箇所の拠点のLANのコントロールを司る」このサーバーが死ぬと、復旧に何日かかるかわからない。



バックアップはもちろんあります。ファイルサーバー部分はディレクトリレプリケートしている別のサーバーがあって、それを持ってくると昨日分までのデータならなんとか。

SQLも2機のサーバーに分散保存させているのでこれもなんとかなると思います。

しかしながら、使える状態に持っていくにはどのくらいかかるかわかりません。



とりあえずサーバー機のメーカーであるGatewayに電話、まだいるかな? つながるかな? 本当なら3年間無料保証で、まだ来月まで有効なはずだけど・・・・・

と・・あれ、ちゃんとサポートしてくれるじゃないですか。びっくりしました。



電話で聞きながら、認識をやめてしまったphisycal diskをonlineにする事で難なく直りました。

あー 驚いた。

結局2時間で正常動作に戻りました。



なにやらディスクに対する記録が間に合わないとそうなったりする事もあるらしいです。

そういえば異常がでたのはちょうど、別のサーバーへのディレクトリレプリカをはじめた直後で、大急ぎの読込みバッチ処理の書込みが重なった時みたいだ。

RAIDユニットにとっては忙しい時間だったのかなー