« [named]unexpected RCODE (REFUSED) resolvingについて | メイン | モバイルPC新調 »

Linux Mail Server 引っ越しの話

今年に入ってから2台、メールサーバーの交換をしました。

まずは1台めの話
このメールサーバーは他社内で活動しているもので、現物は手元にありませんし簡単に行けるところではありません。場所が遠いっていうことですね。
TurboLinuxServer7+qmailでの運用です。
年明けに何らかの理由で再起動したところが発端ですが、立ち上がらないと。
遭遇したことのある人はわかると思いますが、パスワードを入力してメンテナンスするかCTRL+Dで通常起動するかの選択を迫られる画面で停止。表示はわすれてしまいましたが・・
ここで通常はメンテナンスモードに入り、たいていの場合
df やら mount 、みられれば /etc/fstab とかみて使うべきマウントポイントを確認して
e2fsck
でチェックして、また、同時に init 1とかでシングルモードになったり
アンマウントしたりでいろいろやって完了、って感じなのですが、これを遠隔でやってもらいましたがどうやらダメらしい。kernel panicが表示されるようになった。HDDがいかれたか・・・
となると問題はRAID1の両方やられた可能性が大
RAID1の弱点は故障したドライブに引っ張られて両方だめになる事、ときどきあり。
もうこのディスクはLILOがLIしか表示しなくなってもう起動しようとしない。LILOの修復もいろいろ調べてみたがどうやってもうまく動かないのでHDDのBOOT情報関連が故障という事なんでしょう。
幸いなことにHDDの中身は見えるのでBOOT以外は生きてる様子。
こちらのユーザーさん、50人くらいでしょうか、早く対処しないとこりゃ困るよね。
という事でとりあえず手元にある昔のHDDに当時のままのOSやらqmailやらインストールしなおして、その壊れたHDDをマウントしてrsyncをつかって/home以下と/etc/passwe /etc/group を移して、移されたマシンのpasswdを少し整合性確認してなおして応急復旧。
あとはちゃんとしたハードで組みなおして、OS突っ込んでデータを移行する、ってプランでいきましたが、今のハードに当時のTurbo7関連はインストールできません。チップセットとか対応してない様で。
てなわけで、TurboLinuxServer11で作ってqmailのインストールはあちこち変えてないとmakeできないのですが、それも以前から準備してあるのでそれなりに直してある状態からインストールして、/home以下を移す作業は同じで・・・と思ったのですが、qmailが動作しなかったので make setup checkだけやりなおして完了。注意点は/var/qmail以下の所有者とオーナー、これが狂ってると動作しない。

さて、今回は自前のメールサーバー。ユーザーは100人弱。
これももう8年ノンストップのTurboLinuxServer7
アンチウィルスのアップデートモジュールが動かないから、という理由で何かのモジュールをアップしたのですが、まあせっかくだからと、Turbopkgを使って一気にアップデートしたら多分kernel関連も変わった?
/lib/modukesにいろんなバージョン混在しててうまくバージョンが読めてない感じ
でもそのまましばらく運用していましたが、このサーバーでは珍しくフリーメモリが徐々に減ってきた。だいぶ減ってきたところで、ほんとに珍しく再起動することに。何ヶ月ぶりか?
としたところ、すでにこの前のアップデートでやられてたんですね。LIしか表示せずLILO読めず。
これに対してもいろいろ手がけるも、起動には至らず、RAID-1両方アウト。約1日かけてあきらめるに至る。でもこれもHDDからデータは抜けるのがわかりまずは一安心。
TurboLinuxServer11でほぼ完成形に近い予備を作ってあったのでそちらに切替える事に。
これはIPだけ変えればいけるようにしてあるのでそれをやって、あと/home以下とユーザー情報を移せればまずはOK。あとはどうにでもなるもんで。
で/homeの移行はHDDをマウントしてrsyncで移す。あとはpasswdなんだけどこれが今回厄介で、qmailのユーザーとかぶる。ユーザーのIDを変えればよかったんですがうっかりqmail関連のユーザーをいじったもんだから一苦労。再インストールとかいろいろやってもうまくいかず。そして全部消してやり直せれば良かったんですが、すでに一部のキューがなんかのひょうしにたまってる。キューを消さずにすべてを動かすって、なんか猛烈に大変。たまってるキューを qmHandleでファイル名をしらべてfindコマンドで場所を特定してchown,chgrpをかけていく。持ち主がちゃんとなおせれば正常に動作しはじめますが、これやってて結局、半日かかった。まる1日のメール停止状態。これはけっこうきつい。

こんどはどっちのサーバーにもRAIDはやめました。起動できるドライブを作っておいて、slaveにつけて、cronで一日一回、すべてのファイルをrsyncでコピーする。これでいつでも交換して予備に切替えられます。

トラックバック

このエントリーのトラックバックURL:
http://www.ayamizu.com/mt2/mt-tb.cgi/203

コメントを投稿