サーバが飛んだぁ。。。

日曜日に停電があったので、とりあえずサーバの様子を見に会社に行ったらサーバの電源が落ちてました。
『UPSの電源足りんかったなぁ。。。』と考えつつ電源をON。
#2時間位でバッテリーが切れるのはおかしいと思いつつ。。。



し〜ん....
電源入りません。
ご臨終です。

と言うわけで、以下復旧までの作業工程のメモです。
とは言え、私はLinuxもハード関係も初心者に毛が生えたレベルなので、
中身は結構適当です。

  • 症状
    • 電源を押しても全く何も反応しない。
  • 調査したこと
    • 有閑PCから電源ユニットを引っこ抜いてそっちからマザーボードに電源供給
    • 有閑PCの電源ユニットは4ピンのCPU電源コネクタは無かったのでそれは放置
    • とりあえず、電源を入れると一瞬ファンは回る
    • と言うわけで、電源ユニットが怪しい気がしたので、電源ユニットを買いに走る。
  • 電源ユニット購入
    • 元の電源ボックスには電源スイッチが付いてないので、付いてないのを探す
    • 付いてないのは殆ど無かった(ヨドバシで2種類)ので選択肢は殆ど無し
    • W数が今のW数以上で一番少ないのを購入
  • 電源ユニットのセット
    • コネクタが筐体の背面と合ってない→きっかりセットできない(T_T)
    • 4ピンコネクタをささなければ一瞬ファンは回るが、4ピンコネクタを指すと動かない
    • マザーかCPUも壊れてると判断。別マシンにHDDだけ移して縮退運転できるよう試みる
    • 別マシンにHDDを移し変える間にCMOSをリセットしておく
  • HDD差し替え
    • kudzuでいっぱいデバイスの出し入れが発生。とりあえず、前の設定は残して新しい設定だけセット
    • network起動せず。
    • singleユーザーモードで入りなおしてnetworkをブート時に起動しないようにする(chkconfig network off)
    • 知り合いのハード屋さん到着
  • ハードウエア調査
    • CPUを変えてやってみる。駄目→CPUが原因ではない
    • 接続コネクタを見直してみる。4ピンのコネクタが前のコネクタと線の色が違う→だって20ピンと一緒に束ねてあったんだもん!
    • 前のコネクタと同じ色の線の奴を見つかったので付け替える。でも駄目。
    • CPUを元に戻してみる。起動した。
    • と言うわけで、故障箇所は電源ユニットのみ
    • HDD、FDD、CD-ROMドライブにも電源接続
    • BIOSにリセットがかかっているので全てハードウエアを全て手動で再認識
    • とりあえず、シングルユーザーモードで起動できるところまで確認。
    • 筐体の背面に穴を開けて、きちんと電源ユニットをセットできるようにハード屋さんにしてもらった。
  • Linux起動
    • kudzuでまたいろいろ見つかったり削除したりする。全部削除して全部インストール。
    • で、Xが起動しない。たまたま/etc/X11/xorg.confはバックアップを取っていたので復元。
    • やっぱり、ネットワーク関係の設定がぐちゃぐちゃになってる
    • /etc/sysconfig/network/network-scripts配下と/etc/ppp配下をバックアップしてから、デバイスの設定とNICの設定を全部削除
    • 一端電源を落としてNICを抜く。再起動時にオンボードNICを認識しないようにBIOS変更して起動。
    • kudzuがデバイスが見つからないと言うので、全ての情報を抹消。
    • ネットワーク関連の情報が綺麗さっぱり消えているのを確認して電源断。
    • オンボードNICだけ認識させて起動して、PPPoEの設定を行う。繋がったことを確認して電源断。
    • NICを指して起動して、LANの方の口の設定を行う
    • chkconfig network onにしてきちんとあがることを確認。
    • DNS、メール、Web、SSH全て正常動作するのを確認

結局丸一日かかって復旧です。
と言うわけで今回のKPT

  • Keep
    • 有閑マシンは一台あると便利
    • HDDを差し替えて縮退運転と言う判断自体はよかったと思う
  • Problem
    • 電源ユニットの購入時にはワット数、スイッチの有無だけじゃなくて、コネクタの位置にも気を配る
    • HDDの移行を行う場合は、まずはkudzuは落としておいて、ネットワーク周りX関連の設定ファイルは、バックアップを取っておくべし。
    • ネットワーク周りは(バックアップをとった上で)一端全部の情報を削除して再度設定する方が楽
  • Try
    • したくありません(T_T)。もー壊れないで!!