2008年10月29日水曜日

障害対策。

このエントリーをブックマークに追加 このエントリーを含むはてなブックマーク
Livedoorのblogが死んでましたね。
あの規模のサービスで数時間とまるというのはかなりのことです。しかもHardの調達が原因だという発表がなされていましたが、あのクラスならラダー構成をとっていてSPoF無しのはずで、かなり変な話です。

ところでbackgammonbaseでしていることといえば、

  • UPSの利用

  • RAIDの利用

  • 定期的backup

  • staging/代替機の確保


程度。


ルータや回線が死ぬとかなり長く(1week近く)サービスがとまる危険は常にあります。メジャーだと思われるリスクを列挙しておきます。

  • 運営者が倒れる、死ぬ。会社や財団といった形式ででやっているわけではないのでどうしようもない。

  • 回線は、FTTHのケーブルを折ってしまう。
    折る場所にもよりますが、最悪引きなおしになり、その場合は工事が必要で、予約から実行までで1weekかかってもなんら不思議ではないです。

  • ルータが死ぬ。代替機を送ってもらうしかないです。3日はとまるでしょう。切り替え作業を行う上で必要な情報収集もブロックされるでしょうから簡単じゃないです。

  • fileサーバが死ぬ、raidが壊れる。image提供サービスは代替機で提供できるように切り替えるのに長くて半日、wiki/blog系のサービスが復旧するのは最低3日を見たほうがいいでしょう。

  • 大規模停電、天災等。まあ、これがおきたら上流のISPやNTTもただではすまないだろうから対策のためには海外にもサーバを用意するとかになってくる。

  • クラックされる。

  • 火事、盗難



Hostingサービスをつかったり、構成を変えれば対処できるのもありますが、$が必要です。現状ではそんな予算はありません。あしからず。

ただ、name serverの多重化は考えておきます。ほかにサーバを立てている人を探してきて、相互にsecondaryになることで、サーバが死んだ際にもこのブログでみなさんにコンタクトできるようにしておきたいので。

0 件のコメント: