職場のサーバのデータのバックアップ用にRAID(Redundant Array of Inexpensive Disks:レイド
複数のハードディスクにデータを分散して格納し、耐障害性を確保する技術)を組んだNAS(Network Attached Storage:ナス ネットワークに接続して使う外部記憶装置)を利用してまして…などと、いつもとちょっと違った雰囲気で始めてみましたが(笑)、私の職場では純・文科系のワタクシが毎朝サーバ様のご機嫌を伺い、何かあればすかさず業者さんに繋ぐという役目を担っております。と言ってもまず間違いなく何も起きないのですが、ここ数日異変が起きております。すわ、サーバ様ご乱心!?
正確にはサーバ様がご乱心なのではなく、サーバ様のデータをバックアップするNAS(上述)がご乱心なのです。
データのバックアップというと、サーバのデータを丸ごと別のディスクにコピーしておけばよいように思われますが、それではそのディスクが破損した場合全部のバックアップデータがいっぺんにだめになってしまうので、多くのストレージ(storage:データを保管 store しておく場所のこと、外部記憶装置)は、元データをいくつかのディスクに分けて何重にもダブって(それが RAIDに含まれている redundant:冗長な、という語の意味)コピーしておき、いずれかのディスクが破損しても他のディスクのデータを使って完全な元データを復元できるようにします。わが職場で使っているのは1TB(テラバイト=1,024ギガバイト=約105万メガバイト)のハードディスクが4つ束ねてあるもので、RAID6というレベルのRAID(上述)を組んであり、もしも4本のディスクのうち2本が破損してもデータが復元できるというものです。RAIDについて詳しく知りたい方はネットで検索してくださいね。
さて、ある朝4本のうちの1本(No.3)が破損してエラーが出ました。上述のとおりRAID6では2本までの破損ならデータ復元可能なので、そこは慌てず騒がず業者さんに連絡し、交換用のディスクを手配してもらいました。業者さんの話では、破損の原因は不明だが、寿命かも知れないとのことでした。確かにログを見ると、バックアップ作業中ではなく何もしてないはずの時間に破損しているのでちょっと不思議ではありましたが、そうかぁ寿命じゃしょうがないか…。
ところがその後の展開を見て、私はRAID6のストレージってのは言葉は悪いが意外と食わせものなんじゃないかと思うようになりました。確かに理屈ではディスクが2本破損してもデータの復元はできるのでしょうが、実際にはなかなかそうはいかないのです。というのは、破損したNo.3ディスクを交換した後に再び4本にデータを正しく振り分けるRAIDの再構築というのをやるのですが、この作業中に交換したのと別のディスクNo.1に破損が発生したのです。さらにその10時間後くらいにNo.4も破損して、「RAIDが崩壊しました」というメッセージが出ちゃいました。なにぃ〜崩壊!こうなるともうバックアップデータは復元できません。もちろんサーバ本体の中の元データはちゃんとしてるので業務に支障はないのですが、バックアップを全然取ってないのと同じ状態になったわけで、それじゃストレージの意味無いって…。
RAIDが崩壊した原因を推測すると、まずもともと組み付けられていたディスクが4本とも同時期の同じロットの製品だったのではないか、そしてそれゆえに4本全部にほぼ同時に寿命が来たのではないかということ。品質管理がきちんとできていてバラツキがないというのは製品としては大変すばらしいことですが、同一装置中で同じ時点から同じ使い方をしていれば、寿命もほぼ同じ時期に来るわけです。
さらに破損したディスクを交換してRAIDの再構築をする際には、いつもとは違うパターンで高密度のデータのやり取りを行うので、ディスクにいつも以上の負荷がかかるらしいということ。ただでさえ寿命が近づいているディスクにいつも以上の負荷がかかったら、そら逝きますわな。
ところで、これってそれほど特別ではなくて、むしろよくある事態なんじゃないかと思うのです。つまり4本のディスクの寿命が極めて接近している場合、1本が逝ったときには他の3本もそれ以上の負荷に耐えられる状態ではなく、RAID再構築の際にバタバタと斃れるという事態が容易に想像できるのですね。この事態を避けるには、違う時期に製造したディスクを4本選んで組み付けるか、いっそ品質管理をユルめて製品をバラつかせる(品質管理コストも下げられる ^^;)か、とにかく1台に組み付けてある4本のディスクの寿命を積極的にずらすと良いと思うんですが、いかがでしょう?いわば何年も故障知らずだが逝くときは全システムがいっぺんにみんな逝く「太く短く・ぽっくり型」と、1年に1回くらいずつ故障するがシステム全体としては崩壊しない「細く長く・一病息災型」のどっちがいいか、という一種究極の選択…そりゃぁ「太く長く」がいいに決まってますけどね。
ちなみに今回の問題のNASは、結局ディスク単位ではなく全体をそっくり新品に置き換えることになりました。太く長くでお願いしますよ〜。