酔人日月抄

東京下町に暮らす写真とPENTAXとスキーと時代小説とお酒とプジョーを愛するある男の日常

QNAP製のNAS TS-231+でRAID1を構成しているHDDにエラーが発生したので交換してみる

 初めてのNASとしてQNAP製のTS-231+を導入したのは今から約2年前の2016年秋のことでした。TS-231+は家庭向けの2ベイNASボックスで、これにWestern Digital REDシリーズの8TB HDDを2台入れてRAID1を構成して使っていました。

 主に日々増え続けていく撮影済み写真データの倉庫としているのですが、先日になって久しぶりに管理画面にログインしてみると、2台のHDDのうち1台に異常が発生しているという警告が表示されていました。どうやら不良セクタに関するSMARTエラーが発生しているようです。

 何かあった場合にはWarningメールを送信するように設定をしてあるのですが、なぜかこのSMARTエラーに関してはメールが送られてこなかったので、いつ頃から調子悪かったのかは不明です。危ない危ない...

 幸いにも、HDDの状況としては故障というほど致命的ではないようですし、そもそもRAID1を構成しているもう1台のHDDは問題なく生きているので、データーをすぐに失う心配はありません。

f:id:hisway306:20180901184256j:plain
 でも悪化していくのは時間の問題でしょうし、なるべく早く対処するに越したことはないと言うことで、エラーが発生しているHDDドライブを交換することにしました。

 もちろんNASというかRAIDを構成しているディスクの交換作業も初めてのことです。ドキドキします(A^^;

QNAP Turbo NAS TS-231+導入経緯を振り返る

 冒頭にも書いた通り、我が家に初めてのNASを導入したのは2年前のこと。その経緯と導入記は以下のエントリーにまとめたとおりです。

 近年は個人用途向けのNASとしては広報活動が活発なSynologyのほうが人気があるようですが、私なりに色々調べた結果老舗のQNAPにしてみました。冷蔵庫とディスプレイとHDDは大きいことこそ正義、というポリシーの下、そこに8TBのHDDを2台搭載しています。RAID0(ストライピング)で16TBという広大な容量で使うことも出来ましたが、バックアップ用途ですから安全性重視でRAID1(ミラーリング)で使用しています。

 このTS-231+はその後モデルチェンジして現在はTS-231Pという製品が販売されています。CPUなどが強化されて高速化されていますが、基本的な使い勝手や機能は変わっていないようです。また同シリーズには2ベイ構成のTS-231P以外にもRAID機能を持たない1ベイのTS-131P、あるいは4ベイでRAID5やRAID10などをサポートしたTS-431Pという製品もラインナップされています。

 さて、こうして2年前に導入したTS-231+は、安定運用を開始してからはルーターなどを置いてある家の片隅に設置し、たまに管理画面にログインする程度で、特にその存在を気にすることなく、iMacからネットワークドライブとして快適に利用していました。メディアサーバーやiTunesサーバー、あるいはスマホからのアクセスなども可能ですが、そのような使い方はしていません。

 そんなNASが、導入から2年経過して、搭載した2台のHDDのうち1台にSMARTエラーが発生したわけですが、24時間運用していたとは言え、2年足らずでディスク交換が必要になるというのは、ちょっと予定より早かったなと思っていますが、まぁ、幸いRAIDのおかげでデータに影響はありませんし、遅かれ早かれいつかは起きるし、今後も起きうることですから仕方ありません。

SMARTエラーを確認する

 さてディスクエラーの状況をますは確認してみましょう。ブラウザからTS-231+にログインし、NASの動作状態確認や管理作業を行うことが出来ます。

f:id:hisway306:20180902121504j:plain
 ログインしてすぐに見ることができるダッシュボードにすでに「警告」という禍々しい赤い文字が見えています。最初は空き容量が少なくなっただけかと思ってしまいました。

f:id:hisway306:20180907210831j:plain
 そこで「コントロールパネル」から「ストレージ&スナップショット」を開いてみると、こんな状態になっていました。ディスク1のSMART情報に何か問題があるらしいことがここで分かりました。

f:id:hisway306:20180907210832j:plain
 なお、念のためディスク2を見てみると... このように「良好」と緑色の文字で表示されていおり、何も問題ないようです。RAID1ですからとりあえず片側のディスクが生きているなら中のデータは今のところ無事です。良かった!

f:id:hisway306:20180907210834j:plain
 次にディスク1のエラー状況をさらに詳しく見るため、「ディスク健康状態」に関するダイアログを開いてSMART情報を確認しようとしてみると... こんなメッセージが表示されました。どうやら”Current Pending Sector”と”Uncorrectable Sector Count”という項目で、閾値を超えてしまっているようです。

 ただし、ありがたいことに「この状況ですぐにデータが失われることはありませんが...」とのこと。とりあえずまだこのディスク1も完全に死んではいないと言うことでしょうか。

f:id:hisway306:20180907210835j:plain
 なお、全てを理解することは出来ないのを前提でSMART情報の生データを確認してみると、確かに先ほど表示されていた”Current Pending Sector”と”Uncorrectable Sector Count”という項目で警告が表示されています。

f:id:hisway306:20180907210836j:plain
 ちなみにこちらが「良好」を保っているディスク2のSMART値です。全ての項目で「良好」を保っています。これが正常な状態ということでしょう。

f:id:hisway306:20180907210837j:plain
 なお、この「健康状態」を確認する画面にテスト機能があることを発見しました。2分ほどで完了する簡易テストと、数時間かかるという完全テストがあったのですが、とりあえず簡易テストを実行してみたところ... 問題のディスク1は「読み取り異常」という結果になってしまいました。

f:id:hisway306:20180907210838j:plain
 そしてこのテスト結果を受けて、これまで「警告」と表示されていたディスク1のステータスは「異常」に格上げされてしまいました...

 こりゃダメだ... 一度フォーマットしたりファイルシステムの修復を試みたりすれば、もしかしたら延命できるかも?と一瞬期待したこともありましたが、これは一刻も早くディスク1のドライブを交換してしまった方が良さそうです。

新しいHDDを手に入れる

 ということで、新しいハードディスクを買いました。本当はすこしでも大容量に進化させたかったのですが、ここ2年の間にあまりHDDの容量トレンドに変化はないらしく、現実的なコスト範囲ではやはり8TBしか選べません。なのでとりあえず容量は8TBのまま維持することにしました。

WD HDD 内蔵ハードディスク 3.5インチ 8TB WD Red NAS用 WD80EFZX 5400rpm 3年保証

WD HDD 内蔵ハードディスク 3.5インチ 8TB WD Red NAS用 WD80EFZX 5400rpm 3年保証

 2年前にTS-231+とともに2台購入して使用していたHDDはWestern Digital製のWD80EFZXというドライブです。24時間運用されるNAS向けのREDシリーズのドライブです。元々はWestern Digitalが買収したHGST製のドライブでヘリウム充填技術が使われています。

 HDDとしてもかなり大容量版なので、当時もかなり良いお値段がしましたが、最近になってもあまり状況は変わっていないようです。

WD HDD 内蔵ハードディスク 3.5インチ 8TB WD Red NAS用 WD80EFAX 5400rpm 3年保証

WD HDD 内蔵ハードディスク 3.5インチ 8TB WD Red NAS用 WD80EFAX 5400rpm 3年保証

 そして今回購入したのはこれまでと同じWD80EFZXではなく、新型のWD80EFAXです。容量も同じく8TB。SATA3.0対応で回転数は信頼性重視で5,400回転と言ったあたりは旧モデル同じですが、バッファ容量が倍になって内部転送速度も向上しています。

 またプラッタ枚数については情報がなくて分からないのですが、世代的に減っていてもおかしくありません。もちろんプラッタ枚数が減れば信頼性は上がります。ただし同時に旧型で使用されていたヘリウム充填はされなくなりました。プラッタ枚数が減ったことで必要なくなったのか、あるいは単なるコストダウンかも? とりあえずREDのバッジを信じることにします。

f:id:hisway306:20180901184029j:plainf:id:hisway306:20180901184047j:plain
 さて、一刻も早く交換しなくてはならぬ!と、慌ててAmazonで発注したら、翌日すぐ届きました。さすがプライム会員の威力。

 届いたパッケージはこんな化粧箱でした。ちゃんとしたWestern Digital純正のようです。箱に書かれている能書きのように、このREDシリーズはNAS用途でRAIDを組んで24時間365日連続運転されることを前提にした、そこそこ高信頼性なHDDのシリーズです。もちろんもっとヘビーユースなサーバ用もありますが、一般家庭のNASにはREDシリーズで十分でしょう。

 なお、今回新たに購入したのは1台のみです。まだ問題がなさそうなディスク2も予防で交換してしまうという手もありましたが、RAIDの冗長性のためには敢えて違う時期に製造された違うモデルのHDDを使った方が、同時故障するリスクが減らせるという考え方もありますので。高度なエンジニアリングで信頼性管理されたF1マシンのエンジンは2台同時に同じ理由で壊れることがある、というやつです。

f:id:hisway306:20180901184139j:plain
 厳重に梱包された中身を取り出してみると、こんなドライブが出てきました。ヘリウム充填ではなくなったせいもあって、外観にはこれと言った特徴はない普通の昔ながらの姿をしたHDDです。

いよいよ交換作業

 新しいHDDが届いたところで、さっそく問題があるHDDと交換することにしましょう。確かTS-231+とQTSはディスクのホットスワップに対応していたはずなのですが...

f:id:hisway306:20180907210839j:plain
 「ストレージ&スナップショット」から右上にある「管理」というボタンを押すとこんな画面が開きます。さらに「管理」というボタンが現れるのでそれを押してみると、こんなサブメニューが開きました。

 その中に「ディスクを1台ずつ交換する」という項目が出てきます。ホットスワップをするにはこれをやってみれば良さそうな気がしますが...

f:id:hisway306:20180907210840j:plain
 ...先へ進んでみると、こんな表示になって交換できる気配がありません。色々試してみたのですが、結局「このドライブでは操作できません」という表示は消えず、ホットスワップ可能な状態になりませんでした。

 色々調べてみると、このメニューにあるディスク交換機能はより大容量のディスクに交換する際などに使うもので、障害が発生したドライブの交換には使用できないそうです。ということで、安全のためにもホットスワップは諦めて、素直に電源を落としてから交換作業することにしました。

f:id:hisway306:20180907210842j:plain
 管理画面上からシャットダウンを実行すると、数分後にこのように表示されてTS-231+の電源が落ちます。

f:id:hisway306:20180901205102j:plain
 画面上で確認したとおり、ディスク1側のカートリッジを引き抜きます。ネジなどで固定されているわけではないので、レバーを引き上げればそのまま取り外せます。それにしても隙間に2年分のホコリがつまっていたようで、汚い写真ですね。スミマセン。

 十分な冷却能力を確保するためにもちゃんと、ホコリ詰まりはちゃんと掃除した方がよさそう。電源落としたついでに、ベイ内部やディスク2のカートリッジ、あるいは背面にあるファンまわりなど、ホコリは念入りに掃除しておきました。

f:id:hisway306:20180901205645j:plain
 そして掃除して綺麗になったカートリッジを新しいHDDに付け替えます。なおカートリッジへのHDDの固定はネジを使うので、ドライバーが必要です。

f:id:hisway306:20180901205909j:plain
 そしてディスク1が刺さっていたベイへそのまま差し込んで戻すだけ。ガチャっというまで奥に差し込んでレバーを下げれば固定は完了です。

 なお、新しいドライブは購入したままの状態で、フォーマットなどの事前作業は一切必要ありません。あとはTS-231+がよきに計らってくれます。

RAIDを再構築する

 HDDを交換し終えたら再びTS-231+の電源をONし、RAIDを再構築します。

f:id:hisway306:20180907210843j:plain
 と言っても、やることと言えば電源入れたらそのまま放置するだけで、特にやらなくてはいけない作業はもはやありません。

 このスクリーンショットは再起動後改めて管理画面にログインし、ダッシュボードを見てみた状態です。システムの健康状態やストレージの項目に相変わらず「警告」の文字が表示されていますが、これは先ほどまでのSMARTエラーではなく、ポップアップメッセージにあるとおりRAIDの再構築作業中であるためです。

 つまり、TS-231+がブランクディスクを検出すると、自動的にデータが残っているディスク2との同期作業を開始してくれるようになっています。

f:id:hisway306:20180907210844j:plain
 ドライブの容量が8TBもあって、実際に記録されてるデータも5TB近くあったせいか、この再同期(RAID1の再構築)にはかなり時間がかかり、最終的に終了したのはHDDを交換後再起動してから約24時間後でした。

ようやく復活

 以上、ディスク異常に気がついてからディスク交換を行い、RAID1を再構築するまでの経緯でした。

f:id:hisway306:20180907230101j:plain
 現在は全て正常に戻り、一安心の状態です。ディスクを大容量化できなかったのはちょっと残念ですが、安全性や現実的なコストを考えるとむしろこれ以上大きくしない方が良いのかも。8TBのうち、すでに残り容量は30%ほどになっているのですが、そろそろ古いデータからさらに別ドライブへの退避などを考えたいと思います。普段はオフラインで問題ないデータがほとんどですから。

 それに、NASに保管している過去データ(写真データ)は順次Amazonプライムフォトへのバックアップも済んでいます。なのでバックアップの冗長性はすでに十分です。


 ということで、データ保存の冗長性確保には色々な考え方ややり方がありますが、とりあえず家庭用NASによるRAID1(ミラーリング)でも偶発的なHDD故障には十分役に立つと言うことを身をもって体験することが出来ました。

 次は今回交換しなかったディスク2がいずれヘタってくるはずですが、早期発見できれば今回同様に十分な余裕を持って対処できると思います。そのためにはWarningの設定を再度見直し、管理画面のチェックももう少し頻繁にやるようにしたいと思います。