災害復旧テストのシナリオ概要
現代の企業には、24時間365日の稼働が求められています。業務やサービスの提供においてわずかな遅れが生じただけでも、組織の信頼性を損ない、多大な損失につながる可能性があります。業務の停止につながる要因は多岐にわたりますが、その主なものは、いつ起こるか予測できない災害です。 したがって、市場での競争力を維持し、事業継続を確保するためには、組織が効率的な災害復旧(DR)計画を策定し、定期的にテストを行うことが重要です。本ブログ記事では、DR計画のテストを行う前に検討すべき要素を挙げ、DRテストのシナリオを実践することが、災害復旧への備えにどのように役立つかを解説します。
DR計画とは何ですか?
一般的に、災害は予測不可能であり、常に予期せぬ形で発生します。したがって、高可用性を重視する組織は、DR(災害復旧)計画を策定する必要があります。DR計画とは、災害が組織のITインフラに影響を及ぼした際に実施すべきタスクや手順を文書化したものです。その主な目的は、災害発生による悪影響を最小限に抑え、損害を防ぐことにあります。包括的なDR計画では、災害発生前、発生中、発生後にどのような措置を講じるべきかが定められています。
災害には、自然災害(竜巻、ハリケーン、洪水など)と人為的災害(サーバーエラー、更新の失敗、ハッカー攻撃など)の2種類があります。 DR計画は、組織が最も被りやすいリスクや脅威に基づいて作成する必要があります。さらに、事業運営において最も重要な業務やアプリケーションを特定し、復旧順序において最優先順位を付与する必要があります。こうした要素を事前に検討しておくことで、実際のDR発生時に生じうるあらゆる問題に対処できるDR計画を確実に策定できます。

DR計画をテストする前に考慮すべき事項
DR計画を策定したら、次はテストの準備を整える必要があります。たとえ効率的で綿密なDR計画を策定したと確信していても、すべてが計画通りに機能することを確認し、事前に問題点を洗い出しておくべきです。ただし、DR計画のテストを実施する前に、テストの前提条件、テスト範囲、テストの成功基準など、プロセスの成功を確実にするために考慮すべき点がいくつかあります。
仮定の検証
テストの準備における最初のステップは、テストの前提条件を定義することです。DRテストを実施する前に、復旧チームは最適な結果を得るためにどのような方向性で進めるべきかについて協議する必要があります。基本的に、テストの前提条件は、DRテストのプロセスを構築するための基盤となります。包括的なテストの前提条件には、以下のものが含まれます:
- 貴組織が最もさらされているリスクや脅威、およびそれらに対する対応策の検証
- 実装すべきDRテストのシナリオと、その選択の根拠
- DRテストの実施に必要な事前テストの条件および状況
- 試験終了時に満たさなければならない試験後の条件および状況
- 試験プロセスを経て達成される見込みの結果
試験範囲
もう1つ考慮すべき重要な要素は、テスト範囲です。これは、テストプロセスにおいて対象とする領域を明確にするものです。復旧チームは、どのシステムコンポーネントや機能をテストすべきかを明確に定め、DRテストに関与するシステムの担当者に通知する必要があります。また、復旧チームは、テストプロセスの制限事項や対象外となる項目を定義し、何がテスト対象で何が対象外であるかを正確に把握することで、事前の混乱を避けるべきです。
テストの成功基準
テストの成功基準は、DRテストプロセスがいつ成功裏に実施されたとみなせるかを決定するものです。テスト結果を確認することで、期待通りの成果が得られたか、またどの分野に改善の余地があるかを判断できます。一般的に、DR計画の機能性と有効性が実証されれば、DRテストは成功したとみなされます。しかし、DRテストプロセスを通じてDR計画の弱点が特定された場合も、同様に成功とみなすことができます。 これにより、復旧チームは対策を策定し、欠陥を修正することで、DR計画を改良することが可能になります。さらに、テストの成功基準を設定することで、スタッフはDRテスト中の自身のパフォーマンスを評価し、組織の災害対応メカニズムを改善することができます。
したがって、予期せぬ問題に備え、適切に対応できるよう、プロセスの各段階を文書化し、テストの前提条件、テスト範囲、およびテストの成功基準を事前に決定しておくことが重要です。
DRテストシナリオとは何ですか?
DRテストの実施は非常に大変な作業となるため、事前の準備なしにDR計画のすべての要素をテストすることは現実的ではありません。DR発生時にDR計画が確実に機能するようにするためには、特定の緊急事態に対して組織がどのように対応するかを確認しておく必要があります。 この目的のために、DRテストシナリオを活用することができます。災害シナリオは、組織のあらゆる側面を考慮に入れて復旧チームが作成することもできますし、オンラインで入手可能な既成のDRシナリオテンプレートを利用することもできます。
一般的なDRテストシナリオでは、通常、DR事象そのもの、その状況、およびそれが対象組織にどのような影響を与えたかが記述されます。DR事象をシミュレートすることで、DRプロセスに対する組織の準備状況を評価し、実際の災害(自然災害または人為的災害)への対応および復旧に向けたより良い方法を特定することができます。
DRテストのシナリオの種類
災害復旧テストのシナリオは、組織の業務に何らかの影響を及ぼしうる、さまざまな緊急事態や災害事象を網羅しています。ここでは、そうした災害復旧テストのシナリオが具体的にどのようなものか、詳しく見ていきましょう。
業務の混乱
ほとんどの組織は複雑なシステムを構成しており、その構成要素は相互に強く依存し合っています。したがって、その構成要素の1つが機能不全に陥ると、システム全体が機能停止のリスクにさらされることになります。そのため、多岐にわたる運用上の問題を網羅したDRテストシナリオを策定する必要があります。この目的のためには、あらゆる重要な業務やプロセス、およびそれらに悪影響を及ぼしたり損害を与えたりする可能性のあるDR事象について検討してください。
この種の災害復旧テストシナリオには、一般的に、組織の業務遂行を妨げる可能性のあるあらゆる緊急事態が含まれます。 運用に関連するDR事象の例としては、生産拠点での火災や爆発、ソフトウェアの不具合による主要な組立ラインの停止、あるいは人的ミスによるワークフローの中断などが挙げられます。
技術的な問題
業務の大部分が仮想サーバー環境で稼働している場合、技術的なDRシナリオのシミュレーションを最優先事項とすべきです。システム障害が発生した場合、業務を再開するまでに時間がかかる可能性があります。そのため、組織のパフォーマンスに重大な影響を及ぼし得る技術的な問題を反映したDRテストシナリオを策定することが不可欠です。こうした問題には、サーバー障害、ネットワーク接続の断絶、ソフトウェアの不具合、データ損失、あるいはバックアップへのアクセス不能などが含まれます。
主要スタッフの離職
従業員は緊急事態に真っ先に直面し、対応する存在であるため、スタッフはあらゆる組織において不可欠な要素です。経営陣は、DRプロセスを最初から最後まで実施・監視する責任を担う復旧チームを結成すべきです。しかし、復旧チームの一部のメンバー、すなわちDR手順に関する重要な知識を持つメンバーが、病気になったり退職したりする可能性があります。 したがって、そのような人材の喪失が及ぼす影響を想定し、この問題に対処できるDRテストシナリオを準備しておく必要があります。想定されるDRシナリオの事例としては、次のようなものが挙げられます:従業員のストライキ、従業員による妨害行為、インフルエンザの流行、あるいは解雇されて不満を抱いた従業員によるハッキングなどです。
自然災害
竜巻、ハリケーン、地震などの自然災害は、人や物的資産だけでなく、組織のインフラにも影響を及ぼす可能性があります。自然災害は一般的に予期せぬものであり、それらが引き起こす被害を予測することは通常、非常に困難です。 したがって、生産拠点の地理的位置を考慮し、その地域が最もさらされやすいリスクや脅威を特定してください。これに基づき、組織に最適なDR(災害復旧)テストシナリオを設計することができます。自然災害のシナリオの例としては、通信インフラを損なう氷の嵐、生産拠点を破壊する地震、輸送に支障をきたす洪水などが挙げられます。
事業リスク
事業に関連するDRシナリオは、組織に合わせて具体的に策定する必要があります。つまり、まず自社の事業がどのように機能しているか、そして事業の継続性を確保するために不可欠な要素は何かを明確に定義する必要があります。 どの領域をより高いレベルで保護する必要があるかを特定するには、ビジネス影響度分析(BIA)を実施します。これにより、最も重要な業務と、その業務が中断された場合に生じる影響を評価します。これに基づき、経営陣は発生可能性の高いリスクを特定し、それに対応するDRシナリオを策定することができます。こうしたDRシナリオには、通常、株式市場の暴落、データ漏洩、競合他社への顧客流出、主要サプライヤーの倒産などが含まれます。
ありそうもない出来事
前述の通り、組織に影響を及ぼしうるDR事象は多岐にわたります。しかし、想定外の事態への対応にも備えておく必要があります。そうした事態が発生する確率は極めて低いものの、スタッフはその存在を認識し、いざという時にどう対応すべきかを理解しておく必要があります。したがって、生産拠点への航空機墜落、火山噴火、内乱といった緊急事態を想定したDRテストシナリオを作成すべきです。
災害復旧計画のテストの重要性
どんなに綿密に練られたDR計画であっても、実際にテストを行わなければその有効性を確認することはできません。DR計画のテストを行うことで、DR戦略における欠陥や不整合を特定することができ、実際の災害が発生する前に、起こりうる損害を予測し、未然に防ぐことができます。そのため、DRテストのシナリオに基づいてDR計画を見直すことを強くお勧めします。
復旧チームは、策定された計画の全手順を順を追って確認し、詳細に議論するだけで済みます。これには費用がかからず、実施も容易です。しかし、このテスト方法では、システムコンポーネントを実際にテストしないため、DRプロセスがどのように進行するかについて、基本的な概要しか把握できません。一方、実稼働環境においてDR計画の全コンポーネントをテストする本格的なシミュレーションテストを実施することも可能です。これは、より費用がかかり、複雑な作業となります。 本番業務に支障をきたす可能性はあるものの、このテスト方法により、様々なDRシナリオに対するスタッフの対応能力を確認し、DR計画の有効性を検証することができます。したがって、様々なDRシナリオを適用して組織のDR計画を定期的にテストすることで、計画を洗練させ、予期せぬ災害が発生しても業務に支障をきたさないようにすることができます。
NAKIVO を使用したサイト復旧テスト
システムを適切に保護し、迅速かつ容易に復旧できるようにするためには、DR計画を策定するだけでは不十分です。組織は、シームレスなDRプロセスを確保するために、高性能なバックアップおよびレプリケーションソフトウェアを導入する必要があります。 NAKIVO Backup & Replication このソリューションは、独自の機能を提供しているため、最適な選択肢です。 サイト復旧これにより、あらゆる企業のDRニーズに対応することが可能です。 Site Recoveryワークフローを作成する (すなわち、SRジョブ)には、フェイルオーバー、フェイルバック、VMの起動/停止、ジョブの実行/停止、リポジトリの接続/切断など、さまざまなアクションや条件が含まれており、これらを任意の順序で配置できます。SRジョブは自動化されたアルゴリズムを表しており、あらゆる規模の復旧プロセスを設計することが可能です。 本番環境に影響を与えることなく、SRジョブを簡単に変更、追加、またはテストすることができます。その後、プロセスは完全に自動化され、スケジュールに従って、またはオンデマンドで実行できます。
SRジョブは、本番モードとテストモードで実行できます。オンデマンドでSRジョブのテストを実行するには、まずSRジョブがすでに存在することを確認するか、作成する必要があります。その後、以下の手順に従ってください:
- その
Jobsダッシュボードで、テストしたいSRジョブを選択し、次にRun Job. - その後、ダイアログが開き、2つの選択肢が表示されます:
Test site recovery jobまたはRun site recovery job. クリックTest site recovery job.
- すると、復旧時間目標(RTO)を設定できる新しいダイアログが開きます。 RTO これは、大きな損失を防ぐために、システムが復旧すると想定される許容ダウンタイムの期間です。このダイアログでは、"復旧時間目標"オプションを無効または有効に設定できます。有効にする場合は、SRジョブのテストが完了するまでに許容される時間を定義する"復旧時間目標"の値を必ず設定してください。

- クリック
Testジョブを開始するには。注: SRジョブのテストは、スケジュールに従って実行することも可能です。
Test Scheduleこのオプションは、新しいSRジョブを作成する際に設定できます。したがって、選択したスケジュールに基づいて定期的なテストを実行するようにSRジョブを設定することができます。

テストスケジュールを設定する別の方法として、以前に作成したSRジョブを利用する方法があります。この場合、ホームページの左パネルに移動し、テストスケジュールを設定したいSRジョブを右クリックします。すると、ジョブ管理に関するさまざまなオプションを含むポップアップメニューが表示されます。例えば、 Run Job, Rename, Edit, Delete, そして Disable. クリック Edit.
その後、"テストのスケジュール"セクションをクリックし、希望するスケジュール設定を入力します。このメニューは、"新しいサイトリカバリジョブウィザード"のメニューと同一です。
これにより、組織に最適なスケジュールに基づいて定期的なテストを実行するSRジョブを設定できます。
結論
災害復旧(DR)事象がもたらす影響を認識している組織であれば、包括的なDR計画を策定しておくことの重要性を理解しています。しかし、多くのDR計画は、テストが不十分であるために機能しないことが判明しています。 DR計画を効率的かつ最新の状態に保つためには、様々なDRシナリオを策定し、DRテストプロセスの一環として実施することが重要です。DRシナリオを活用することで、たとえ予期せぬ事態や発生確率が低い事態であっても、災害発生時の対応方法をスタッフに訓練させることができ、パニックや混乱を防ぐことができます。
にて NAKIVO Backup & Replicationこれにより、システムが確実に保護され、容易に復旧できることが保証されます。新機能"Site Recovery"は、DRプロセスを手動で行う負担を軽減する、自動化された多機能ツールです。さらに、本番環境に影響を与えることなく、いつでもSRジョブのテストを実行することができます。 テスト結果を受け取った後、リカバリ戦略の課題を特定し、それに応じてSRジョブを更新できます。このように、Site Recoveryの機能は、ビジネスの継続性とデータ保護を確保するための数多くのメリットを提供します。
無料トライアルをダウンロードして、今すぐVMware、Hyper-V、または混在環境で製品をお試しください!