災難還原測試及其對企業的重要性
無論當今的硬體和軟體有多麼可靠,機器仍可能因各種原因發生故障。一旦發生故障,系統可能會離線,數據也可能長時間無法取得。即使系統恢復線上運作,數據有時也無法恢復,最終將永久遺失。減輕這些風險最可靠的方法是建立一套 全面的災難還原(DR)計畫.
災難還原計畫是一套必須執行的程序,旨在於規定時限內還原資料和工作負載。這份詳盡的災難還原檢查清單包含預先建立的機制,用以因應各種災難情境。
統計數據顯示,全球 95% 的企業投入大量資源規劃應對最壞情況,其中也包含災難還原。然而,只有 其中 78% 會進行災難還原測試 以確認其計畫確實能達成目標。請繼續閱讀,了解何謂災難還原測試,以及如何為您的組織制定災難還原測試策略,以確保系統可用性與業務連續性,即使面臨任何突發事件亦能維持運作。
什麼是災難還原測試?
災難還原測試旨在驗證災難還原計畫的各項步驟,以確保該計畫能夠成功執行,並能在系統中斷後還原關鍵應用程式與資料。 測試災難還原計畫旨在確保在事件發生期間及之後,業務運作與關鍵服務得以維持。
最全面的災難還原測試,是透過模擬 IT 故障或任何其他類型的業務中斷,來評估現有的災難還原計畫。災難還原測試的主要目標,是檢查組織能否達到災難還原計畫中設定的還原時間目標 (RTO) 與還原點目標 (RPO)。您應該 了解 RPO 與 RTO 的差異 並針對每個應用程式和虛擬機器進行設定。災難還原測試還能讓您了解,當基礎架構的任何部分無法運作時,系統會如何反應。這些資訊有助於您完善組織的災難還原計畫,並在實際中斷發生前修復任何薄弱環節。
請記住,災難還原測試計畫不應僅限於災難還原計畫的技術層面。 同樣重要的是,必須驗證每位參與災難還原的員工是否清楚自身職責,並能在中斷期間取得執行工作所需的資源。
災難還原計畫的測試應定期進行,最好每年進行數次。IT 環境會隨著軟體除役、新應用程式導入或硬體更換而持續變動,這也意味著您的災難還原計畫需要相應的調整。災難還原測試流程可納入例行維護與員工培訓之中。
為何災難還原測試至關重要
若未對災難還原計畫進行測試,將面臨資料遺失及無法存取系統的風險。 您可以為企業投保以防範損失,但沒有任何保險單能彌補因事故導致的資料遺失,或長時間停機對企業造成的連鎖影響。真正確保系統正常運作時間與可用性的唯一方法,就是制定災難還原計畫並定期進行測試。如果您仍不確定測試災難還原計畫是否必要,以下列出在事故發生前,災難還原測試能協助您達成的目標:
- 找出災難復原計畫中的缺失或缺陷
- 請確保在還原過程中,您已按照正確的步驟順序操作
- 確認還原目標是否切實可行且能夠達成
- 將資料遺失降至最低
- 詳細說明災難復原團隊的行動方案,並確保每位成員都清楚自己的職責
- 趁還來得及,盡快推出更新與修正
災難還原測試流程的組成部分
應妥善規劃災難還原(DR)測試,以確保測試能產生實質成果,並有助於提升災難還原的準備狀態。這意味著災難還原測試的目標必須明確,同時應制定具體的時程表,涵蓋測試頻率、成功標準、結果評估,以及針對缺口與任何災難還原失敗所採取的改善步驟。讓我們更詳細地探討這些要點。
設定災難復原測試範圍
DR 測試範圍包含一系列假設與期望,這些應在測試過程中得到滿足。設定測試範圍時應包含:
- 確定將納入災難復原測試的系統與功能性
- 定義將測試何種災難還原流程:從備份還原完整系統、故障移轉至災難還原站點等。
- 預先訂立例外情況與限制,因為您的災難復原計畫中的某些環節可能無法按計畫執行
- 指定參與災難復原測試流程的部門及人員
- 定義將進行測試的各種情境:主站點故障、勒索軟體攻擊、連線中斷、伺服器/資料庫故障等。
檢視災難還原計畫
在進行測試之前,應先檢視災難還原計畫。災難還原測試應有條不紊地進行,並以組織的政策與實務為重點。因此,災難還原團隊應與高階管理層會面,共同檢視現有的災難還原計畫,並根據當前的業務狀況,決定應實施的任何變更或更新。這些因素包括新硬體或軟體產品的導入、業務擴張、預算削減、人員流動等。
DR 檢測頻率
鑑於當今的 IT 環境變化迅速,確定審查頻率對於確保災難還原計畫能持續保持最新狀態至關重要。部分組織每年僅審查並更新其災難還原計畫一次。然而,最有效的策略是在組織的關鍵業務組件發生變更時,立即更新(並重新測試)災難還原計畫。雖然災難還原測試可能既耗時又昂貴,但您應根據業務需求與資源狀況,並考量災難還原流程的範圍,來制定測試時程表。
測試成功準則
您需要設定用以判定虛擬機器(VM)災難還原測試是否成功的標準。理想情況下,當災難還原計畫被證實有效且可行時,即可視為 VM 災難還原測試通過。
然而,即使災難還原計畫未能通過測試,災難還原測試仍可被視為成功。這種情況讓您能在實際災難發生前,找出災難還原計畫中的缺陷,並在計畫的下一次迭代中加以修正。 基本上,測試成功標準是根據預先設定的預期來定義的,這些預期應在災難還原測試計畫中明確闡述,以避免任何混淆。
測試結果的評估
虛擬機器(VM)災難還原測試流程的結果,可概述公司目前採用的災難還原策略。還原團隊可評估測試結果,並根據所發現的問題,針對災難還原計畫提出改進或調整方案。
評估災難還原測試結果時,亦應考量以下指標:
- 在關鍵任務活動恢復之前,經過了多長時間
- 計畫的每個步驟執行得如何(是否發生任何錯誤或延誤)
- 在災難復原測試過程中,共有多少項操作成功完成
應進行相關變更與更新,並加以測試,以完善災難還原計畫。其目標在於提供更有效且易於管理的還原流程。
災難恢復計畫的測試後檢討
在測試模式下執行災難還原計畫後,建議您再次檢視該計畫。在災難還原測試過程中,應記錄計畫的優點與缺點,以及任何意外結果,並評估其對業務連續性的影響。此舉可顯著改善您的災難還原策略,並提升整體效能。針對缺失與失敗所採取的改善步驟應詳盡記載,並納入災難還原計畫的下一個版本中。
測試災難還原計畫前應考慮的因素
- 災難復原團隊的人數: 災難還原團隊應至少由兩人組成,以避免"單點故障"的問題。由於團隊成員不止一人,若在災難發生時無法聯繫到其中一人,您仍可放心,因為會有具備所需知識且能進入災難還原站點的替代人選。
- 選擇進行災難還原測試的時間: 一般而言,災難還原測試通常安排在非工作時間進行,因為此過程耗時,且可能中斷業務運作或影響整體效能。然而,這些測試結果未必能反映災難還原計畫在實際工作環境下的運作狀況。在工作時間內,針對虛擬機器災難還原計畫的各個組件進行獨立測試,或許是理想的解決方案。此舉有助於降低全面測試所帶來的系統過載風險。
- 團隊或 IT 基礎架構的變更: 在測試災難還原計畫之前,請先考量可能導致您的災難還原計畫不完整或過時的各種因素。如前所述,這些因素可能包括新的基礎設施元件、人員變動等。請讓災難還原團隊隨時掌握環境的最新變動,並發送簡短備忘錄通知員工最新動態。
災難還原測試方法
在本節中,我們將介紹四種最常見的災難還原測試方法。在決定哪種方法最適合貴組織,或是是否可以結合使用這些方法之前,請仔細評估它們。
核對清單測試
災難還原計畫的檢查清單測試,涉及檢視必須滿足的需求與條件清單。此項檢視是一個絕佳的起點,因為它是最基礎的選項,包含分析現行計畫並逐一檢視各項內容,以找出過時或遺漏的部分。 具體而言,這意味著需驗證備份站點的容量是否充足、還原團隊是否已獲知最新更新、資料保護解決方案是否正常運作等。
透過此種災難還原測試方法,還原團隊能迅速檢視災難還原計畫,確保每個環節皆已就緒,並找出災難還原策略中任何缺失的環節。此程序可在極短時間內完成,且無需大量人力投入。
DR 測試操作指南
此策略的目的是透過口頭演練,逐一檢視虛擬機器災難還原計畫的每個步驟,並找出任何問題與不足之處。在此過程中,還原團隊的所有成員皆會參與災難還原計畫的檢視與討論,並提出建議。
務必確保每個人都對計畫有深入的理解,並清楚了解在災難還原事件發生時各自的職責。此方法僅涉及對災難還原流程的口頭討論。 在走查測試中,實際上並未對災難復原計畫的技術層面進行測試或核准。
桌面/模擬式災難演練
在桌面演練中,組織會模擬災難情境,以確認災難還原計畫是否完善,以及既定目標能否達成。這種災難還原測試方法可視為走查測試的延伸。所有團隊成員將被呈現各種災難情境,並透過討論在該情況下應如何應對來進行檢視。這使您能在更貼近現實的環境中測試員工的應變準備度,並確認災難還原計畫能否應對突發狀況。
- 桌上型遊戲流程簡介. 災難還原團隊會一步步模擬實際災難發生時的狀況,逐項檢視計畫。這種災難還原測試方法有助於找出潛在的盲點與隱藏問題。
- 情境模擬. 此方法是在測試環境中執行災難復原計畫,同時不影響生產工作流程。模擬作業是根據 具體的還原情境.
- 完整的災難還原模擬. 這種災難還原測試方法與上述的模擬情境類似,但這次的情境包含主站點運作完全失效的情況。該方法涉及嘗試在異地進行全面還原。
並行測試
平行測試可讓您驗證還原系統的功能性,以確認其能否執行業務運作並保障關鍵流程。由於主要系統預期需支援完整的生產工作負載,因此不會納入災難還原測試流程。這是一種安全且無中斷測試的技術系統測試方式。
全面中斷測試
全面中斷式災難還原測試能對您的虛擬機器災難還原計畫進行徹底驗證。在此情境下,災難還原站點將承接全部生產工作負載,而主站點則會停止運作。其目標是透過企業災難還原計畫,盡可能快速地恢復系統運作。由於全面中斷式測試可能中斷正常營運且成本高昂,因此執行前應經過周詳規劃。
所有還原流程均應記錄在案。 在執行災難還原測試期間,應識別所有問題與疑慮,以便日後處理。應密切觀察還原團隊的行動,以找出虛擬機器災難還原計畫中的潛在缺口。全面中斷測試亦是適當的災難還原測試方法,用以驗證您的災難還原目標是否合理且可達成。
您可考慮在不事先通知員工的情況下進行全面中斷測試。此舉能讓您更精確地評估團隊在災難發生時的應變準備程度。
災難還原測試的實用技巧
測試災難復原計畫是一項重要任務,有時可能會讓人感到不知所措。以下這些災難復原測試技巧,可協助您節省時間並減輕壓力:
- 安裝任何新的硬體或軟體產品後,請立即進行測試,以驗證其功能性與完整性。此舉亦有助於您掌握該產品的RTO,並了解其在災難復原程序中的運作表現。
- 在設計災難復原計畫之前,請先進行風險分析(RA)與業務影響分析(BIA)。應持續檢視這些分析的結果,若有所變更,請考量應如何將其反映在您的災難復原策略中。
- 測試應在盡可能貼近災難復原情境的條件下進行。透過模擬真實的災難情境,您可以觀察員工在災難復原情況下履行職責的表現。這也有助於減輕員工的壓力,因為他們會逐漸適應各種災難復原情境,並了解自身應盡的職責。
- 邀請獨立觀察員審查您的災難復原計畫,並監督測試過程。此舉可確保員工不會為了快速完成測試而走捷徑。此外,獨立觀察員還能協助重新擬定災難復原計畫並加以改進,通常能發現組織內部人員無法察覺的問題。
- 請備妥您基礎架構中所有應用程式的完整清單。此清單應包含各應用程式的詳細資訊、其設定、應用程式負責人的聯絡方式,以及您的合約/授權詳情。
- 在初期階段,應分階段並於非營業時間進行災難復原測試,以免造成系統過載。在找出任何缺失並據此改善計畫後,即可考慮於營業時間進行進一步的全面測試。
使用災難還原 NAKIVO Backup & Replication
NAKIVO Backup & Replication 是一套可靠的備份與災難還原解決方案。此解決方案可協助您自動化備份、複製及災難還原流程,同時確保跨平台(實體、虛擬或雲端)的資料完整性。NAKIVO 解決方案包含虛擬機器複製、虛擬機器故障移轉、故障恢復以及 站點還原 災難還原特點。此外,您可以測試災難還原流程,以確保所有設定皆正確無誤。
以測試模式執行站點還原工作
NAKIVO Backup & Replication 此功能可讓您以測試模式執行站點還原工作,以檢查在災難還原事件發生時,所有系統元件是否都能輕鬆還原,並能達成預定的災難還原目標。此測試不會干擾生產工作負載。以測試模式執行的站點還原工作既可排程執行,也可按需執行。
以下操作指南將說明如何以測試模式手動執行站點還原工作。請注意,必須先設定站點還原工作。
- 在
Jobs在儀表板上,選取一個站點還原工作,然後按一下Run Job按鈕。下拉式選單提供兩個選項。點擊Test site recovery工作.
- 在彈出的對話方塊中,您可以設定 RTO 指標。請定義站點還原工作完成所需的最大允許時間。若測試執行時間超過您輸入的 RTO 值,則該測試將被視為失敗。您也可以停用此選項。
- 最後,請點擊
Test以執行該工作。
測試時程的選項
在設定站點還原工作時,您也可以設定測試排程選項。當您以測試模式執行此工作時,這些選項即會生效。
透過email提交報告
啟用此選項後,每當工作完成時,選定的收件者都會收到一份測試報告。您需要在email設定中進行設定。 5. 選項 點擊前請先按 Tab 鍵 Finish.
您也可以直接透過網頁瀏覽器將報告下載為 PDF 或 CSV 檔案。只需在站點還原工作上按右鍵,然後點選 Site Recovery Job Report.



