災難還原測試情境概覽
當今企業被期望能夠全天候運作。即使業務營運與服務提供出現輕微延遲,都可能損害組織的信譽並造成重大損失。導致業務中斷的因素眾多,其中最主要的便是災難——它總是在你最意想不到的時候發生。 因此,為了在市場中保持競爭力並確保業務連續性,組織必須制定一套高效的災難還原(DR)計畫,並定期進行測試。這篇部落格文章列出了在測試災難還原計畫前值得考量的因素,並說明透過執行災難還原測試情境,如何協助您為災難還原做好準備。
什麼是災難復原計畫?
一般而言,災難是無法預測的,且總是猝不及防。因此,重視高可用性的組織應制定災難復原計畫。災難復原計畫是一套以文件形式記錄的任務與程序,用於在災難影響組織的 IT 基礎架構時實施。其主要目的是將災難事件的負面影響降至最低,並防止可能造成的損害。一套全面的災難復原計畫會明確規定在災難發生前、發生期間及發生後應採取的行動。
災難可分為兩種類型:自然災害(龍捲風、颶風、洪水等)與人為災害(伺服器錯誤、更新失敗、駭客攻擊等)。 您的災難還原計畫應基於貴組織最易面臨的風險與威脅來制定。此外,應識別對業務運作至關重要的營運流程與應用程式,並在還原順序中賦予其最高優先級。透過事先審視這些因素,您可確保災難還原計畫能應對實際災難還原事件中可能出現的任何問題。

測試災難復原計畫前應考慮的因素
制定災難復原計畫後,您應準備好進行測試。即使您確信已設計出一套高效且完善的災難復原計畫,仍應驗證一切是否如預期運作,並預先找出任何潛在問題。然而,在實際測試災難復原計畫之前,有幾個值得考量的因素,以確保測試過程順利進行,例如測試假設、測試範圍以及測試成功標準。
測試假設
準備測試的第一步是定義測試假設。在進行災難還原測試之前,還原團隊應討論應採取何種方向以達到最佳效果。基本上,測試假設是災難還原測試流程的基礎。完整的測試假設應包含以下內容:
- 貴組織最容易面臨的風險與威脅,以及相應的應對機制,需進行測試
- 應實施的 DR 測試情境及其選擇依據
- 進行DR測試的需求與條件
- 測試結束時必須滿足的測試後條件與情況
- 預期在測試流程結束後可達成的成果
測試範圍
另一個需要考量的關鍵因素是測試範圍,它闡明了測試過程中應涵蓋的領域。還原團隊應明確界定哪些系統元件與功能需要進行測試,並通知相關人員哪些系統將參與災難還原測試。此外,還原團隊應界定測試流程的限制與排除事項,以便確切掌握哪些項目會被測試、哪些不會,並預先避免任何混淆。
測試成功準則
測試成功標準用以判定災難復原(DR)測試流程何時可視為成功實施。透過檢視測試結果,您可以判斷預期目標是否已達成,以及哪些領域需要改進。一般而言,若災難復原計畫已證明其功能性與有效性,則該災難復原測試即被視為成功。然而,若在災難復原測試過程中發現了災難復原計畫的弱點,這同樣可視為成功。 還原團隊現可透過制定應對措施並修正缺陷,來優化災難還原計畫。此外,測試成功準則能讓人員評估其在災難還原測試期間的表現,並改善組織的災難應變機制。
因此,務必記錄流程的每一步驟,並預先確定測試假設、測試範圍及測試成功準則,以便為任何突發狀況做好準備並採取相應行動。
什麼是災難復原測試情境?
若未經事先準備便試行災難復原計畫的所有環節,實非明智之舉,因為進行災難復原測試是一項極為艱鉅的任務。為確保災難復原計畫在災難發生時能順利運作,您應檢視組織在面對特定緊急事件時將如何應對。 為此,可採用災難還原測試情境。還原團隊可根據貴組織的各項因素設計災難情境,亦可直接套用網路上現成的災難還原情境範本。
典型的災難復原測試情境通常會描述災難事件、其發生背景,以及該事件如何影響相關組織。透過模擬災難事件,您可以評估組織在災難復原流程中的準備狀況,並找出更佳的應對方式,以便在實際災難(自然或人為)發生時進行復原。
災難復原測試情境的類型
災難還原測試情境涵蓋多種緊急狀況與災難事件,這些情況都可能以某種方式影響貴組織的運作表現。讓我們來深入探討這些災難還原測試情境所代表的內容。
營運中斷
大多數組織都是一個複雜的系統,其組成部分之間具有高度的相互依存性。因此,若其中任何一個組成部分發生故障,整個系統都將面臨中斷的風險。應設計涵蓋各種營運問題的災難還原測試情境。為此,請設想任何關鍵的營運/流程,以及可能對其造成負面影響或損害的災難還原事件。
這類災難還原測試情境通常包含任何可能干擾組織營運表現的緊急狀況。 與營運相關的災難復原事件範例包括:生產中心發生火災或爆炸、主要組裝線因軟體故障而停擺,或是因人為失誤導致工作流程中斷。
技術問題
若您的多數營運作業皆在虛擬伺服器環境中運行,模擬與技術相關的災難復原情境應是您的首要任務。一旦發生系統故障,業務營運可能需要一段時間才能恢復。因此,設計能反映技術問題的災難復原測試情境至關重要,這些問題可能對貴組織的運作效能造成重大影響。此類問題可能包括伺服器故障、網路連線中斷、軟體故障、資料遺失,或無法存取備份資料。
關鍵人員流失
員工是任何組織不可或缺的一部分,因為他們是第一線面對並應對緊急狀況的人員。管理層應成立一個還原團隊,負責從頭到尾執行並監控災難還原(DR)流程。然而,還原團隊中某些成員——那些掌握災難還原程序關鍵知識的人員——可能會生病或離職。 因此,您應考量此類人員缺失可能造成的影響,並擬定一套能涵蓋此問題的災難復原測試情境。可能的災難復原情境特點包括:員工罷工、員工蓄意破壞、流感疫情,或是遭解僱且心懷不滿的員工發動駭客攻擊。
自然災害
自然災害,例如龍捲風、颶風或地震,不僅會對人員和財產造成影響,也會衝擊組織的基礎設施。自然災害通常具有突發性,且其可能造成的損害往往難以預測。 因此,請考量貴組織生產中心的地理位置,並釐清該地區最可能面臨的風險與威脅。據此,您可設計出最適合貴組織的災難復原(DR)測試情境。自然災害情境的範例包括:冰暴損毀通訊基礎設施、地震摧毀生產中心,以及洪水導致運輸問題。
商業風險
與業務相關的災難復原(DR)情境應針對貴組織量身打造,這意味著您首先需要釐清業務運作模式,以及哪些關鍵組件能確保業務的連續性。 為釐清哪些領域需要更高層級的保護,請執行業務影響分析(BIA),藉此評估最關鍵的業務運作及其中斷所造成的影響。據此,管理層可識別最可能發生的風險,並設計相應的災難復原情境。此類災難復原情境通常包含:股市崩盤、資料外洩、客戶流失至競爭對手,或關鍵供應商破產。
極不可能發生的事件
如前所述,各類災難復原事件時常會對組織造成影響。然而,您也應為應對超出常規規模的事件做好準備。雖然此類事件發生的機率極低,但員工仍應對此有所認知,並在必要時知曉應對方式。因此,您應制定一份災難復原測試情境,其中應包含以下緊急狀況:飛機撞擊生產中心、火山爆發或內亂。
測試災難復原計畫的重要性
即使是最周詳的災難復原(DR)計畫,在實際測試前也無法證實其有效性。測試災難復原計畫能讓您找出策略中的任何缺陷與不一致之處,從而確保在實際災難發生前,預先預測並防止任何可能的損害。因此,強烈建議您在災難復原測試情境下檢視您的災難復原計畫。
還原團隊只需依序檢視計畫中的所有步驟並進行詳細討論,此方法既無需額外支出,執行起來也相當簡便。然而,由於並未實際測試任何系統元件,此測試方法僅能提供災難還原流程的基本概況。另一方面,亦可執行全面性的模擬測試,這是一項成本較高且較為複雜的活動,因為它需要在實際運作環境中測試災難還原計畫的所有元件。 儘管此測試方式可能會中斷生產流程,但它能讓您觀察員工應對各類災難復原情境的能力,並驗證災難復原計畫的有效性。因此,您可以透過模擬各種災難復原情境,定期測試組織的災難復原計畫,藉此精進計畫內容,確保即使遭遇突發災難,也不會讓您陷入困境。
使用 NAKIVO 進行站點還原測試
為了確保系統獲得妥善保護,並能輕鬆且迅速地恢復運作,僅有災難復原計畫是不夠的。組織應安裝功能強大的備份與複製軟體,以確保災難復原流程能無縫進行。 NAKIVO Backup & Replication 這是最佳的解決方案,因為它具備一項獨家特點,即 站點還原,讓您能夠滿足任何企業的災難復原需求。您可以 建立站點還原工作流程 (即 SR 工作)包含多項操作或條件,例如故障移轉、故障恢復、啟動/停止虛擬機器、執行/停止工作、掛載/解除掛載儲存庫等,並可依您選擇的順序排列。SR 工作代表一種自動化演算法,讓您能夠設計任何規模的還原流程。 您可輕鬆修改、補充或測試 SR 工作,且不會影響生產環境。完成設定後,該流程將完全自動化,並可依排程或按需執行。
您可在生產模式與測試模式下執行 SR 工作。若要按需執行 SR 工作測試,您首先需確認已建立 SR 工作,否則請先建立一個。接著,請依照以下步驟操作:
- 在
Jobs在儀表板上,選取您要測試的 SR 工作,然後點擊Run Job. - 接著,對話方塊應會開啟,其中提供兩個選項:
Test site recovery job或Run site recovery job. 點擊Test site recovery job.
- 接著,會開啟一個新對話方塊,您可以在其中設定還原時間目標 (RTO)。 RTO 這是系統可容忍的停機時間,在此期間系統預期將恢復運作,以避免造成重大損失。在此對話方塊中,您可以選擇停用或啟用"還原時間目標"選項。若啟用此選項,請務必設定還原時間目標的數值,該數值定義了 SR 工作測試完成所需的允許時間。

- 點擊
Test開始執行這項工作。註: SR 工作測試也可以按排程執行。該
Test Schedule此選項可在建立新的 SR 工作時進行設定。因此,您可以設定 SR 工作,使其根據您選擇的排程執行定期測試。

若要設定測試排程,還可透過先前建立的 SR 工作來進行。在此情況下,您需前往首頁的左側面板,然後對欲設定測試排程的 SR 工作按右鍵。此時會出現一個彈出式選單,其中包含多種工作管理選項,例如 Run Job, Rename, Edit, Delete, 以及 Disable. 點擊 Edit.
接著,請點選"測試排程"區段,並輸入您所選的排程設定。此選單與"新增站點還原工作精靈"中的選單完全相同。
因此,您可以根據最適合貴組織的排程,設定 SR 工作以執行定期測試。
結論
任何意識到災難復原事件後果的組織,都會明白制定一套全面的災難復原計畫的重要性。然而,許多災難復原計畫因缺乏測試而被證實是無效的。 為了確保您的災難復原計畫既有效率又與時俱進,設計各種災難復原情境並將其納入測試流程中至關重要。透過這些情境,您可以訓練員工如何應對災難,無論災難有多麼出乎意料或發生機率多低,從而避免可能出現的恐慌或混亂。
透過 NAKIVO Backup & Replication, 您可以確信您的系統已獲得可靠的保護,並能輕鬆進行還原。這項新特點——站點還原——是一項自動化多功能工具,可減輕手動執行災難還原流程的負擔。此外,您還可隨時執行 SR 工作測試,且不會影響生產環境。 取得測試結果後,您可據此找出還原策略中的缺陷,並相應地更新站點還原工作。因此,站點還原功能性能為您帶來多項優勢,旨在確保您的業務連續性與資料保護。
立即下載免費試用版,在您的 VMware、Hyper-V 或混合環境中測試此產品!