使用 NAKIVO 進行災難還原:規劃、實施與測試

備份與災難還原是各組織及各產業數據保護策略的基石。 災難還原 是指當生產站點無法運作時,在備援站點(即災難還原站點)恢復虛擬機器及其上所運行服務的過程。這些站點配備了預先安裝必要軟體的冗餘伺服器、電腦及網路設備, 次要災難恢復站點可分為不同類型 視冗餘程度而定。

NAKIVO Backup & Replication 包含站點還原功能性,讓您能夠建立進階的還原序列(包含完整站點故障移轉),當主要站點發生故障時,只需點擊一下即可啟動。閱讀這篇部落格文章,了解關鍵的災難還原策略要素,例如 IT 災難還原規劃、測試,以及如何透過 NAKIVO 的整合式解決方案執行災難還原。

透過 NAKIVO 確保系統可用性

透過 NAKIVO 確保系統可用性

滿足虛擬基礎架構中對服務可用性的嚴格需求。透過強大的災難復原編排與自動化特點,達成正常運作時間目標。

步驟 1. 災難還原規劃

作為有效災難還原的重要步驟,規劃應包含評估組織的還原需求,並全面了解災難還原工作流程中應包含哪些組件、步驟及程序。

災難還原規劃:最佳實踐

1. 進行業務影響分析

A 業務影響分析(或稱 BIA) 用於評估重大事故或自然災害對業務運作可能造成的負面影響。此分析包含為不同的虛擬機器(VM)設定優先順序、還原順序,以及在中斷情況對業務運作造成顯著影響之前可容忍的延遲時間。例如,某個虛擬機器的故障可能僅會造成延誤與不便,而另一個虛擬機器的故障則可能導致業務關鍵運作完全中斷。

2. 評估相關風險

在進行災難復原規劃之前,請先彙整有關貴組織營運及業務連續性所面臨風險的相關資料。在某些地區,長期停電或病毒攻擊發生的機率可能比龍捲風更高;但在其他地區,自然災害卻是常見的現象。 風險評估有助於您確定針對特定威脅所需的適當防護等級,並制定措施以將風險降至最低並減輕後果。儘管無法完全消除風險,但您將能針對可能面臨的災難情境做好更充分的準備。

3. 制定災難還原文件

一旦釐清了風險及其對貴公司的潛在影響,您就能更清楚地了解應將精力集中於何處,以規劃災難還原流程。 文件還原程序,詳細說明所有關鍵步驟及災難復原措施,並定期更新文件以反映環境中的變更。文件應包含:

  • Disaster recovery scope. 請評估基礎架構中各項硬體與軟體元件的重要性,並將其中對關鍵任務運作至關重要的元件納入災難還原計畫。對於存放關鍵資訊的虛擬機器、IT 系統,以及其運作對確保服務持續交付至關重要的應用程式,應將其列為還原工作的首要優先事項。
  • VM recovery order. 某些虛擬機器可能依賴於另一台虛擬機器中所儲存的軟體或資料,這意味著它們無法獨立運作,也無法隨意啟動。您應指定還原順序,以簡化還原流程,並消除災難復原站點發生軟體衝突的風險。例如,在啟動使用 Active Directory 驗證的檔案伺服器虛擬機器之前,必須先確保執行 Active Directory 網域控制器的虛擬機器已啟動並正常運作。

另一個例子是網路服務,這類服務通常仰賴安裝在數台不同虛擬機器上的軟體。可能需要實作以下流程:

  1. 應先啟動載有資料庫伺服器的虛擬機器。
  2. 接著即可啟動載有應用伺服器的虛擬機器。
  3. 只有這樣,載有網頁伺服器的虛擬機器才能啟動。
  • RTO and RPO in disaster recovery. 設定 還原時間目標 (RTO) 以及 還原點目標 (RPO) 針對災難還原計畫中不同優先級的虛擬機器。例如,用於財務系統的虛擬機器,其還原目標可能比用於儲存歸檔文件的虛擬機器更為緊迫。
  • Dependencies. 在確定人員與 IT 元件之間的依賴鏈時,請與您的員工密切合作並將其需求納入考量,以避免出現可能導致還原失敗的薄弱環節。例如,若其他部門的員工需仰賴會計部門的財務作業來完成工作,則會計部門所使用的虛擬機器可能需要優先進行還原。
  • Staff. 為參與災難復原流程的團隊成員分配職責與任務。若他們將在災難復原站點工作,請確保該處已設置好工作站,並配備所有必要的設備、辦公家具及硬體,以便他們能以最少的干擾繼續工作。若員工能在災難期間遠端工作,請預先設定 VPN 存取權限並提供 VPN 帳號。
  • Hardware requirements. 災難還原計畫的成功與否,在很大程度上取決於災難還原站點所配置硬體的位置與效能。應考量以下幾項因素:
  • 伺服器必須具備足夠的 CPU、記憶體和磁碟容量,以支撐轉移的工作負載。CPU 效能不足或記憶體不足可能會影響虛擬機器(VM)的速度,而磁碟速度不足則會導致虛擬機器的效能不佳。
  • 網路必須提供足夠的頻寬,讓已恢復的虛擬機器能夠相互通訊,並與 共用儲存空間,並視需要與使用者聯繫。

步驟 2. 災難還原的準備工作

取得相關文件後,即可著手進行災難還原準備,包括設置災難還原站點,並將關鍵工作負載的複寫功能設定至該站點。複寫功能對於 虛擬機器故障移轉 當主要基礎架構發生故障時,切換至備用虛擬機器。

什麼是虛擬機器複製?

虛擬機器複製是指在另一台主機(稱為"目標主機")上建立來源虛擬機器(簡稱"虛擬機器副本")的完全相同副本的過程。虛擬機器副本是一台普通的虛擬機器,在需要之前會保持關機狀態(一旦需要,它幾乎可以立即在其主機上啟動並運行)。

查看如何建立並 設定 VMware 複製工作 在 NAKIVO Backup & Replication 欲了解更多詳情。

將工作負載從來源(生產環境)虛擬機器切換至災難復原站點的虛擬機器副本,以維持業務連續性與高可用性的過程,稱為故障移轉。

虛擬機器複製的最佳實踐

各種複製的最佳實踐 以確保流程具備更高的可靠性與效能。在此,我們將著重探討以下兩大重點:

  • Perform VM replication at the host level rather than the guest level. 虛擬化層是位於實體硬體與虛擬機器上運行的客體作業系統之間的中間層。在虛擬化層級執行的複製稱為"主機層級複製",其效率高於客體層級複製。
  • Use application-aware replication to avoid data loss. 如果在這些應用程式正在執行時,未採取任何額外措施便建立用於複製的虛擬機器快照,其效果將類似於意外斷電和系統關機,導致資料可能遺失。

透過應用程式感知型方法,系統會將應用程式凍結(靜止)並清空記憶體,且在擷取快照之前無法將資料寫入磁碟。一旦擷取到一致的快照,即可建立虛擬機器副本。此類虛擬機器副本可成功還原,且其中的應用程式將能正常運作。
NAKIVO Backup & Replication 支援針對 VMware 虛擬機器、Hyper-V 虛擬機器及 EC2 執行個體的應用程式感知型主機層級複製,並針對 Microsoft SQL Server、Exchange Server 及 Active Directory 網域控制器提供特殊功能性。

步驟 3. 建立災難還原工作流程

要建立災難還原工作流程,您需要一套專用的災難還原解決方案,例如 NAKIVO Backup & Replication,該功能性提供內建的站點還原功能,用於編排並自動化災難復原流程。

  1. 動作
  2. 網路
  3. Re-IP
  4. 測試時程表
  5. 選項

什麼是災難還原工作流程?

災難還原工作流程是一系列作為災難還原程序一部分而執行的操作,旨在將工作負載安全且迅速地故障移轉至複本。該工作流程透過與來源虛擬機器、目標虛擬機器及需滿足的條件等相關的操作,來組織故障移轉流程。您應定義這些操作的執行順序,因為某些災難還原程序可能取決於其他操作的執行結果。

可用的站點還原操作

"站點還原"功能性可讓您透過在單一工作流程中結合各項動作與條件,建立複雜的災難復原序列。每項動作可設定為僅在測試模式下執行、僅在生產模式下執行,或同時在兩種模式下執行(此為預設設定) NAKIVO Backup & Replication.

您可以在序列中包含以下任一或所有動作:

  • Failover – 啟動對複本 VMware 虛擬機器、Hyper-V 虛擬機器或 EC2 執行個體的故障移轉。
  • Failback – 將工作負載從虛擬機器副本還原至原始虛擬機器。執行故障恢復操作時,自故障移轉點以來在虛擬機器副本中所做的變更將寫入原始虛擬機器。虛擬機器完成同步後,原始虛擬機器將恢復至實際的生產狀態。
  • Start – 啟動 VMware 虛擬機器、Hyper-V 虛擬機器或 EC2 執行個體。
  • Stop – 停止正在運行的 VMware 虛擬機器、Hyper-V 虛擬機器及 EC2 執行個體。
  • Run job – 執行備份工作、複製工作、站點還原工作、備份複製工作或 Flash VM 啟動工作。
  • Stop jobs – 停止一個工作(即前一項所列的任何工作)。
  • Run script – 在以下任一目標上執行腳本:安裝了 Director 的伺服器、遠端 Windows 伺服器、遠端 Linux 伺服器、VMware 虛擬機器、Hyper-V 虛擬機器,或 EC2 執行個體。
  • Attach repository – 掛載由備份儲存庫 NAKIVO Backup & Replication 用於儲存備份。
  • Detach repository – 解除備份儲存庫的連結。
  • Send email – 將您撰寫的email內容發送給一位或多位指定的收件人。
  • Wait – 等待指定時間後,再進行下一項操作。
  • Check condition – 根據您的輸入(資源名稱的全部或部分),檢查以下其中一項條件:
  • 該資源存在
  • 該資源正在執行中
  • IP/主機名可連線

如何建立站點還原工作流程

讓我們透過一個範例來了解如何在站點還原工作中執行 NAKIVO Backup & Replication.

我們的配置

以下是我們將探討的架構:一個部署了 VMware vSphere 虛擬機的主站(生產環境),以及位於遠端位置的災難復原站:

  • DC-VM 是一台基於 Windows 的虛擬機器,執行 Active Directory 網域控制器。
  • FS-VM 這是一台基於 Windows 的虛擬機器,上面運行著檔案伺服器(使用 SMB 協定進行檔案分享)。使用者驗證則採用 Active Directory。Oracle 資料庫的備份檔儲存於該檔案伺服器上。
  • Ora-DB 這是執行 Oracle 資料庫的虛擬機器。

VMs at this production site are running, while the VMs and ESXi host at the DR site remain powered off

災難還原站點包含以下虛擬機器:

  • DC-VM-副本 以及 FS-VM-副本 這些是生產環境虛擬機器的複本,可用作故障移轉的目標。
  • DB-VM 是一款基於 Linux 的虛擬機器,具備 已安裝 Oracle 資料庫軟體 但不包含任何資料庫。

資料庫已進行備份 NAKIVO Backup & Replication 在資料庫層面上 FS-VM 在生產現場(此 Oracle 資料庫備份 (與應用程式一致)。 FS-VM 以及 DC-VM 透過 NAKIVO 解決方案,資料會在主機層級複製到災難復原站點。

虛擬機器還原的順序

當發生導致生產環境停機的事件時,必須依照以下方式在災難復原站點恢復相關元件:

  1. 故障移轉 DC-VMDC-VM-replica。

Disaster recovery failover to the first VM replica is performed at the DR site

  1. 曾經 DC-VM-副本 已上線,故障移轉 FS-VM FS-VM-副本. 你必須按照這個順序操作,因為 FS-VM 依賴 DC-VM 用於檔案伺服器的使用者驗證。
  2. 一旦這兩台虛擬機器開始運作, DB-VM 可以存取檔案伺服器上儲存該備份的共用目錄。現在 DB-VM 可以開始了。

Disaster recovery failover to the second VM replica, which is dependent on the first VM replica, is performed after the first VM replica has started

  1. 曾經 DB-VM 正在執行時,請執行一個腳本,該腳本可在檔案伺服器上的備份檔位置還原資料庫。上圖中的藍色箭頭顯示了相關的依賴關係。

請注意,在故障移轉操作完成後,直至轉移至下一個複本或恢復應用程式或資料庫之前,已啟動電源的虛擬機器複本上的服務可能需要一些時間才能啟動。此等待時間應納入災難復原流程中。

針對此虛擬機器故障移轉程序,您需要在 NAKIVO Backup & Replication 根據以下邏輯:

  • Action 1: DC-VM 故障轉移. 請等待此操作完成後,再進行下一步。若此操作失敗,請停止該工作。
  • Action 2. 請稍候 持續 3 分鐘。
  • Action 3. 檢查狀況DC-VM-副本. 檢查資源是否正在執行。如果資源正在執行,請繼續執行站點還原工作中的下一項操作。否則,請停止並宣告該工作失敗。
  • Action 4. FS-VM 的故障轉移. 請等待此操作完成後,再進行下一項操作。若此操作失敗,請停止該工作。
  • Action 5. 請稍候 持續 3 分鐘。
  • Action 6. 檢查狀況FS-VM-副本. 若資源正在執行,請繼續執行站點還原工作中的下一項操作。若非如此,請停止並宣告該工作失敗。
  • Action 7. 啟動 DB-VM. 請等待此操作完成後,再進行下一項操作。若此操作失敗,請停止該工作。
  • Action 8. 請稍候 5分鐘。
  • Action 9. 執行腳本. 目標類型:VMware 虛擬機器。目標虛擬機器:DB-VM。腳本路徑:/home/oracle/restore_db.sh(新增此步驟時,必須輸入具備足夠權限以執行該腳本的帳戶使用者名稱與密碼)。

NAKIVO 站點還原操作指南

讓我們根據上述方案建立一個新的站點還原工作。在 Jobs 您的 NAKIVO Backup & Replication 例如,請點擊 Create > Site recovery job.

Backup and disaster recovery - creating a new Site Recovery job

1. 行動

新的"站點還原"工作精靈 已啟動。在左側面板中,您可以找到可新增至工作項目的操作。只需點擊某個操作,即可將其新增至流程中。請注意,您無法在同一個流程中混合使用不同平台的操作(我們正在建立一個針對 VMware 虛擬機的工作項目)。

動作 1. 執行 DC-VM 的故障轉移

  1. 在左側窗格中,按一下 Failover VMware VMs.

Adding Failover VMware VMs action

  1. 在左側窗格中,從現有的複製工作選取虛擬機器複本。在我們的流程中,進行故障移轉至 DC-VM-副本 這是第一個操作。在右側窗格中,您可以選擇一個還原點。系統預設會使用最新的還原點。

點擊 Next 繼續。
Choosing the VM for a disaster recovery failover action in the framework of site recovery

  1. 關於災難還原 故障移轉 選項,您可以取消選取 Power off source VMs – 若來源虛擬機器與複本使用相同的網路,可使用此選項來避免 IP 位址衝突。

根據上述邏輯,我們選擇以下選項:

  • 在以下位置執行此動作: Run this action in both testing and production mode
  • 等待行為: Wait for this action to complete
  • 錯誤處理: Stop and fail the job if this action fails

點擊 Save 以儲存已建立的操作。
Options for the VM disaster recovery failover action

步驟 2. 等待 3 分鐘

A 請稍候 在此情況下,此操作相當有用,因為工作流程中的後續故障移轉操作(故障移轉至 FS-VM-副本) 將需要 DC-VM-副本 已部署並正常運作的 Active Directory 網域服務。

  1. 在的左側窗格中 動作 螢幕上,點擊 Wait.

Adding a “Wait” action

  1. 選擇等待的時間(我們使用的是 3 分鐘).

請如同執行第一個動作時那樣選擇動作選項,然後點擊 Save.
Configuring the “Wait” action

新動作會新增在先前動作之後,位於清單底部。您可以重新排序、編輯或移除動作。只需將滑鼠懸停在動作上,即可查看相關選項。

步驟 3. 檢查 DC-VM-副本

  1. 在的左側窗格中 動作 螢幕上,點擊 Check condition 以檢查在第一個操作中已進行故障轉移的虛擬機器是否正在運行。

Adding the “Check condition” action to the disaster recovery process

  1. 請按照以下方式設定此動作:
  • 請選擇條件類型: Resource is running. 其他選項包括 資源已存在IP 位址/主機名稱 可以聯繫到。
  • 請選擇資源類型: VMware VM.
  • 請選擇識別方式: Name (另一種選擇是 ID) 來識別該虛擬機器。您可以使用虛擬機器名稱字串中的任何部分。在此,由於我們已知確切名稱,因此我們使用 Equals 函式。
  • 請輸入搜尋字串: DC-VM-replica.

現在我們有一個動作,用於檢查名為 DC-VM-副本 正在執行。點擊 Save 繼續。
Configuring the “Check condition” action for a disaster recovery process

步驟 4. FS-VM 故障移轉

  1. 與……相同 行動 1,點擊 Failover VMware VMs.

Adding another “Failover VMware VMs” action for a disaster recovery process

  1. 我們挑選 FS-VM-副本 在此情況下。點擊 Next,然後為故障移轉選取與您在 行動 1 然後點擊 Save.

Adding the VM replica for the disaster recovery failover action

步驟 5. 等待 3 分鐘

點擊 Wait 並按照您對 動作 2. 指定的時間再次是 3 分鐘 就我們的情況而言。

行動 6. 檢查 FS-VM-副本

點擊 Check condition 為了檢查 VMware 虛擬機器 FS-VM-副本 正在執行。請參閱 動作 2 並選擇相同的選項——當然,虛擬機器名稱除外。

行動 7. 開始 DB-VM

  1. 點擊 Start VMware VMs 在左側窗格中 動作 螢幕。

The current list of actions (disaster recovery procedures) for a Site Recovery job

  1. 選擇 DB-VM. 只要您確定 FS-VM-副本 正在執行。在頁面底部,選擇與先前操作中顯示相同的動作選項。然後點擊 Save.

Selecting the VM for a Start VM action

步驟 8. 等待 5 分鐘

請等待 5 分鐘。點擊 Wait 並以與 動作 2. 這應該有足夠的時間來啟動 Oracle 服務 DB-VM.

動作 9. 執行腳本

  1. 動作 螢幕點擊 Run script請注意,此腳本旨在從儲存於的備份檔中,於資料庫層級還原 Oracle 資料庫。 FS-VM-副本.

Adding the Run script action

  1. 設定腳本選項。在我們的情況下:
  • 目標類型: VMware 虛擬機器
  • 目標虛擬機器: DB-VM
  • 腳本路徑: /home/oracle/restore.db.sh
  • 使用者名稱: 神諭
  • 密碼:(密碼)

您的腳本路徑、使用者名稱和密碼會有所不同。請務必確認腳本檔案具有可執行權限,且使用者擁有執行該腳本的足夠權限。此範例中的動作選項配置方式與往常相同。

點擊 Save 當您準備好繼續時。

Configuring the Run script action

  1. 現在您可以查看所有已設定的操作。點擊 Next 按一下此按鈕,根據您的災難還原計畫繼續設定站點還原工作。

Finalizing configuration of the actions (disaster recovery procedures) for a Site Recovery job workflow

2. 網路

如果生產站點和災難復原站點的虛擬機器是 連接到不同的網路, 請選擇 Enable network mapping. 點擊 Create new mapping在彈出視窗中,請選擇來源網路、目標網路,以及用於站點還原工作測試的網路。
點擊 Save 要儲存網路對應規則,請點擊 Next.

: 如果您已在其他複製、故障移轉或站點還原工作項目中設定了映射規則,也可以使用這些現有規則。

Configuring network mapping for a site recovery job

3. Re-IP

如果來源端和目標端用於虛擬機器連線的網路位址不同,則應透過選取 Enable Re-IP.

  1. 點擊此處建立新的 Re-IP 規則 Create new rule. 設定來源設定與目標設定,然後按一下 Save.

Creating a new Re-IP rule

  1. 點擊 Select VMs 並選取應使用"重新指派 IP"功能的虛擬機器。您應提供具備足夠權限、可變更虛擬機器客體作業系統網路設定的使用者憑證。

Setting credentials for a Re-IP rule

4. 測試時程表

您可以建立一個專門用於在測試模式下執行站點還原工作以及進行災難還原測試的排程。這讓您能夠測試該工作是否能在要求的時限內成功執行。完成後,請按一下"下一步"。
我們將在第 6 步中更詳細地討論站點還原工作的測試。

Configuring schedule options for disaster recovery testing with Site Recovery

5. 選項

輸入工作名稱和還原時間目標。點擊 Finish 當設定完成時。

Configuring job options for site recovery and finalizing job configuration

步驟 4. 重新保護環境

一旦虛擬機器完成故障轉移,且工作負載已遷移至災難復原站點,原始的生產環境虛擬機器便會離線,此時災難復原站點的複本即成為唯一具有功能性的副本。若此時某個已啟動的虛擬機器複本發生故障,您將無法迅速恢復資料和工作負載。

為了保護在災難復原站點運行的虛擬機器,您應將這些虛擬機器複製到另一個安全的位置。如此一來,若災難復原站點上的虛擬機器發生故障,您便能迅速將系統切換至新的虛擬機器副本。

站點還原功能允許您在虛擬機器故障移轉完成後立即設定自動複製。以下是一個實作範例,說明如何在故障移轉後透過站點還原工作來重新保護虛擬機器。

  1. Jobs 頁面中,右鍵點擊您最近建立的站點還原工作名稱。點擊 Edit 在右鍵選單中。

Editing an existing site recovery job

  1. 您可以看到稍早前已將您的故障移轉操作新增至站點還原工作。請尋找並按一下 Run jobs 從站點還原左側面板中的動作清單位置中 Actions 螢幕。

Adding a “Run jobs” action to add a VM disaster recovery replication job

  1. 從工作清單中選取複製工作。依慣例選取動作選項,然後按一下 Save.

Selecting an existing replication job for a “Run job” action

  1. 新增一個 請稍候 在故障移轉操作與複製工作之間執行此操作。這將給予虛擬機器副本一些時間來啟動並載入作業系統(您無法複製已關機的虛擬機器)。在左側窗格的"動作"清單中,按一下 Wait.

Adding a “Wait” action to a site recovery job

  1. 選擇等待時間——5 分鐘應該就夠了。選擇操作選項,然後點擊 Save.

Configuring time to wait and action options

  1. 當您新增此動作時,它會被追加到動作清單的末尾。點擊 Move up 並將 請稍候 從第四個位置到第三個位置的操作——必須在複製之前完成。

Moving up the “Wait” action
現在,這些動作已按所需順序排列好了。
A list of actions included to the site recovery job

  1. 最後,站點還原工作已準備就緒,可用於執行虛擬機器故障移轉,並對用於故障移轉的虛擬機器複本進行自動重新保護。請在首頁上按右鍵點擊您的站點還原工作名稱,然後點擊 Run job 在右鍵選單中。

Running a site recovery job for re-protection using disaster recovery replication

步驟 5. 故障恢復

故障恢復是指將虛擬機器從災難復原站點恢復至其最新狀態,並將其遷回原始或新的生產站點的過程。為了理解為何需要故障恢復,讓我們先回顧一下故障移轉的運作方式:

  1. 當災難發生(或預測將發生)時,系統會進行故障移轉至虛擬機器副本。

Disaster recovery failover to replica is performed after disaster

  1. 對虛擬機器所做的任何變更(例如,客戶進行線上購物時新增至資料庫的交易記錄),都會寫入虛擬機器複本的虛擬磁碟中。部分區塊會被寫入,其餘則會被清除。來源虛擬機器的虛擬磁碟中並未包含這些交易記錄。

All changes are written to a VM replica after disaster recovery and failover

  1. 一旦事件解決且生產環境恢復功能性,必須將工作負載遷回生產環境。虛擬機器複本的更新資料必須傳輸回原始虛擬機器。必須透過故障恢復功能,利用反向複製重新同步這些虛擬機器。

Replication from a VM replica to the original source VM is performed during failback

在 NAKIVO Backup & Replication

故障恢復可在生產模式或測試模式下執行(在測試模式下,故障恢復操作對虛擬環境所做的所有變更,將在測試結束後還原至故障恢復前的狀態)。

讓我們詳細探討每種情況的運作方式。

  Production failback Test failback
1 關閉原始來源虛擬機器(若其存在且已啟動)。
2

建立一個 保護性快照 來源虛擬機(若來源虛擬機具有正常功能性)。

建立此快照可讓您在無法正確執行故障恢復時,將來源虛擬機器還原至故障移轉前的狀態。

3 跑步 增量複製 (若原始來源虛擬機器位於生產環境中)或完整複製(若該虛擬機器正被恢復至新的生產環境)。
4 關閉虛擬機器複本(可選)。 虛擬機器複本用於託管工作負載,且不會被關機。
5 將再次從虛擬機器副本執行增量複製至原始虛擬機器。這次的差異資料(自首次複製執行以來有所變更的資料)應會小得多。 從虛擬機器副本複製至原始來源虛擬機器(或新的生產環境虛擬機器)的操作僅執行一次,因為這已足以滿足測試需求。
6 使用網路對應將原始來源虛擬機器連接到其新網路(可選)。 將來源虛擬機器連接到隔離網路,以確保生產環境完全不受影響(可選)。
7 使用 Re-IP 修改原始來源虛擬機的靜態 IP 位址(可選)。
8 正在啟動原始來源虛擬機器。
9 Cleanup after a successful failback. 成功執行故障恢復操作後,原始虛擬機器與虛擬機器複本均會恢復至正常狀態。

  • 保護快照已從原始來源虛擬機器中移除。
  • 已重新配置複製工作,使其使用您新建立的主(來源)虛擬機器,而非舊的虛擬機器(此為選用步驟;僅在您已將服務切換至新虛擬機器時適用)。
  • 將虛擬機器複本從故障移轉(運作中)狀態切換回正常狀態。

Cleanup after a failed failback:

  • 將來源虛擬機器還原至先前建立的保護快照。
  • 從來源虛擬機器中移除保護快照。
  • 重新啟動虛擬機器複本。
Cleanup if the source VM didn't exist before the test failback was run:

  • 正在移除來源虛擬機器。

Cleanup if the source VM already existed before the test failback was run:

  • 將來源虛擬機器還原至建立保護快照時的狀態。
  • 啟動來源虛擬機器(如果它處於關機狀態)。
  • 從來源虛擬機器中移除保護快照。

準備進行故障恢復

首先,您應建立一個包含故障移轉動作的站點還原工作。此流程先前已詳細說明。

  • 執行故障移轉操作時,必須具備一個複製工作與一個虛擬機器副本。
  • 站點還原工作必須包含故障移轉動作,才能執行故障恢復。
  • 虛擬機器複本必須處於故障移轉狀態;因此,您必須先執行故障移轉,才能進行故障恢復。

執行故障恢復

讓我們以一個範例來說明如何執行故障恢復,方法是 NAKIVO Backup & Replication.

  1. 請確認已將故障移轉作為站點還原工作的一部分執行(該工作應已建立)。

Running failover first

  1. 建立一個新的站點還原工作 – 故障恢復動作可納入此工作。在 Jobs 頁面,點擊 Create > Site recovery job.

Creating a new site recovery job for failback

新的"站點還原"工作精靈 已正式推出。

1. Actions.

  1. 在左側窗格中,按一下 Failback VMware VMs (若在其他環境中,請使用 Failback Hyper-V VMsFailback EC2 Instances).

Adding a failback action to the Site Recovery job

  1. 選取應執行故障移轉操作的虛擬機器複本。按一下 Next.

Selecting the virtual machines for failback

  1. 選擇故障恢復位置——這可以是原始的生產站點,也可以是新位置。點擊 Next.

Selecting location for failback

  1. 選擇工作選項。選擇 Power off replica VMs 如有需要,請點擊 Save 當您準備好繼續時。

Configuring the failback action options

  1. 新增故障恢復動作後,站點還原工作將呈現如下圖所示。按一下 Next.

A failback action is added to this Site Recovery job

2. Networks. 若需為此工作啟用網路對應,請選取此選項。按一下 Next.

The network mapping configuration screen for a Site Recovery job

3. Re-IP. 若需為此工作啟用 Re-IP,請選取此選項。點擊 Next.

A Re-IP configuration screen for a site recovery job

4. Test Schedule. 設定您的排程選項,然後按一下 Next.

Configuring scheduling options for site recovery job testing

5. Options. 設定站點還原工作選項並輸入工作名稱。您可以為虛擬機器設定所需的 RTO,並指定故障恢復報告的電子郵件地址。按一下 Finish 以完成此新增且具備故障恢復功能之站點還原工作項的建立。

Configuring Site Recovery job options for failback

現在您可以執行此站點還原工作來執行虛擬機器故障恢復:只需右鍵點擊站點還原工作的名稱,然後選取 Run job,然後選擇 Test site recovery jobRun site recovery job.

Running a Site Recovery job with failover

步驟 6. 執行災難還原測試

災難還原測試有助於確保您在災難發生時已做好還原準備,並能於設定的時間框架內成功還原所有選定的元件。

主要有兩個原因 為何需要進行災難還原測試:

  • To make sure that everything can be recovered successfully. 當您測試災難還原計畫時,若發現某些環節出現問題,便可趁其尚未在實際危機情境中引發嚴重後果之前,及早加以修正。
  • To make sure that RTO values can be met. 災難還原測試可讓您確認工作負載是否能在相關的 RTO 內完成還原。站點還原測試既可按需手動執行,也可依排程自動執行,使整個流程輕鬆無痛,並為您節省時間。

測試環境與生產環境的故障移轉差異

執行故障移轉的機制會因站點還原工作是在測試模式還是生產模式下執行而有所不同。下表列出了各模式的步驟詳情。

Production (emergency) failover Test failover
1 停用從來源虛擬機器到複本的複製
2 將虛擬機器複本還原至特定還原點 (RP)(此為選用步驟,預設會使用最後一個還原點) 從來源虛擬機器向複本執行一次增量複製
3 將虛擬機器複本連接到一個 new 透過網路對應建立網路(可選) 將虛擬機器複本連接到一個 isolated 透過網路對應建立網路(可選)
4 使用 Re-IP 修改複本的靜態 IP 位址(可選)
4A 關閉來源虛擬機器(可選)
5 開啟複本的電源
6 將複本切換至"故障移轉"狀態

如您所見,生產環境與測試環境的工作流程在第二點和第三點上有所不同。在測試模式下,您可以在來源虛擬機器正在運行的同時執行複製。在大多數情況下,當發生災難時,來源虛擬機器將無法運作,因此無法執行複製。在設定站點還原工作時,可分別於生產模式與測試模式的"網路對應"選項中,定義用於虛擬機器連線的網路。

在測試模式下執行站點還原工作後,系統會執行故障移轉測試清理程序。系統會關閉虛擬機器複本的電源,並透過快照將其還原至故障移轉前的狀態(在執行故障移轉移動作前,系統會先為虛擬機器複本建立快照)。接著,複本會從故障移轉狀態切換回正常狀態,並重新啟用從來源物件至複本的複製功能。

NAKIVO 站點還原的災難還原測試功能

讓我們快速瀏覽一下 NAKIVO 站點還原測試功能的主要要點。
1. Checking the actions included in testing
檢視站點還原工作中的動作邏輯。確認動作是否依正確順序排列,並確保不會形成無限迴圈。當工作未執行時,您可以編輯站點還原工作選項:依需求變更動作順序、新增動作、移除動作,或編輯動作選項。
2. Checking networking
請確認您的網路運作正常。生產站點與災難還原 (DR) 站點之間可建立 VPN 連線,但在正常狀態下,此連線不得定期中斷。此外,DR 站點的網路也必須能無中斷地運作。請檢查您用於設定故障移轉與故障恢復的"網路對應"及"重新指派 IP"設定。若虛擬機器設定的網路不正確,可能無法建立網路連線。IP 設定亦同。
3. Setting the test schedule
可在站點還原工作排程選項中排程站點還原工作測試。開啟您的實例的網頁介面 NAKIVO Backup & Replication. 在左側窗格中,右鍵點擊您的工作名稱,然後點擊 Edit 在右鍵選單中。
Editing scheduling options for testing a site recovery job

NAKIVO 站點還原的優勢

  • Comprehensive DR orchestration and automation. 站點還原讓您能夠以高度自動化的方式實施災難還原計畫。您可以根據虛擬機器的依賴關係來定義虛擬機器的還原順序,以便在發生災難時,還原作業能盡可能高效地進行。
  • Flexibility to accommodate the needs of various businesses. 您可以根據需求建立多個站點還原工作。站點還原工作可整合的動作組合,讓您能針對不同情境,量身打造各異的還原工作流程。
  • Built into the data protection solution. 站點還原是一項 特點 包含於 NAKIVO Backup & Replication 並與該產品的其他全面特點一併提供;您無需為站點還原另行購買授權。透過此解決方案,所有資料保護與災難還原作業皆可透過單一管理介面進行管理。
  • Significant savings compared to other DR solutions. NAKIVO Backup & Replication憑藉內建的站點還原工具,這是一款高性價比的解決方案。該產品不僅持續推出實用的新特點,更維持了同樣實惠的價格,尤其與災難還原市場上的競爭對手相比,更顯其優勢。
試試看 NAKIVO Backup & Replication

試試看 NAKIVO Backup & Replication

立即申請免費試用,全面體驗本解決方案的所有資料保護特點。15 天免費試用。無功能或容量限制。無需提供信用卡資訊。

People also read