故障移轉與故障恢復:災難還原的關鍵差異
在當今世界,任何企業都可能不時面臨資料損毀及關鍵業務中斷的問題。然而,即使只是短暫的服務中斷,也可能動搖客戶的信任,並最終導致重大損失。企業——尤其是那些在虛擬機器上運行服務的企業——必須 制定虛擬機器災難還原(DR)計畫 以確保高可用性與業務連續性。這篇部落格文章將說明故障移轉與故障恢復在災難復原流程中的作用,並探討如何運用這些策略來保障您的業務。
什麼是虛擬機器災難還原?
虛擬機器災難還原 是指在災難發生後,將企業基礎架構恢復至正常狀態的過程。所謂災難,是指任何可能危及組織營運的事件,涵蓋自然災害與人為災害。基本上,虛擬機器災難還原旨在恢復組織的虛擬化環境。任何災難還原流程的最終目標,是近乎即時還原業務營運,並保護最關鍵的資料,以確保業務連續性。
災難還原措施可分為三種類型。 預防措施 旨在防止某事件發生。 糾正措施 旨在建立一套應對災難的應變機制。 偵查措施 用於識別潛在風險並加以緩解。
故障移轉與故障恢復的差異
災難情境幾乎總是猝不及防地發生。在災難復原事件中,至關重要的是在造成重大損害之前,盡快恢復企業的虛擬化基礎架構。 故障移轉 以及 故障恢復 即使生產基地遭受災害影響,也能協助確保您的業務持續正常運作。
什麼是故障移轉?
故障移轉是指將關鍵任務工作負載從主要生產中心移轉,並在異地位置恢復系統的過程。故障移轉的主要目標是減輕災難或服務中斷對業務服務及客戶造成的負面影響。當發生軟體或硬體故障時,您可以透過將受影響的虛擬機器轉移至其複本,來快速恢復該虛擬機器。
使用虛擬機器複本進行故障移轉
在故障移轉過程中,遠端站點的虛擬機器複本會被啟動,以取代生產站點的原始虛擬機器。您可以將系統轉移至最新的還原點,該還原點實質上代表虛擬機器在特定時間點的狀態。透過盡可能頻繁地執行複製工作,您可以建立多個還原點,從而確保在發生災難時將資料損失降至最低。將系統轉移至複本是一種經濟實惠的解決方案,適用於因應硬體或軟體故障所引發的災難還原情境。
故障移轉叢集
故障移轉叢集代表一組獨立的電腦,它們協同運作以確保應用程式與服務的高可用性。故障移轉叢集由兩台或更多台相互連線的伺服器(或節點)組成,這些伺服器上運行著虛擬機器,並具備一個用於存放虛擬機器檔案的共用儲存空間。若其中一台伺服器發生故障,這些虛擬機器將在另一台伺服器上恢復運作。故障移轉叢集僅能保護虛擬機器免受硬體故障的影響。 與複本故障移轉相比,故障移轉叢集的建置成本較高。然而,當災難發生時,虛擬機器會自動在備援位置啟動,因此幾乎能實現零停機時間。
什麼是故障恢復?
在災難發生後恢復主站點並解決相關問題後,即可將業務運作轉移回原始虛擬機器。
的"故障恢復"功能可協助在原始主機(或您選擇的新位置)上恢復原始虛擬機器,並將工作負載從虛擬機器複本移回原始虛擬機器。 然而,自故障移轉以來,虛擬機器副本可能已發生某些變更。因此,在執行故障恢復之前,必須先同步原始虛擬機器與虛擬機器副本,以確保不會遺失任何關鍵資訊。在故障恢復過程中,僅會將變更後的資料傳送回原始系統。
作為災難還原的一部分,故障移轉與故障恢復流程
在災難復原事件發生期間,系統會啟動故障移轉與故障恢復作業。該流程執行方式如下:
- 生產環境中的原始虛擬機器會被複製到災難復原站點。虛擬機器副本的虛擬磁碟上的資料,與複製當下原始虛擬機器虛擬磁碟上的資料完全相同。若發生災難(或預期將發生災難),系統將啟動向虛擬機器副本的故障移轉。
- 在故障移轉期間,系統工作負載會轉移至災難復原站點。然而,隨著運作持續進行,複本虛擬機器中可能會發生某些變更。由於原始系統已離線,無法記錄任何所做的變更,因此儲存此類資料至關重要。因此,所有變更僅會寫入虛擬機器複本的虛擬磁碟中。
- 一旦災難造成的負面影響已得到解決(或潛在威脅已解除),主站點即可恢復正常運作。因此,將執行故障恢復操作;所有工作負載將從災難復原位置發送回生產位置,而原始虛擬機器將接收更新後的資料。原始虛擬機器與虛擬機器副本隨即同步。
虛擬機器災難還原中的故障移轉與故障恢復最佳實踐
- 確保符合法規要求。 某些組織在處理極為敏感且機密性高的資料時,必須遵守《健康保險流通與責任法案》(HIPAA)或《支付卡產業資料安全標準》(PCI DSS)等法規。若您的情況符合上述描述,則必須確認您的災難復原策略(包括故障移轉與故障恢復)是否符合相關安全標準。
- 檢查授權狀況。 請檢視您的軟體文件,並確認您的應用程式堆疊中是否存在任何授權限制。如有此類限制,您必須預先處理相關問題,並確保所有需求均已滿足。
- 界定您的災難復原計畫的範圍。 虛擬機器災難復原計畫的範圍,決定了應受保護的系統,並闡明預期成果以及任何可能的限制。請確保您的虛擬環境具備足夠的技術能力,以涵蓋計畫的所有面向。
- 選擇一套可靠的数据保護解決方案。 在虛擬環境中部署具備完整授權的資料保護解決方案,對於確保高效能運作與無縫整合至關重要。就災難復原規劃而言,您必須確認該產品需要多長時間才能恢復虛擬基礎架構,並將所有運作狀態恢復至生產環境。
- 決定由誰負責故障移轉與故障恢復。 管理層應指定還原團隊成員,並為每位成員分配具體職責。應明確指定負責監控故障移轉與故障恢復操作的人員,以免在實際還原情境中發生混亂,影響關鍵時刻的應變。
- 對 IT 人員進行故障移轉與故障恢復操作的培訓。 延續前一點所述,請確保您的 IT 人員具備執行故障移轉與故障恢復作業所需的知識與資格。負責的員工應做好萬全準備,以應對任何未如預期發生的狀況;他們必須對相關作業有透徹的理解,才能靈活應變並處理任何突發問題。
- 檢視服務水準協議(SLA)。 服務水準協議(SLA)是服務提供者與其客戶之間簽訂的合約,用以界定服務提供者應達到的需求與服務標準。因此,請確保您的 SLA 內容保持最新,且其適用範圍涵蓋災難復原(DR)環境。
- 定義 RTOs 以及 RPO. A 還原時間目標 (RTO) 是指在災難發生後,必須恢復業務運作的時間,以避免造成重大損害及關鍵損失。 還原點目標 (RPO) 代表在不對您的業務造成不可接受程度的損害下,可承受的資料遺失量(以時間為單位)。RPO 實質上是指在發生災難時,您的虛擬機器(VM)所能回滾到的最遠時間點。 您的 RTO 和 RPO 應主要依據災難情境下組織的優先順序來設定。雖然增加備份與複製工作的頻率可能是一項耗時且資源密集的任務,但這能顯著改善您的 RPO。應將較短的 RTO 分配給優先級最高的組件,這些組件應優先恢復。請注意,RTO 和 RPO 應分別針對應用程式和虛擬機器進行設定。
- 請考慮將您的災難復原站點轉為永久站點的可能性。 您的企業可能會受到重大災難的影響,導致主資料中心無法恢復運作。因此,請考慮將您的災難復原站點轉變為永久站點的可能性,以便您能預先為此規模的事件做好準備。 顯然,這是一項成本高昂的解決方案,不僅消耗大量資源,還涉及龐大的設備、軟體及場地成本。即使您暫時不立即執行此計畫,預先評估所需採取的措施仍大有裨益。
- 測試故障移轉操作。 透過測試您的故障移轉程序,您可以確認虛擬基礎架構能否在災難復原站點順利恢復,並驗證即使生產站點無法運作,預先安裝的應用程式仍能成功執行。
- 測試故障恢復操作。 如此一來,您就能確保貴公司的營運能夠從災難復原站點順利恢復至原始站點。
- 請對您的災難復原計畫進行全面測試。 全面測試整個災難復原計畫也相當值得;透過模擬災難復原事件,有助於找出計畫中的弱點。因此,您可以據此改進並調整貴組織所採用的災難復原策略。一份存在缺陷且過時的災難復原計畫,可能會嚴重中斷貴組織的業務連續性。
故障移轉與故障恢復在 NAKIVO Backup & Replication
NAKIVO Backup & Replication 提供獨家 站點還原 此功能性可讓您建立任何複雜度的自動化還原工作流程(或工作)。站點還原(SR)工作流程包含自訂的操作序列,例如故障移轉、故障恢復、啟動/停止虛擬機器、執行/停止工作、掛載/卸載儲存庫等。這些操作可依任意順序排列,以實現災難還原流程的全面自動化與編排。 此外,您可隨時輕鬆修改、補充或測試您的 SR 工作,且不會干擾生產環境。因此,即使是最複雜的災難復原計畫,也能透過 SR 工作流程順利建置、測試並實施。
災難還原中的故障移轉
故障移轉操作是大多數站點還原工作流程不可或缺的一部分。只有在您事先建立好要保護的來源虛擬機器之複本的情況下,才能執行涉及故障移轉的站點還原;當災難發生時,這些複本將作為故障移轉的目標。工作負載會從受影響的生產站點的來源虛擬機器,轉移至災難還原站點的虛擬機器複本。
NAKIVO Backup & Replication 已提出三種故障移轉類型:
- 預先規劃的故障移轉 此功能用於在面臨潛在威脅或預期發生災難時,對您的系統進行預先防護。若您已接獲氣象災害通知,或該地區有預定的停電計畫,即可啟動預定故障移轉。在此情況下,該解決方案會在將工作負載轉移至複本之前,先同步來源虛擬機器與其複本之間的資料;因此,可完全避免資料遺失。
- 測試故障移轉 有助於您判斷現有的故障移轉策略是否具有功能性,以及在發生災難復原事件時是否值得信賴。測試故障移轉的執行方式與預定故障移轉類似,惟測試模式下所做的所有變更都會立即還原,以確保主環境不受干擾。此外,您還能測試工作流程在災難復原事件中是否能以足夠快的速度執行。 NAKIVO Backup & Replication 此功能可讓您為站點還原工作設定目標恢復時間 (RTO)。若該工作耗時超過設定時間,則該測試將被視為失敗。系統會透過email寄送測試/執行報告,您可以透過該報告找出災難復原計畫中的不足之處並加以解決。
- 緊急故障移轉 在生產環境發生災難且無法連線至來源虛擬機器時,會立即執行。透過 NAKIVO Backup & Replication,您只需點擊一下,即可將工作負載從主站點移轉至災難復原站點。因此,雖然可能會遺失部分資料,但仍能確保停機時間降至最低。
在災難復原站點重新保護虛擬機器
執行完故障移轉後,您應確保在災難復原站點上運行的虛擬機器副本已受到保護。虛擬機器副本也可能受損,若沒有其他副本,將無法立即恢復它們。
然而, NAKIVO Backup & Replication 確保您的虛擬基礎架構在災難復原事件發生後能獲得重新保護。只需將災難復原站點上運行的虛擬機器複製到另一個位置即可。如此一來,若發生任何意外狀況,您便能輕鬆將系統切換至新的虛擬機器副本。您可以設定 SR 工作流程,在故障移轉完成後立即自動啟動災難復原站點上運行的虛擬機器的複製作業,從而確保高度的保護水準。
災難還原中的故障恢復
僅在 SR 工作流程中發生故障移轉後,才能執行故障恢復。經過一段時間後,當您的主站點備份完畢並恢復運作時,即可在原始來源虛擬機器上恢復執行作業。 為此,您可以從已取代原始虛擬機的複本,將作業回退至該虛擬機。若虛擬機工作負載無法轉移回主要生產站點(例如因無法還原),則可將其轉移至您選擇的任何其他新位置,作為比災難復原站點更長期的解決方案。
故障恢復可在生產模式或測試模式下執行。
- 測試模式下的故障恢復 此操作旨在確認 SR 工作能否成功執行,且在實際故障恢復過程中不會出現任何問題。在此情況下,從虛擬機器副本到來源虛擬機器的增量或完整複製僅執行一次,這對於測試目的已足夠。請確保 IP 位址和網路設定正確無誤。 來源虛擬機器與虛擬機器副本會進行同步以避免資料遺失,隨後來源虛擬機器將被啟動。請注意,在測試完成後,故障恢復過程中對虛擬機器所做的所有變更都會被捨棄,且虛擬環境將還原至故障恢復前的狀態。在測試模式下,站點還原工作可依需求執行,或依照排程執行。
- 生產環境中的故障恢復 此操作適用於您希望在災難還原(DR)故障移轉後還原生產環境時。在生產模式下,站點還原工作僅能按需執行。生產模式下的故障恢復步驟基本上與測試模式下的故障恢復相同。然而,系統會將虛擬機器副本複製回原始虛擬機器的操作執行兩次,以確保過程中不會發生任何資料遺失。 一旦複製操作完成,原始來源虛擬機器(位於生產站點)將被啟動,而災難復原站點的虛擬機器副本則會被關閉。(請注意,此最後一步驟——關閉災難復原虛擬機器副本——僅在生產模式下發生。)
結論
了解故障移轉與故障恢復背後的技術,並將其整合至您的虛擬機器災難還原計畫中,可保護您的虛擬環境免受任何突發事件的影響。故障移轉能確保關鍵業務資料的安全,並將所有工作負載迅速轉移至災難還原站點;而故障恢復則讓您只需點擊幾下,即可從災難還原站點切換回生產站點。這兩項操作相輔相成,有助於將資料損失降至最低,並減少系統停機時間。