RTO 與 RPO:了解災難復原的關鍵差異
越來越多的組織開始依賴備份來保護其資料,並確保在發生災難時能維持業務連續性。然而,據估計, 超過 72% 的企業 無法滿足其與還原點目標 (RPO) 及還原時間目標 (RTO) 相關的 IT 還原期望。
為了協助您制定高效的還原計畫,您必須徹底理解 RTO 與 RPO,並了解兩者之間的差異。本文將闡述您需要了解的關於這兩個參數的所有資訊,以建立可靠的災難還原策略。 請繼續閱讀,了解如何實現更嚴格的 RPO 與 RTO,以在災難發生後將資料損失降至最低,並盡快恢復正常的業務運作。
什麼是 RTO?
還原時間目標(RTO)指的是組織在遭遇中斷事件後所能承受的最長停機時間。換言之,RTO 是指從災難發生到受影響的關鍵工作負載恢復運作之間的時間長度。
RTO 的計算通常取決於您的 災難還原計畫、可用資源及預算。當您的 IT 基礎架構無法運作時,您需要一些時間來找出故障原因,並採取必要措施解決問題。然而,應預先建立災難還原步驟,以確保在解決生產環境問題的同時,關鍵系統和工作負載仍可存取且保持可用。您的 RTO 是指從系統發生故障到透過備份或複本工作負載恢復系統可用性之間所需的時間。
什麼是 RPO?
還原點目標(RPO)代表組織在遭遇災難時,所能承受的最大資料損失量,且不會造成嚴重後果。此指標以自上次備份或複製程序完成後經過的小時/分鐘數來衡量。可藉此決定需要多頻繁地建立資料備份與複本,以減少發生中斷事件後的資料損失。
在理想情況下,備份或複製工作應在原始機器發生故障前完成。然而,這種情況在現實中極為罕見,因此從最後一次成功備份完成之時到原始機器發生故障之際,之間會存在一段時間差。在此期間,虛擬機器持續執行操作並儲存資料,而這些資料極可能因此遺失。
災難還原中的 RTO 與 RPO 是什麼
資料保護的最終目標很明確:您希望確保一旦發生意外,關鍵資料不會遺失,並能滿足組織在系統運行時間和可用性方面的服務水準協議(SLA)。 然而,將虛擬環境中的所有變更即時鏡像至災難還原 (DR) 站點,成本相當高昂。正因如此,您必須接受一個事實:一旦發生系統中斷,您將不可避免地損失部分資料,且 IT 服務也會中斷。因此,您的任務就是盡可能將這些損失與中斷降至最低。
讓我們透過一個簡單的圖表來說明 RPO 與 RTO 的概念:
此圖示說明了一種常見的情境:虛擬機器因某些原因發生當機。黃色線代表 RPO,即從最後一次備份到系統中斷之間的時間間隔。橘色線則是 RTO,反映了恢復該虛擬機器所需的時間。
RTO 與 RPO 之間的差異
要了解如何確定 RTO 和 RPO,您應先了解兩者的差異及其在災難復原流程中的作用。
評估
- RTO 主要關注的是在災難發生期間,預期恢復業務運作所需的時間。需考慮的要點包括:
- 請評估貴組織的需求與優先事項,因為每家組織的情況各不相同。
- 請評估哪些應用程式對組織生存至關重要的服務與應用程式而言最具關鍵性,並考量若這些應用程式發生故障可能造成的後果。
- 確定各系統/應用程式的還原順序,以確保災難還原順利進行,並將因停機造成的損失降至最低。
- RPO 更著重於系統停機期間可能損失的數據量,而這不會對組織的獲利能力造成嚴重損害。需考慮的要點包括:
- 請說明備份/複製的頻率,以及在最新虛擬機器備份與實際災難發生之間,可能遺失多少資料。
- 請評估貴組織在每種工作負載下,所能承受的資料損失量。
費用
RTO 與 RPO 之間的主要差異在於:前者會綜合考量企業架構的各個面向以及整體災難還原流程,而後者僅著重於資料與應用程式對業務連續性的關鍵性。因此,若要確保快速還原,達成 RTO 目標可能是一項既艱鉅又昂貴的任務。同樣地,若要維持較小的 RPO,就必須執行更多備份並建立額外的還原點,這可能會增加儲存成本。
自動化
- 正如 RPO 若您重視資料安全以及系統面對資料遺失時的韌性,建議您定期執行資料備份。許多現代備份解決方案都允許您執行自動化 虛擬機器備份這意味著,您可以根據自身需求量身打造備份策略,既能有效達成 RPO 目標,又無需投入過多精力。
- 實現 RTO 這是一個較為複雜的管理流程,因為它必須涵蓋災難復原事件發生時所有需要恢復的業務流程與系統元件。儘管如此,仍建議將整個災難復原流程從頭到尾進行自動化與編排,以確保能夠達成您的目標復原時間 (RTO)。
計算簡便
- 該 RPO 這項指標很容易計算,因為它僅涵蓋還原流程中的其中一個面向——資料。
- RTO 應全面考量貴組織的各個層面,包括資料與服務的重要性、停機成本、災難還原(DR)活動的投資等。在計算 RTO 時,應將不同類型的作業負載與應用程式納入考量,因為它們的還原流程可能有所不同。建議依據業務連續性計畫來計算 RTO,該計畫應概述可能的業務風險與威脅,並說明恢復業務運作所需採取的步驟。
要定義 RTO 請根據貴組織的各種工作負載,回答以下問題:
特定應用程式/系統/機器停機多久,才不會對貴組織的核心營運造成重大影響?
在針對不同機器回答完這個問題後,請評估預期的結果是否能滿足您目前的業務需求。若無法滿足,請思考如何改善您的備份與 DR 策略 為了讓備份資料盡可能保持最新。
如何透過 NAKIVO 實現更嚴格的 RPO 與 RTO
NAKIVO Backup & Replication 讓您能夠更頻繁地為虛擬機器和實體機器建立備份,從而改善 RPO。只需將定期備份的間隔設定為不超過您的目標值即可。
此解決方案還透過即時虛擬機器還原功能,協助縮短 RTO,並 VMware vSphere 的複製功能性、Microsoft Hyper-V 及 Amazon EC2。整合您的網路監控服務,並在虛擬機器無法運作後立即觸發還原程序。您亦可為關鍵虛擬機器建立異地複本(完全相同的副本)。若原始虛擬機器發生故障,複本將自動啟動。若維護複本所需的資源超出您的負擔能力,您可以選擇 即時虛擬機器啟動特點 來自備份。
為了實現最嚴格的 RTO, NAKIVO Backup & Replication 已推出 站點還原編排功能. 針對不同情況,全面自動化虛擬機器的故障移轉與故障恢復 災難恢復(DR)情境 並執行無中斷測試,以確保能在預期時限內還原運作。
