高可用性、容錯能力與災難還原:概覽

談到確保組織的 IT 基礎架構能夠全天候運作時,人們似乎仍對三個核心術語——高可用性(HA)、容錯(FT)和災難還原(DR)——存在一些混淆。 這三個術語都涉及維持業務連續性與對 IT 系統的存取。然而,每個術語都有其特定的定義、方法論及使用情境。

在這篇部落格文章中,我們將闡明高可用性、容錯能力與災難還原在實務中的定義,並探討這些術語之間的重疊之處,以及為何實施它們至關重要。

透過 NAKIVO 確保系統可用性

透過 NAKIVO 確保系統可用性

滿足虛擬基礎架構中對服務可用性的嚴格需求。透過強大的災難復原編排與自動化特點,達成正常運作時間目標。

什麼是高可用性?

高可用性是指系統在指定時間內能夠持續運作(正常運行時間)並供使用者存取,且不會發生停機。正常運行時間是指伺服器在未發生非預期的重新啟動或關機情況下,持續運作的時間。

高可用性(HA)的計算方式,是系統在設定時間內保持運作的時間所佔的比例,且不計入預定的維護與關機時間。 高可用性並不會要求達到 100% 的正常運作時間,因為這既難以實現,也不切實際。每年最多 5 分 26 秒的停機時間被視為可接受,這相當於 99.999% 的運作正常時間。然而,即使這個數值對許多組織而言,可能仍非合理的目標。根據組織、產業及資源的不同,所需的高可用性數值可能會更低。

高可用性是如何運作的?

組織要實現高可用性目標,需透過使用冗餘與故障移轉元件,消除系統中的單一故障點。這意味著必須確保單一元件的故障不會導致整個系統無法運作。

在虛擬化環境中,可透過以下方式實現高可用性設計: 聚類技術例如,當叢集內的某台主機或虛擬機器 (VM) 發生故障時,另一台虛擬機器會接管其任務(故障移轉),並維持系統的正常運作效能。

雖然具備冗餘元件是確保高可用性的基本條件,但僅靠這些元件並不足以使系統被視為具備高可用性。 高可用性系統必須同時具備冗餘元件,以及用於故障偵測與自動工作負載重定向的機制。這些機制可以是負載平衡器或虛擬機器管理程式。 VMware vSphere 中的 DRS 是一個負載平衡器的範例。

何時需要高可用性?

對於任何無法承受停機時間的關鍵工作負載而言,高可用性架構是必不可少的。如果系統或應用程式的故障會危及企業的存續,則可透過高可用性來將停機時間降至最低。 根據 Statista 的數據根據

的數據,2020 年有 25% 的企業每停機一小時,所造成的損失介於 30 萬至 40 萬美元之間。這意味著即使是 99.999% 這種極高的可用性水準——相當於每年僅有 5 分 26 秒的停機時間——對某些企業而言,仍可能造成約 35,000 美元的損失。 除了巨大的財務損失外,系統停機還可能帶來其他嚴重後果,例如生產力下降、無法及時提供服務、企業聲譽受損等。高可用性系統能透過自動且及時地處理故障,協助避免此類情況發生。

什麼是容錯性?

容錯能力是指系統在其中一個或多個元件發生故障時,仍能持續正常運作且不造成任何停機的時間。一個具容錯能力的系統包含兩個緊密耦合的元件,這兩者相互鏡像以提供冗餘。如此一來,若主元件發生故障,備用元件便能立即接手運作。

容錯機制是如何運作的?

容錯能力與高可用性一樣,皆仰賴冗餘機制來確保系統正常運作時間。此類冗餘可透過在兩台伺服器上同時執行同一套應用程式來實現,如此一來,當主伺服器發生故障時,另一台伺服器便能立即接管其運作。

在虛擬化環境中,容錯所需的冗餘是透過在不同的主機上維護並執行特定虛擬機器的相同副本來實現的。 主虛擬機器上的任何變更或輸入都會同步複製到次要虛擬機器上。如此一來,若主虛擬機器發生損壞,系統便能透過將工作負載從一個虛擬機器即時轉移至其複本,來確保容錯能力。

何時需要重視容錯能力?

對於無法承受任何停機時間(零停機)的系統而言,容錯設計至關重要。若系統中存在關鍵任務型應用程式,且即使最輕微的停機時間也會導致無法挽回的損失,您應考慮在配置 IT 元件時將容錯性納入考量。

容錯性與高可用性

若將高可用性(HA)與容錯(FT)相比較,容錯方案的成本較高。但容錯與高可用性在兩個主要方面也存在差異:

  • 容錯能力是高可用性的更嚴格版本。高可用性著重於將停機時間降至最低,而容錯能力則更進一步,透過提供 停機時間。
  • 然而,在容錯模型中,系統在發生故障時能否維持高效能,並非首要考量。相反地,預期系統即使效能有所降低,仍能維持運作效能。

什麼是災難還原?

災難還原是組織用以應對影響系統的事件,並迅速還原資訊科技基礎架構功能性的流程。災難還原包含災難還原計畫、災難還原團隊、專用的災難還原解決方案、還原站點等。此方法涉及使用 熱點、溫點或冷點 視乎在RTO定義的值 災難還原計畫 以及可用的資源。

災難復原(DR)的兩大主要指標是 還原時間目標 (RTO) 與還原點目標 (RPO),分別用於將停機時間和資料損失降至最低。

災難還原是如何運作的?

災難還原需求需要設有備援位置,以便在發生中斷事件後,能將關鍵資料和工作負載(無論是全部或部分)還原至該位置,從而恢復足夠的業務運作。

為了將工作負載轉移至遠端位置,必須採用適當的災難還原解決方案。此類解決方案可處理 故障移轉 系統能及時運作,且幾乎無需您介入,這使您能夠達成預設的恢復目標時間 (RTO)。

災難還原包含哪些組成部分?

災難還原的概念遠比高可用性與容錯機制更廣泛且複雜。它指的是一套包含多項要素的策略,其中包括:風險評估、規劃、依賴關係分析、遠端站點配置、人員培訓、測試、自動化設定等。災難還原的另一項特點,也是其超越高可用性與容錯機制的關鍵,在於它與生產站點的獨立性。

何時需要進行災難還原?

災難 此處所指的不僅是自然災害,還包括任何可能衝擊整個生產場域並導致重大停機的干擾事件,例如網路攻擊、停電、人為失誤、軟體故障等。這意味著此類事件可能隨時意外發生。在大多數情況下,災難是無法預測或避免的,因此組織應採取措施強化災難還原的準備工作,並定期優化其災難還原策略。

災難還原與高可用性

災難還原與高可用性及容錯機制不同,它處理的是導致整個 IT 基礎架構無法運作的災難性後果,而非單一元件的故障。由於災難還原同時以資料和技術為核心,其主要目標是在發生非預期事件後,於最短時間內還原資料,並讓基礎架構元件重新運作。

關於高可用性與災難還原的差異,高可用性與容錯機制無法協助您在遭遇災難或因不可預見事件導致資料遺失時進行資料還原。這正是災難還原能發揮作用的場景:它可提供獨立的災難還原基礎架構,以及資料的特定時間點副本(還原點),藉此將停機時間降至最低並避免資料遺失。不過請注意, 災難還原與備份之間的差異.

使用 NAKIVO Backup & Replication 用於災難還原

NAKIVO Backup & Replication 這是一項快速、可靠且經濟實惠的解決方案。它結合了高階資料保護與 災難還原功能性 – "站點還原"特點 – 旨在簡化並自動化災難復原作業。

試試看 NAKIVO Backup & Replication

試試看 NAKIVO Backup & Replication

立即申請免費試用,全面體驗本解決方案的所有資料保護特點。15 天免費試用。無功能或容量限制。無需提供信用卡資訊。

如果您已依照災難還原最佳實踐的需求設定了遠端站點,該功能不僅操作簡便且易於設定,同時還能讓您建立複雜的還原工作流程。

High availability vs disaster recovery with NAKIVO

您可以在單一工作流程(工作)中組合多達 200 個動作,以因應不同的災難情境並滿足各種需求,包括:監控、資料中心遷移、緊急故障移轉、預定故障移轉、故障恢復等。一旦發生災難,只需單擊一下,即可立即啟動任何已建立的工作流程,讓企業實現最短的災難還原時間。

透過站點還原,您可以執行自動化且無中斷的災難還原測試。藉此,您可以確保您的 站點還原工作流程 確保這些措施有效、能反映您 IT 基礎架構中近期發生的所有變更,並在實際災難發生前消除所有弱點。

Testing fault tolerance and disaster recovery is recommended

People also read