Khả năng sẵn sàng cao so với Khả năng chịu lỗi so với Khôi phục sau thảm họa: Tổng quan

Khi nói đến việc duy trì hoạt động liên tục của hạ tầng CNTT trong tổ chức 24/7, dường như vẫn còn một số nhầm lẫn giữa ba thuật ngữ cốt lõi được sử dụng: tính sẵn sàng cao (HA), khả năng chịu lỗi (FT) và phục hồi thảm họa (DR). Ba thuật ngữ này đều liên quan đến việc duy trì tính liên tục của hoạt động kinh doanh và khả năng truy cập vào các hệ thống CNTT. Tuy nhiên, mỗi thuật ngữ lại có định nghĩa, phương pháp luận và trường hợp sử dụng cụ thể riêng.

Trong bài viết blog này, chúng ta sẽ định nghĩa cụ thể về tính sẵn sàng cao, khả năng chịu lỗi và phục hồi thảm họa trong thực tế, đồng thời tìm hiểu sự trùng lặp giữa các thuật ngữ này cũng như lý do tại sao việc triển khai chúng lại quan trọng.

Đảm bảo tính sẵn sàng với NAKIVO

Đảm bảo tính sẵn sàng với NAKIVO

Đáp ứng các yêu cầu khắt khe về tính sẵn sàng của dịch vụ trong các hạ tầng ảo. Đạt được các mục tiêu về thời gian hoạt động nhờ các tính năng điều phối và tự động hóa DR mạnh mẽ.

Khả năng sẵn sàng cao là gì?

Khả năng sẵn sàng cao là khả năng của hệ thống trong việc duy trì hoạt động (thời gian hoạt động) và đảm bảo người dùng có thể truy cập trong một khoảng thời gian nhất định mà không bị gián đoạn. Thời gian hoạt động là khoảng thời gian mà máy chủ duy trì hoạt động mà không bị khởi động lại ngoài kế hoạch hoặc bị tắt nguồn.

Khả năng sẵn sàng cao (HA) được tính là tỷ lệ phần trăm thời gian hệ thống hoạt động trong các khung giờ quy định, không tính các lần bảo trì và tắt máy theo kế hoạch. HA không được kỳ vọng đạt 100% thời gian hoạt động, điều này khó và không thực tế để đạt được. Thời gian ngừng hoạt động lên đến 5 phút và 26 giây mỗi năm được coi là chấp nhận được, tương đương với 99,999% thời gian hoạt động. Tuy nhiên, ngay cả giá trị này cũng có thể không phải là mục tiêu hợp lý đối với nhiều tổ chức. Tùy thuộc vào tổ chức, ngành nghề và nguồn lực, giá trị HA yêu cầu có thể thấp hơn.

Cơ chế hoạt động của tính sẵn sàng cao là gì?

Mục tiêu tính sẵn sàng cao của một tổ chức được đạt được thông qua việc loại bỏ điểm lỗi duy nhất trong hệ thống bằng cách sử dụng các thành phần dự phòng và chuyển đổi dự phòng. Điều này có nghĩa là đảm bảo rằng sự cố của một thành phần duy nhất không dẫn đến việc toàn bộ hệ thống không thể hoạt động.

Trong ảo hóa, tính sẵn sàng cao có thể được thiết kế với sự hỗ trợ của các công nghệ phân cụm. Ví dụ, khi một trong các máy chủ hoặc máy ảo (VM) trong cụm gặp sự cố, một VM khác sẽ tiếp quản (chuyển đổi dự phòng) và duy trì hiệu suất hoạt động bình thường của hệ thống.

Mặc dù việc có các thành phần dự phòng là điều kiện tiên quyết để đảm bảo tính sẵn sàng cao, nhưng chỉ riêng các thành phần này là chưa đủ để hệ thống được coi là có tính sẵn sàng cao. Một hệ thống có tính sẵn sàng cao là hệ thống bao gồm cả các thành phần dự phòng và các cơ chế phát hiện sự cố cũng như chuyển hướng tải công việc tự động. Các thành phần này có thể là bộ cân bằng tải hoặc hypervisor. DRS trong VMware vSphere là một ví dụ về bộ cân bằng tải.

Khi nào tính sẵn sàng cao là quan trọng?

Kiến trúc có tính sẵn sàng cao là cần thiết cho bất kỳ tải công việc quan trọng nào không thể chấp nhận thời gian ngừng hoạt động. Nếu sự cố của hệ thống hoặc ứng dụng đe dọa sự tồn tại của doanh nghiệp, HA có thể được sử dụng để giảm thiểu thời gian ngừng hoạt động. Theo Statista, chi phí cho một giờ ngừng hoạt động dao động từ 300.000 đến 400.000 USD đối với 25% doanh nghiệp vào năm 2020. Điều này có nghĩa là ngay cả mức độ sẵn sàng rất cao là 99,999% – tương đương 5 phút 26 giây ngừng hoạt động mỗi năm – cũng có thể khiến một số doanh nghiệp phải chịu chi phí khoảng 35.000 USD. Ngoài những tổn thất tài chính đáng kể, thời gian ngừng hoạt động có thể gây ra những hậu quả nghiêm trọng khác như sụt giảm năng suất, không thể cung cấp dịch vụ kịp thời, làm tổn hại danh tiếng doanh nghiệp, v.v. Các hệ thống có tính sẵn sàng cao giúp tránh những tình huống như vậy bằng cách xử lý sự cố một cách tự động và kịp thời.

Khả năng chịu lỗi là gì?

Khả năng chịu lỗi là khả năng của một hệ thống tiếp tục hoạt động bình thường mà không bị gián đoạn trong trường hợp một hoặc nhiều thành phần của hệ thống đó gặp sự cố. Một hệ thống chịu lỗi bao gồm hai thành phần được kết nối chặt chẽ với nhau, phản chiếu lẫn nhau để cung cấp tính dự phòng. Nhờ đó, nếu thành phần chính gặp sự cố, thành phần dự phòng sẽ ngay lập tức sẵn sàng tiếp quản.

Khả năng chịu lỗi hoạt động như thế nào?

Khả năng chịu lỗi, giống như tính sẵn sàng cao, dựa vào tính dự phòng để đảm bảo thời gian hoạt động. Tính dự phòng này có thể đạt được bằng cách chạy cùng lúc một ứng dụng trên hai máy chủ, cho phép một máy chủ có thể ngay lập tức tiếp quản máy chủ khác khi máy chủ chính gặp sự cố.

Trong môi trường ảo hóa, tính dự phòng cho khả năng chịu lỗi được thực hiện thông qua việc duy trì và chạy các bản sao giống hệt nhau của một máy ảo nhất định trên các máy chủ riêng biệt. Bất kỳ thay đổi hoặc đầu vào nào diễn ra trên máy ảo chính đều được sao chép trên máy ảo phụ. Như vậy, trong trường hợp máy ảo chính bị hỏng, khả năng chịu lỗi được đảm bảo thông qua việc chuyển đổi tức thì các tác vụ từ máy ảo này sang bản sao của nó.

Khi nào khả năng chịu lỗi là quan trọng?

Thiết kế chịu lỗi là yếu tố then chốt đối với các hệ thống không thể chấp nhận bất kỳ thời gian ngừng hoạt động nào (thời gian ngừng hoạt động bằng không). Nếu có các ứng dụng quan trọng đối với hoạt động kinh doanh, và ngay cả thời gian ngừng hoạt động nhỏ nhất cũng dẫn đến những tổn thất không thể khắc phục, bạn nên xem xét cấu hình các thành phần CNTT với khả năng chịu lỗi làm ưu tiên.

Khả năng chịu lỗi so với tính sẵn sàng cao

Khi so sánh HA với FT, khả năng chịu lỗi là giải pháp tốn kém hơn. Tuy nhiên, khả năng chịu lỗi và tính sẵn sàng cao cũng khác nhau ở hai khía cạnh chính:

  • Khả năng chịu lỗi là phiên bản nghiêm ngặt hơn của tính sẵn sàng cao. Tính sẵn sàng cao tập trung vào việc giảm thiểu thời gian ngừng hoạt động, trong khi khả năng chịu lỗi đi xa hơn bằng cách đảm bảo zero thời gian ngừng hoạt động.
  • Tuy nhiên, trong mô hình khả năng chịu lỗi, khả năng của hệ thống trong việc duy trì hiệu suất cao khi xảy ra sự cố không phải là ưu tiên hàng đầu. Ngược lại, người ta kỳ vọng rằng hệ thống có thể duy trì hiệu suất hoạt động, dù chỉ ở mức độ thấp hơn.

Phục hồi thảm họa là gì?

Phục hồi thảm họa là quy trình được các tổ chức sử dụng để ứng phó với các sự cố ảnh hưởng đến hệ thống và nhanh chóng khôi phục chức năng của hạ tầng CNTT. Phục hồi thảm họa bao gồm kế hoạch DR, đội ngũ DR, giải pháp phục hồi thảm họa chuyên dụng, địa điểm phục hồi, v.v. Phương pháp này liên quan đến việc sử dụng các địa điểm nóng, ấm hoặc lạnh tùy thuộc vào giá trị RTO được xác định trong kế hoạch khắc phục thảm họa và các nguồn lực sẵn có.

Hai chỉ số chính của DR là Mục tiêu về thời gian phục hồi (RTO) và mục tiêu điểm khôi phục (RPO) nhằm giảm thiểu thời gian ngừng hoạt động và mất dữ liệu tương ứng.

Phục hồi thảm họa hoạt động như thế nào?

Phục hồi thảm họa yêu cầu có một địa điểm thứ hai nơi bạn có thể khôi phục dữ liệu và khối lượng công việc quan trọng (hoàn toàn hoặc một phần) để tiếp tục hoạt động kinh doanh đủ khả năng sau một sự cố gián đoạn.

Để chuyển khối lượng công việc sang một địa điểm từ xa, cần phải tích hợp một giải pháp phục hồi thảm họa phù hợp. Giải pháp này có thể đảm bảo hoạt động chuyển đổi dự phòng một cách kịp thời và với ít sự can thiệp từ phía bạn, giúp bạn đạt được các mục tiêu RTO đã đề ra.

Các thành phần của khôi phục thảm họa là gì?

Khôi phục thảm họa là một khái niệm rộng lớn và phức tạp hơn nhiều so với tính sẵn sàng cao và khả năng chịu lỗi. Nó đề cập đến một chiến lược với bộ thành phần toàn diện bao gồm: đánh giá rủi ro, lập kế hoạch, phân tích phụ thuộc, cấu hình địa điểm từ xa, đào tạo nhân viên, kiểm thử, thiết lập tự động hóa, v.v. Một khía cạnh khác của DR vượt ra ngoài tính sẵn sàng cao và khả năng chịu lỗi là tính độc lập với địa điểm sản xuất.

Khi nào khôi phục thảm họa trở nên quan trọng?

Thảm họa không chỉ đề cập đến thảm họa tự nhiên, mà còn bao gồm bất kỳ sự cố gián đoạn nào ảnh hưởng đến toàn bộ địa điểm sản xuất và dẫn đến thời gian ngừng hoạt động đáng kể, bao gồm các cuộc tấn công mạng, mất điện, lỗi con người, sự cố phần mềm, v.v. Điều này có nghĩa là các sự cố như vậy có thể xảy ra bất cứ lúc nào một cách bất ngờ. Trong hầu hết các trường hợp, thảm họa là điều không thể dự đoán hoặc tránh khỏi, và các tổ chức nên thực hiện các biện pháp để tăng cường sự chuẩn bị cho việc phục hồi sau thảm họa, cũng như tối ưu hóa các chiến lược DR của mình một cách thường xuyên.

Phục hồi thảm họa so với tính sẵn sàng cao

Khác với tính sẵn sàng cao và khả năng chịu lỗi, phục hồi thảm họa tập trung vào việc xử lý những hậu quả nghiêm trọng khiến toàn bộ hạ tầng CNTT ngừng hoạt động, thay vì chỉ là sự cố của một thành phần riêng lẻ. Do DR tập trung cả vào dữ liệu lẫn công nghệ, mục tiêu chính của nó là khôi phục dữ liệu cũng như đưa các thành phần hạ tầng trở lại hoạt động trong thời gian ngắn nhất sau một sự cố không mong muốn.

Về sự khác biệt giữa tính sẵn sàng cao và phục hồi thảm họa, tính sẵn sàng cao và khả năng chịu lỗi không thể giúp bạn khôi phục dữ liệu trong trường hợp thảm họa và mất dữ liệu do sự cố không lường trước. Đây là tình huống mà phục hồi thảm họa có thể cung cấp cho bạn một hạ tầng DR độc lập và các bản sao dữ liệu tại một thời điểm cụ thể (điểm khôi phục) để giảm thiểu thời gian ngừng hoạt động và tránh mất dữ liệu. Lưu ý rằng Sự khác biệt giữa khôi phục sau thảm họa và sao lưu.

Sử dụng NAKIVO Backup & Replication cho Phục hồi Thảm họa

NAKIVO Backup & Replication là giải pháp nhanh chóng, đáng tin cậy và tiết kiệm chi phí. Nó kết hợp bảo vệ dữ liệu cao cấp và chức năng khôi phục sau thảm họa – tính năng Site Recovery – được thiết kế để đơn giản hóa và tự động hóa các hoạt động phục hồi thảm họa.

Hãy thử NAKIVO Backup & Replication

Hãy thử NAKIVO Backup & Replication

Đăng ký dùng thử miễn phí để khám phá toàn bộ các tính năng bảo vệ dữ liệu của giải pháp. Dùng thử miễn phí trong 15 ngày. Không có bất kỳ giới hạn nào về tính năng hay dung lượng. Không cần thẻ tín dụng.

Nếu bạn đã thiết lập một cơ sở từ xa theo các nguyên tắc tốt nhất về khôi phục thảm họa (DR), giải pháp này rất dễ sử dụng và cấu hình, đồng thời cho phép bạn xây dựng các quy trình khôi phục phức tạp.

High availability vs disaster recovery with NAKIVO

Bạn có thể kết hợp tối đa 200 thao tác trong một quy trình (công việc) để phù hợp với các tình huống thảm họa khác nhau và phục vụ các mục đích đa dạng, bao gồm: giám sát, di chuyển trung tâm dữ liệu, chuyển đổi dự phòng khẩn cấp, chuyển đổi dự phòng theo kế hoạch, khôi phục lại hệ thống, v.v. Trong trường hợp xảy ra thảm họa, bất kỳ quy trình làm việc nào đã được tạo ra đều có thể được triển khai ngay lập tức chỉ với một cú nhấp chuột, giúp doanh nghiệp đạt được thời gian phục hồi ngắn nhất.

Với Site Recovery, bạn có thể thực hiện các bài kiểm tra khôi phục thảm họa tự động mà không gây gián đoạn. Nhờ đó, bạn có thể đảm bảo rằng các Quy trình khôi phục trang web của mình là hợp lệ, phản ánh tất cả các thay đổi gần đây trong hạ tầng CNTT và không có điểm yếu nào trước khi thảm họa thực sự xảy ra.

Testing fault tolerance and disaster recovery is recommended

People also read