Chuyển đổi dự phòng so với khôi phục hệ thống: Những điểm khác biệt chính trong kế hoạch khắc phục thảm họa

Trong thế giới hiện đại, bất kỳ doanh nghiệp nào cũng có thể phải đối mặt với tình trạng dữ liệu bị hỏng hoặc các hoạt động quan trọng bị gián đoạn. Tuy nhiên, ngay cả sự gián đoạn dịch vụ trong thời gian ngắn cũng có thể làm suy giảm niềm tin của khách hàng và cuối cùng dẫn đến những tổn thất đáng kể. Các doanh nghiệp, đặc biệt là những đơn vị vận hành dịch vụ trên máy ảo (VM), cần phải Xây dựng kế hoạch khôi phục sau thảm họa (DR) cho máy ảo để đảm bảo tính sẵn sàng cao và sự liên tục trong hoạt động kinh doanh. Bài viết này mô tả vai trò của cơ chế chuyển đổi dự phòng (failover) và khôi phục (failback) trong quy trình khôi phục thảm họa (DR), đồng thời thảo luận về cách bạn có thể áp dụng các chiến lược này để bảo vệ doanh nghiệp của mình.

Đảm bảo tính sẵn sàng với NAKIVO

Đảm bảo tính sẵn sàng với NAKIVO

Đáp ứng các yêu cầu khắt khe về tính sẵn sàng của dịch vụ trong các hạ tầng ảo. Đạt được các mục tiêu về thời gian hoạt động liên tục nhờ các tính năng điều phối và tự động hóa DR mạnh mẽ.

Phục hồi thảm họa cho máy ảo (VM Disaster Recovery) là gì?

Phục hồi sau thảm họa cho máy ảo là quá trình khôi phục cơ sở hạ tầng kinh doanh của bạn về trạng thái bình thường sau một thảm họa. Thảm họa có thể là bất kỳ sự kiện nào đe dọa đến hoạt động của tổ chức, bao gồm cả các rủi ro tự nhiên và do con người gây ra. Về cơ bản, phục hồi thảm họa cho máy ảo nhằm mục đích khôi phục môi trường ảo hóa của một tổ chức. Mục tiêu cuối cùng của bất kỳ quy trình DR nào là nối lại hoạt động kinh doanh gần như ngay lập tức và bảo vệ dữ liệu quan trọng nhất để đảm bảo tính liên tục của hoạt động kinh doanh.

Các biện pháp DR được chia thành ba loại. Các biện pháp phòng ngừa nhằm ngăn chặn sự kiện xảy ra. Các biện pháp khắc phục nhằm sửa chữa hệ thống trong trường hợp thảm họa. Các biện pháp phát hiện được sử dụng để xác định các rủi ro tiềm ẩn và giảm thiểu chúng.

Sự khác biệt giữa Failover và Failback

Các tình huống thảm họa hầu như luôn xảy ra bất ngờ. Trong sự kiện DR, việc khôi phục cơ sở hạ tầng ảo hóa của doanh nghiệp càng sớm càng tốt là điều quan trọng, trước khi bất kỳ thiệt hại nghiêm trọng nào xảy ra. Chuyển đổi dự phòng (Failover) chuyển đổi trở lại (Failback) có thể giúp đảm bảo doanh nghiệp của bạn tiếp tục hoạt động bình thường, ngay cả khi trung tâm sản xuất chính bị ảnh hưởng bởi thảm họa.

Chuyển đổi dự phòng là gì?

Chuyển đổi dự phòng là quá trình chuyển các tải công việc quan trọng từ trung tâm sản xuất chính sang một vị trí ngoài trung tâm và khôi phục hệ thống tại đó. Mục tiêu chính của chuyển đổi dự phòng là giảm thiểu tác động tiêu cực của thảm họa hoặc gián đoạn dịch vụ đối với các dịch vụ kinh doanh và khách hàng. Khi gặp sự cố phần mềm hoặc phần cứng, bạn có thể nhanh chóng khôi phục máy ảo (VM) bị ảnh hưởng bằng cách chuyển đổi sang bản sao của nó.

Chuyển đổi dự phòng bằng bản sao VM

Trong quá trình chuyển đổi dự phòng, bản sao VM tại một địa điểm từ xa sẽ được khởi động để thay thế cho VM gốc tại trung tâm sản xuất. Bạn có thể chuyển đổi sang điểm khôi phục mới nhất, vốn đại diện cho trạng thái của VM tại một thời điểm cụ thể. Chạy các tác vụ sao chép thường xuyên nhất có thể cho phép bạn tạo nhiều điểm khôi phục, đảm bảo mất mát dữ liệu tối thiểu trong trường hợp thảm họa. Chuyển đổi sang bản sao là giải pháp tiết kiệm chi phí phù hợp cho việc khôi phục thảm họa trong trường hợp hỏng hóc phần cứng hoặc phần mềm.

Cụm chuyển đổi dự phòng

Một cụm chuyển đổi dự phòng đại diện cho một nhóm máy tính độc lập làm việc cùng nhau để đảm bảo tính sẵn sàng cao của ứng dụng và dịch vụ. Một cụm chuyển đổi dự phòng bao gồm hai hoặc nhiều máy chủ (hoặc nút) được kết nối với nhau, trên đó các máy ảo (VM) đang chạy, cùng với một bộ lưu trữ chung, nơi lưu trữ các tệp của máy ảo. Nếu một trong các máy chủ gặp sự cố, các máy ảo đó sẽ được khôi phục trên một máy chủ khác. Cụm chuyển đổi dự phòng chỉ bảo vệ các máy ảo khỏi sự cố phần cứng. Cụm chuyển đổi dự phòng tốn kém hơn so với phương án chuyển đổi dự phòng sang bản sao. Tuy nhiên, nó đảm bảo thời gian ngừng hoạt động gần như bằng không, vì các VM sẽ tự động được khởi động tại vị trí thứ cấp khi thảm họa xảy ra.

Failback là gì?

Sau khi khôi phục lại trang web chính sau thảm họa và giải quyết các vấn đề liên quan, bạn có thể chuyển các hoạt động kinh doanh trở lại VM gốc.

Failback giúp khôi phục VM gốc trên máy chủ nguồn (hoặc tại một vị trí mới do bạn lựa chọn) và chuyển các tải công việc từ bản sao VM trở lại VM gốc. Tuy nhiên, một số thay đổi có thể đã xảy ra trong bản sao VM kể từ khi chuyển đổi dự phòng. Do đó, máy ảo gốc và bản sao VM phải được đồng bộ hóa trước khi thực hiện chuyển đổi trở lại để không mất thông tin quan trọng. Trong quá trình chuyển đổi trở lại, chỉ dữ liệu đã thay đổi mới được gửi trở lại hệ thống gốc.

Quy trình Chuyển đổi Dự phòng và Chuyển đổi Trở lại như một phần của Phục hồi Thảm họa

Trong sự kiện phục hồi thảm họa, các hoạt động chuyển đổi dự phòng và chuyển đổi trở lại được khởi động. Quy trình được thực hiện như sau:

  1. Máy ảo nguồn tại site sản xuất được sao chép sang site DR. Dữ liệu trên các đĩa ảo của bản sao máy ảo giống hệt dữ liệu trên đĩa ảo của máy ảo nguồn tại thời điểm sao chép. Nếu thảm họa xảy ra (hoặc nếu dự đoán sẽ có thảm họa), quá trình chuyển đổi sang bản sao máy ảo được khởi động.
  2. Trong quá trình chuyển đổi dự phòng, các tải công việc của hệ thống được chuyển sang trang DR. Tuy nhiên, một số thay đổi có thể xảy ra trên bản sao VM khi các hoạt động tiếp tục. Việc lưu trữ dữ liệu này là rất quan trọng vì hệ thống gốc đang ngoại tuyến và không ghi nhận bất kỳ thay đổi nào được thực hiện. Do đó, tất cả các thay đổi chỉ được ghi vào đĩa ảo của bản sao VM.
  3. Khi các hậu quả tiêu cực của thảm họa đã được khắc phục (hoặc mối đe dọa tiềm ẩn đã qua đi), trang chính có thể hoạt động bình thường. Do đó, thao tác failback được thực hiện; tất cả các khối lượng công việc được gửi trở lại từ vị trí DR đến trang web sản xuất và dữ liệu cập nhật được máy ảo nguồn nhận. Máy ảo gốc và bản sao máy ảo sẽ được đồng bộ hóa.

Các phương pháp hay nhất cho việc chuyển đổi dự phòng và khôi phục trong phục hồi thảm họa máy ảo

  • Đảm bảo tuân thủ các quy định. Một số tổ chức xử lý dữ liệu rất nhạy cảm và bí mật, do đó phải tuân thủ các quy định như HIPAA hoặc PCI DSS. Nếu điều này áp dụng cho bạn, thì bạn phải kiểm tra xem các chiến lược phục hồi thảm họa (DR) của mình cho việc chuyển đổi dự phòng và khôi phục có đáp ứng các tiêu chuẩn bảo mật hiện hành hay không.
  • Kiểm tra giấy phép. Xem xét tài liệu phần mềm và xác định xem có bất kỳ hạn chế cấp phép nào trong các bộ ứng dụng của bạn hay không. Nếu có, bạn phải giải quyết các vấn đề này trước và đảm bảo rằng tất cả các yêu cầu đều được đáp ứng.
  • Xác định phạm vi kế hoạch DR của bạn. Phạm vi của kế hoạch DR cho máy ảo (VM) xác định các hệ thống cần được bảo vệ, xác định kết quả mong đợi cũng như bất kỳ hạn chế nào có thể xảy ra. Đảm bảo rằng môi trường ảo của bạn có đủ khả năng kỹ thuật để đáp ứng tất cả các khía cạnh của kế hoạch.
  • Chọn giải pháp bảo vệ dữ liệu đáng tin cậy. Việc cài đặt giải pháp bảo vệ dữ liệu có giấy phép hợp lệ trong môi trường ảo là yếu tố quan trọng để đảm bảo hiệu suất tối ưu và tích hợp mượt mà. Đối với mục đích lập kế hoạch DR, bạn cần xác định thời gian sản phẩm mất bao lâu để khôi phục hạ tầng ảo và đưa tất cả hoạt động trở lại trang web sản xuất.
  • Xác định người chịu trách nhiệm cho quá trình chuyển đổi dự phòng (failover) và khôi phục (failback). Ban quản lý nên chỉ định các thành viên của đội phục hồi và giao nhiệm vụ cụ thể cho từng thành viên. Xác định ai chịu trách nhiệm giám sát các hoạt động chuyển đổi dự phòng và khôi phục để tránh nhầm lẫn trong tình huống phục hồi thực tế khi cần thiết.
  • Đào tạo nhân viên CNTT về các hoạt động chuyển đổi dự phòng và khôi phục. Tiếp theo điểm trước đó, đảm bảo rằng nhân viên CNTT của bạn có kiến thức và trình độ cần thiết để thực hiện các hoạt động chuyển đổi dự phòng và khôi phục. Những nhân viên chịu trách nhiệm phải được chuẩn bị đầy đủ trong trường hợp mọi việc không diễn ra như kế hoạch; họ phải có sự hiểu biết vững chắc về các hoạt động để có thể thích ứng phù hợp và xử lý bất kỳ vấn đề nào phát sinh.
  • Xem xét các Thỏa thuận Mức độ Dịch vụ (SLAs). Thỏa thuận mức độ dịch vụ là một hợp đồng giữa nhà cung cấp dịch vụ và khách hàng của họ, xác định các yêu cầu và tiêu chuẩn dịch vụ mà nhà cung cấp được kỳ vọng phải đáp ứng. Do đó, hãy đảm bảo rằng các thỏa thuận cấp độ dịch vụ (SLAs) của bạn luôn được cập nhật và phạm vi áp dụng của chúng bao gồm cả môi trường khôi phục thảm họa (DR).
  • Xác định Các tổ chức đào tạo được công nhận (RTO) Các tổ chức cung cấp dịch vụ tuyển dụng (RPO) . Mục tiêu thời gian khôi phục (RTO) là khoảng thời gian mà các hoạt động kinh doanh phải được khôi phục sau thảm họa nhằm ngăn chặn những thiệt hại nghiêm trọng và tổn thất quan trọng. Mục tiêu điểm khôi phục (RPO) biểu thị lượng dữ liệu (được đo bằng thời gian) có thể bị mất mà không gây ra mức độ thiệt hại không thể chấp nhận được cho doanh nghiệp của bạn. RPO về cơ bản là thời điểm xa nhất trong quá khứ mà các máy ảo (VM) của bạn có thể được khôi phục lại trong trường hợp xảy ra thảm họa. RTO và RPO của bạn nên được thiết lập chủ yếu dựa trên các ưu tiên của tổ chức trong tình huống thảm họa. Mặc dù việc tăng tần suất các tác vụ sao lưu và nhân bản có thể tốn thời gian và tài nguyên, nhưng nó cải thiện đáng kể RPO của bạn. RTO ngắn hơn nên được gán cho các thành phần có mức độ ưu tiên cao nhất, những thành phần này cần được khôi phục trước tiên. Lưu ý rằng RTO và RPO nên được thiết lập riêng biệt cho các ứng dụng và máy ảo (VM).
  • Xem xét khả năng chuyển đổi trung tâm dữ liệu dự phòng (DR) thành trung tâm dữ liệu chính. Doanh nghiệp của bạn có thể bị ảnh hưởng bởi một thảm họa lớn khiến việc khôi phục trung tâm dữ liệu chính trở nên bất khả thi. Do đó, hãy xem xét khả năng chuyển đổi trung tâm dữ liệu dự phòng (DR) thành trung tâm dữ liệu chính, để bạn có thể chuẩn bị sẵn sàng cho một sự kiện có quy mô như vậy từ trước. Rõ ràng, đây là một giải pháp tốn kém, tiêu tốn lượng lớn tài nguyên và đi kèm với chi phí lớn về thiết bị, phần mềm và cơ sở hạ tầng. Việc xem xét những gì cần thực hiện có thể mang lại lợi ích, ngay cả khi bạn chưa triển khai kế hoạch ngay lập tức.
  • Kiểm tra các hoạt động chuyển đổi dự phòng. Bằng cách kiểm tra quy trình chuyển đổi dự phòng, bạn có thể xác minh xem hạ tầng ảo của mình có thể được khôi phục đúng cách tại trang DR hay không và đảm bảo các ứng dụng đã cài đặt sẵn có thể hoạt động thành công ngay cả khi trang sản xuất bị vô hiệu hóa.
  • Kiểm tra các hoạt động chuyển đổi trở lại. Như vậy, bạn có thể đảm bảo rằng các hoạt động của công ty có thể được khôi phục thành công từ địa điểm DR về địa điểm ban đầu.
  • Kiểm tra toàn bộ kế hoạch DR. Việc kiểm tra toàn bộ kế hoạch DR cũng rất đáng giá; nó có thể giúp xác định các điểm yếu trong kế hoạch bằng cách mô phỏng một sự kiện DR. Nhờ đó, bạn có thể cải thiện và điều chỉnh các chiến lược DR mà tổ chức của bạn đang áp dụng. Một kế hoạch DR (Khôi phục sau thảm họa) thiếu sót và lỗi thời có thể gây gián đoạn đáng kể đến tính liên tục trong hoạt động kinh doanh của tổ chức bạn.

Chuyển đổi dự phòng và khôi phục trong NAKIVO Backup & Replication

NAKIVO Backup & Replication cung cấp một tính năng độc quyền Khôi phục trang web , cho phép bạn tạo các quy trình khôi phục tự động (hoặc tác vụ) với bất kỳ mức độ phức tạp nào. Các quy trình khôi phục trang web (SR) bao gồm các chuỗi hành động tùy chỉnh, chẳng hạn như chuyển đổi dự phòng, chuyển đổi trở lại, khởi động/dừng máy ảo, chạy/dừng tác vụ, gắn/tháo kho lưu trữ, v.v. Các hành động này có thể được sắp xếp theo bất kỳ thứ tự nào để tự động hóa và điều phối toàn bộ quy trình DR. Hơn nữa, bạn có thể dễ dàng sửa đổi, bổ sung hoặc kiểm tra các tác vụ SR của mình bất cứ lúc nào mà không làm gián đoạn môi trường sản xuất. Do đó, ngay cả kế hoạch DR phức tạp nhất cũng có thể được xây dựng, kiểm thử và triển khai một cách trơn tru nhờ sử dụng các quy trình SR.

Chuyển đổi dự phòng trong Phục hồi thảm họa

Hành động chuyển đổi dự phòng là một phần không thể thiếu của hầu hết các quy trình SR. Phục hồi site liên quan đến chuyển đổi dự phòng chỉ có thể được thực hiện nếu bạn đã tạo sẵn các bản sao của các máy ảo nguồn cần bảo vệ; những bản sao này sẽ được sử dụng làm đích cho quá trình chuyển đổi dự phòng khi thảm họa xảy ra. Tải công việc được chuyển từ máy ảo nguồn tại site sản xuất bị ảnh hưởng sang bản sao máy ảo tại site phục hồi thảm họa.

NAKIVO Backup & Replication đã trình bày ba loại chuyển đổi dự phòng:

  • Chuyển đổi dự phòng có kế hoạch được sử dụng để bảo vệ chủ động hệ thống của bạn khi có mối đe dọa tiềm ẩn hoặc nếu dự kiến xảy ra thảm họa. Nếu bạn được thông báo về các nguy cơ thời tiết hoặc có sự cố mất điện được lên lịch trong khu vực, bạn có thể khởi động chuyển đổi dự phòng có kế hoạch. Trong trường hợp này, giải pháp đồng bộ hóa dữ liệu giữa máy ảo nguồn và bản sao của nó trước khi chuyển tải công việc sang bản sao; do đó, mất dữ liệu được ngăn chặn hoàn toàn.
  • Chuyển đổi dự phòng thử nghiệm giúp bạn xác định xem các chiến lược chuyển đổi dự phòng của bạn có hoạt động hiệu quả hay không và liệu chúng có thể được tin cậy trong trường hợp xảy ra sự cố DR hay không. Kiểm tra chuyển đổi dự phòng được thực hiện tương tự như chuyển đổi dự phòng theo kế hoạch, ngoại trừ việc tất cả các thay đổi được thực hiện trong chế độ kiểm tra sẽ được khôi phục ngay lập tức để không gây gián đoạn trong môi trường chính. Hơn nữa, bạn có thể kiểm tra xem quy trình làm việc của mình có chạy đủ nhanh trong sự cố DR hay không. NAKIVO Backup & Replication cho phép bạn đặt RTO cho tác vụ khôi phục trang web của mình. Nếu tác vụ mất nhiều thời gian hơn thời gian đã đặt để hoàn thành, thì thử nghiệm được coi là thất bại. Báo cáo thử nghiệm/chạy thử sẽ được gửi qua email; bạn có thể xem xét báo cáo này để xác định các điểm yếu trong kế hoạch DR của mình và khắc phục chúng.
  • Chuyển đổi khẩn cấp sẽ được thực hiện ngay lập tức sau khi thảm họa xảy ra tại cơ sở sản xuất và không thể kết nối với máy ảo nguồn. Với NAKIVO Backup & Replication, bạn có thể di chuyển khối lượng công việc từ cơ sở chính sang cơ sở DR chỉ bằng một cú nhấp chuột. Do đó, thời gian ngừng hoạt động được đảm bảo ở mức tối thiểu, mặc dù một số dữ liệu có thể bị mất.

Bảo vệ lại các máy ảo tại trang DR

Sau khi quá trình chuyển đổi dự phòng hoàn tất, bạn nên đảm bảo rằng các bản sao máy ảo đang chạy tại trang DR của bạn được bảo vệ. Các bản sao máy ảo cũng có thể bị hỏng, và nếu không có bản sao nào khác, sẽ không thể khôi phục chúng ngay lập tức.

Tuy nhiên, NAKIVO Backup & Replication đảm bảo rằng cơ sở hạ tầng ảo của bạn được bảo vệ lại sau sự cố DR. Chỉ cần sao chép các máy ảo đang chạy tại trung tâm DR sang một vị trí khác. Nhờ đó, bạn có thể dễ dàng chuyển sang bản sao máy ảo mới nếu xảy ra sự cố bất ngờ. Bạn có thể cấu hình quy trình làm việc SR để tự động khởi động quá trình sao chép các máy ảo tại trung tâm DR ngay sau khi quá trình chuyển đổi dự phòng hoàn tất, từ đó đảm bảo mức độ bảo vệ cao.

Chuyển trở lại (Failback) trong Phục hồi Thảm họa

Quá trình chuyển trở lại chỉ có thể thực hiện sau khi quá trình chuyển đổi dự phòng đã diễn ra trong quy trình làm việc SR. Sau một thời gian, khi trang web chính đã hoạt động trở lại, bạn có thể tiếp tục các hoạt động trên máy ảo nguồn gốc. Để thực hiện điều này, bạn có thể chuyển trở lại (failback) đến máy ảo này từ bản sao máy ảo đã thay thế máy ảo gốc. Nếu các tải công việc của máy ảo không thể chuyển trở lại trang web sản xuất chính (ví dụ: vì không thể khôi phục), chúng có thể được chuyển đến bất kỳ vị trí mới nào khác do bạn lựa chọn để làm giải pháp lâu dài hơn so với trang web DR.

Quá trình chuyển đổi trở lại có thể được thực hiện ở chế độ sản xuất hoặc chế độ thử nghiệm.

  • Chuyển đổi trở lại ở chế độ thử nghiệm được thiết kế để xác định xem tác vụ SR có thể chạy thành công hay không, mà không gặp sự cố nào trong quá trình chuyển đổi trở lại thực tế. Trong trường hợp này, việc sao chép tăng dần hoặc toàn bộ từ bản sao VM sang VM nguồn chỉ được thực hiện một lần, điều này đủ cho mục đích thử nghiệm. Đảm bảo địa chỉ IP và cài đặt mạng là chính xác. VM nguồn và bản sao VM được đồng bộ hóa để tránh mất dữ liệu, sau đó VM nguồn được bật nguồn. Lưu ý rằng tất cả các thay đổi được thực hiện trên các VM của bạn trong quá trình khôi phục sẽ bị loại bỏ sau khi thử nghiệm hoàn tất và môi trường ảo của bạn được khôi phục về trạng thái trước khi khôi phục. Trong chế độ thử nghiệm, tác vụ khôi phục trang web có thể được thực thi theo yêu cầu hoặc theo lịch trình.
  • Quá trình chuyển đổi ngược (Failback) trong chế độ sản xuất được thực hiện khi bạn muốn khôi phục môi trường sản xuất sau khi chuyển đổi sang chế độ DR. Trong chế độ sản xuất, tác vụ khôi phục trang web chỉ có thể được thực thi theo yêu cầu. Quá trình chuyển đổi ngược trong chế độ sản xuất về cơ bản tuân theo các bước tương tự như trong chế độ thử nghiệm. Tuy nhiên, quá trình sao chép từ bản sao VM sang VM nguồn được thực hiện hai lần để đảm bảo không mất dữ liệu trong quá trình này. Sau khi quá trình sao chép hoàn tất, máy ảo nguồn gốc (tại site sản xuất) sẽ được bật nguồn và bản sao máy ảo tại site DR sẽ được tắt nguồn. (Lưu ý rằng bước cuối cùng này – việc tắt nguồn các bản sao máy ảo DR – chỉ xảy ra trong chế độ sản xuất.)

Kết luận

Hiểu rõ công nghệ đằng sau quá trình chuyển đổi dự phòng (failover) và khôi phục (failback), đồng thời tích hợp chúng vào kế hoạch khôi phục thảm họa cho máy ảo (VM) của bạn, sẽ giúp bảo vệ môi trường ảo của bạn khỏi các sự cố bất ngờ. Chuyển đổi dự phòng (failover) đảm bảo dữ liệu quan trọng được bảo vệ an toàn và tất cả các tải công việc được chuyển sang trang DR một cách nhanh chóng. Khôi phục (failback) cho phép bạn chuyển trở lại từ trang DR về trang sản xuất chỉ với vài cú nhấp chuột. Cùng nhau, các thao tác này giúp bạn đảm bảo mất mát dữ liệu ở mức tối thiểu và giảm thiểu thời gian ngừng hoạt động.

Hãy thử NAKIVO Backup & Replication

Hãy thử NAKIVO Backup & Replication

Đăng ký dùng thử miễn phí để khám phá toàn bộ các tính năng bảo vệ dữ liệu của giải pháp. Dùng thử miễn phí trong 15 ngày. Không có bất kỳ giới hạn nào về tính năng hay dung lượng. Không cần thẻ tín dụng.

People also read