Phục hồi sau thảm họa với NAKIVO: Lập kế hoạch, triển khai và kiểm thử

Sao lưu và khắc phục thảm họa là nền tảng của các chiến lược bảo vệ dữ liệu trong các tổ chức và ngành công nghiệp. Phục hồi sau thảm họa là quá trình khôi phục các máy ảo và các dịch vụ đang chạy trên đó tại một địa điểm dự phòng (được gọi là địa điểm khắc phục thảm họa) khi địa điểm sản xuất không thể truy cập được. Các địa điểm này Các địa điểm dự phòng thứ cấp có thể thuộc các loại khác nhau được trang bị các máy chủ, máy tính và thiết bị mạng dự phòng cùng phần mềm cần thiết, tùy thuộc vào mức độ dự phòng.

NAKIVO Backup & Replication bao gồm chức năng Site Recovery cho phép bạn tạo các chuỗi khôi phục nâng cao (với chuyển đổi dự phòng toàn bộ trang web) có thể được khởi động chỉ bằng một cú nhấp chuột khi trang web chính của bạn ngừng hoạt động. Đọc bài đăng trên blog này để tìm hiểu về các thành phần chiến lược DR quan trọng như lập kế hoạch khắc phục thảm họa CNTT, thử nghiệm và thực hiện khắc phục thảm họa với giải pháp tích hợp của NAKIVO.

Đảm bảo tính sẵn sàng với NAKIVO

Đảm bảo tính sẵn sàng với NAKIVO

Đáp ứng các yêu cầu khắt khe về tính sẵn sàng của dịch vụ trong các hạ tầng ảo. Đạt được các mục tiêu về thời gian hoạt động liên tục nhờ các tính năng điều phối và tự động hóa DR mạnh mẽ.

Bước 1. Lập kế hoạch phục hồi sau thảm họa

Là một bước thiết yếu để phục hồi sau thảm họa hiệu quả, quá trình lập kế hoạch cần bao gồm việc đánh giá nhu cầu phục hồi của tổ chức và xây dựng sự hiểu biết toàn diện về các thành phần, bước thực hiện và quy trình cần được đưa vào quy trình phục hồi sau thảm họa.

Lập kế hoạch phục hồi thảm họa: các thực hành tốt nhất

1. Thực hiện phân tích tác động kinh doanh

Một Phân tích tác động kinh doanh (hay BIA) được sử dụng để xác định tác động tiêu cực tiềm ẩn của các sự cố lớn hoặc thảm họa thiên nhiên đối với hoạt động kinh doanh. Phân tích này bao gồm việc xác định thứ tự ưu tiên cho các máy ảo (VM) khác nhau, trình tự phục hồi và thời gian có sẵn trước khi sự gián đoạn ảnh hưởng đáng kể đến hoạt động kinh doanh. Ví dụ, sự cố của một VM có thể gây ra sự chậm trễ và bất tiện, trong khi sự cố của một VM khác có thể dẫn đến sự gián đoạn hoàn toàn các hoạt động kinh doanh quan trọng.

2. Đánh giá các rủi ro liên quan

Trước khi lập kế hoạch phục hồi thảm họa (DR), hãy thu thập dữ liệu liên quan về các rủi ro đối với hoạt động và tính liên tục của doanh nghiệp. Ở một số khu vực, sự cố mất điện kéo dài hoặc tấn công virus có khả năng xảy ra cao hơn so với bão lốc, nhưng thiên tai lại là hiện tượng phổ biến ở những nơi khác. Việc đánh giá rủi ro giúp bạn xác định mức độ bảo vệ phù hợp trước các mối đe dọa cụ thể và đưa ra các biện pháp để giảm thiểu rủi ro cũng như hạn chế hậu quả. Mặc dù không thể loại bỏ hoàn toàn các rủi ro, bạn sẽ chuẩn bị tốt hơn cho các tình huống thảm họa mà bạn có thể phải đối mặt.

3. Xây dựng tài liệu phục hồi thảm họa

Sau khi xác định được các rủi ro và tác động tiềm tàng của chúng đối với doanh nghiệp, bạn sẽ hiểu rõ hơn về những lĩnh vực cần tập trung nỗ lực để lập kế hoạch cho các quy trình phục hồi thảm họa. Quy trình khôi phục tài liệu, mô tả chi tiết tất cả các bước quan trọng và các biện pháp DR, đồng thời cập nhật tài liệu thường xuyên để phản ánh những thay đổi trong môi trường. Tài liệu nên bao gồm:

  • Disaster recovery scope. Đánh giá tầm quan trọng của từng thành phần phần cứng và phần mềm trong cơ sở hạ tầng của bạn và đưa những thành phần phục vụ cho các hoạt động quan trọng vào kế hoạch khắc phục thảm họa. Các máy ảo chứa thông tin quan trọng, hệ thống CNTT và các ứng dụng có hoạt động thiết yếu để đảm bảo cung cấp dịch vụ liên tục phải là ưu tiên hàng đầu của bạn trong việc khắc phục thảm họa.
  • VM recovery order. Một số máy ảo cụ thể có thể phụ thuộc vào phần mềm hoặc thông tin được lưu trữ trong một máy ảo khác, điều này có nghĩa là chúng không thể hoạt động riêng lẻ hoặc được khởi động ngẫu nhiên. Bạn nên xác định thứ tự khôi phục để tối ưu hóa quá trình khôi phục và loại bỏ rủi ro xung đột phần mềm tại địa điểm DR. Ví dụ, máy ảo (VM) chạy Máy chủ miền Active Directory phải đã được khởi động và hoạt động trước khi bạn có thể khởi động một VM chứa máy chủ tệp sử dụng xác thực Active Directory.

Một ví dụ khác là các dịch vụ web, thường phụ thuộc vào phần mềm được cài đặt trên nhiều máy ảo khác nhau. Có thể cần thực hiện trình tự sau:

  1. Máy ảo chứa máy chủ cơ sở dữ liệu nên được khởi động trước tiên.
  2. Sau đó, có thể khởi động máy ảo (VM) chứa máy chủ ứng dụng.
  3. Chỉ sau đó mới có thể khởi động máy ảo (VM) chứa máy chủ web.
  • RTO and RPO in disaster recovery. Đặt mục tiêu thời gian khôi phục ( Thời gian phục hồi mục tiêu – RTO) và mục tiêu điểm khôi phục ( Mục tiêu điểm khôi phục – RPO) cho các máy ảo (VM) có mức ưu tiên khác nhau trong kế hoạch khôi phục thảm họa. Ví dụ, các máy ảo (VM) chứa hệ thống tài chính có thể có mục tiêu khôi phục ngắn hơn so với những máy ảo (VM) dùng để lưu trữ tài liệu lưu trữ.
  • Dependencies. Khi xác định chuỗi phụ thuộc giữa nhân viên và các thành phần CNTT, hãy làm việc với nhân viên và xem xét họ để tránh các điểm yếu có thể dẫn đến thất bại trong quá trình phục hồi. Ví dụ, một máy ảo được bộ phận kế toán sử dụng có thể cần được phục hồi trước tiên nếu nhân viên ở các bộ phận khác phụ thuộc vào các hoạt động tài chính đó để thực hiện công việc của họ.
  • Staff. Giao vai trò và trách nhiệm cho các thành viên trong nhóm tham gia vào quy trình DR. Nếu họ sẽ làm việc tại địa điểm khôi phục thảm họa (DR), hãy đảm bảo có các trạm làm việc được thiết lập tại đó với đầy đủ thiết bị, nội thất văn phòng và phần cứng cần thiết, để họ có thể tiếp tục công việc với ít gián đoạn nhất. Nếu nhân viên có thể làm việc từ xa trong trường hợp thảm họa, hãy cấu hình truy cập VPN và cung cấp tài khoản VPN trước đó.
  • Hardware requirements. Sự thành công của kế hoạch khôi phục thảm họa phụ thuộc rất lớn vào hiệu suất và khả năng của phần cứng tại địa điểm DR. Một số yếu tố cần được xem xét:
  • Các máy chủ phải có đủ CPU, bộ nhớ và dung lượng đĩa để duy trì các tải công việc được chuyển sang. Hiệu suất CPU thấp và bộ nhớ không đủ có thể ảnh hưởng đến tốc độ của các máy ảo (VM), trong khi tốc độ đĩa không đủ dẫn đến hiệu suất kém của VM.
  • Mạng phải cung cấp đủ băng thông để các máy ảo được khôi phục có thể tương tác với nhau, với bộ nhớ chia sẻ, và với người dùng khi cần thiết.

Bước 2. Chuẩn bị cho việc khôi phục sau thảm họa

Sau khi đã có tài liệu hướng dẫn, bạn có thể tiến hành chuẩn bị cho việc khôi phục sau thảm họa bằng cách thiết lập địa điểm khôi phục và cấu hình sao chép các khối lượng công việc quan trọng sang địa điểm đó. Việc sao chép là cần thiết để Chuyển đổi dự phòng máy ảo sao chép các máy ảo (VM) khi hạ tầng chính gặp sự cố.

Sao chép máy ảo là gì?

Sao chép máy ảo là quá trình tạo ra một bản sao giống hệt của máy ảo nguồn (gọi là “bản sao máy ảo”) trên một máy chủ khác (máy chủ đích). Bản sao VM là một máy ảo thông thường ở trạng thái tắt nguồn cho đến khi cần thiết (lúc đó nó có thể khởi động và hoạt động trên máy chủ của mình gần như ngay lập tức).

Xem cách tạo và cấu hình tác vụ sao chép VMware trong NAKIVO Backup & Replication để biết thêm chi tiết.

Quá trình chuyển đổi tải công việc từ máy ảo nguồn (sản xuất) sang bản sao VM tại địa điểm DR nhằm duy trì tính liên tục của hoạt động kinh doanh và tính sẵn sàng cao được gọi là chuyển đổi dự phòng.

Các phương pháp hay nhất về sao chép VM

một loạt các phương pháp hay nhất về sao chép để đảm bảo độ tin cậy và hiệu quả cao hơn của quy trình. Ở đây, chúng ta sẽ tập trung vào hai điểm chính:

  • Perform VM replication at the {10}. Lớp ảo hóa là lớp trung gian giữa phần cứng vật lý và hệ điều hành khách (guest OS) chạy trên một VM. Việc sao chép được thực hiện ở cấp độ ảo hóa được gọi là sao chép cấp độ máy chủ (host-level) và hiệu quả hơn so với sao chép cấp độ khách (guest-level).
  • Use application-aware replication to avoid data loss. Nếu bản sao lưu (snapshot) của VM cần thiết cho việc sao chép được tạo ra trong khi các ứng dụng đang chạy mà không có bất kỳ hành động bổ sung nào, thì hậu quả sẽ tương tự như mất điện đột ngột và tắt máy, và dữ liệu có thể bị mất.

Với các phương pháp nhận biết ứng dụng, các ứng dụng sẽ được đóng băng (quiesced) và bộ nhớ được xả, đồng thời dữ liệu không thể được ghi vào đĩa trước khi chụp ảnh chụp nhanh. Sau khi ảnh chụp nhanh nhất quán được tạo, bản sao VM có thể được tạo ra. Các bản sao VM này có thể được khôi phục thành công với các ứng dụng bên trong hoạt động bình thường.
NAKIVO Backup & Replication hỗ trợ sao chép cấp máy chủ nhận biết ứng dụng cho các máy ảo VMware, Hyper-V và các bản sao EC2, với các tính năng đặc biệt dành cho Microsoft SQL Server, Exchange Server và Active Directory Domain Controller.

Bước 3. Tạo quy trình khôi phục thảm họa

Để tạo quy trình khôi phục thảm họa, bạn cần một giải pháp khôi phục thảm họa chuyên dụng như NAKIVO Backup & Replication, cung cấp tính năng Site Recovery tích hợp để điều phối và tự động hóa các chuỗi khôi phục thảm họa.

  1. Các hành động
  2. Mạng lưới
  3. Thay đổi địa chỉ IP
  4. Lịch thi
  5. Tùy chọn

Quy trình khôi phục thảm họa là gì?

Quy trình khôi phục thảm họa (DR) là chuỗi các hành động được thực thi như một phần của quy trình khôi phục thảm họa, nhằm chuyển đổi dự phòng các khối lượng công việc sang các bản sao một cách an toàn và nhanh chóng. Quy trình này tổ chức quá trình chuyển đổi dự phòng thông qua các hành động liên quan đến máy ảo nguồn, máy ảo đích, các điều kiện cần đáp ứng, v.v. Bạn cần xác định thứ tự thực thi các hành động, vì một số quy trình khôi phục thảm họa có thể phụ thuộc vào kết quả thực thi của các hành động khác.

Các hành động Site Recovery có sẵn

Chức năng Site Recovery cho phép bạn tạo các chuỗi DR phức tạp bằng cách kết hợp các hành động và điều kiện trong một quy trình làm việc duy nhất. Mỗi hành động có thể được thực thi ở chế độ thử nghiệm, chế độ sản xuất hoặc cả hai chế độ (đây là tùy chọn mặc định) trong NAKIVO Backup & Replication.

Bạn có thể bao gồm bất kỳ hoặc tất cả các hành động sau trong một chuỗi:

  • Failover – khởi động quá trình chuyển đổi sang các bản sao VMware VM, Hyper-V VM hoặc các bản sao EC2.
  • Failback – chuyển các tải công việc từ bản sao VM trở lại VM nguồn. Các thay đổi được thực hiện trên bản sao VM kể từ thời điểm chuyển đổi dự phòng sẽ được ghi vào VM nguồn khi thao tác chuyển đổi trở lại được thực hiện. Các VM được đồng bộ hóa và VM nguồn trở lại trạng thái sản xuất thực tế.
  • Start – khởi động các máy ảo VMware, máy ảo Hyper-V hoặc các bản sao EC2.
  • Stop – dừng các máy ảo VMware, máy ảo Hyper-V hoặc các bản sao EC2 đang chạy.
  • Run job – chạy tác vụ sao lưu, tác vụ sao chép, tác vụ khôi phục site, tác vụ sao chép bản sao hoặc tác vụ khởi động máy ảo Flash.
  • Stop jobs – dừng một tác vụ (bất kỳ tác vụ nào được liệt kê trong mục trước).
  • Run script – chạy một skript trên một trong các mục tiêu sau: máy chủ có Director, máy chủ Windows từ xa, máy chủ Linux từ xa, máy ảo VMware, máy ảo Hyper-V hoặc instance EC2.
  • Attach repository – gắn kho lưu trữ sao lưu được NAKIVO Backup & Replication sử dụng để lưu trữ các bản sao lưu.
  • Detach repository – tách kho lưu trữ sao lưu.
  • Send email – gửi email với nội dung bạn soạn thảo đến một hoặc nhiều người nhận đã định nghĩa.
  • Wait – chờ trong khoảng thời gian đã chỉ định trước khi chuyển sang hành động tiếp theo.
  • Check condition – dựa trên đầu vào của bạn (toàn bộ hoặc một phần tên tài nguyên), kiểm tra một trong các điều kiện sau:
  • Tài nguyên tồn tại
  • Tài nguyên là đang chạy
  • IP/Tên máy chủ có thể truy cập được

Cách xây dựng quy trình làm việc Site Recovery

Hãy xem một ví dụ về cách tạo tác vụ Site Recovery trong NAKIVO Backup & Replication.

Cấu hình của chúng ta

Dưới đây là cấu hình mà chúng ta sẽ xem xét: một trang web chính (sản xuất) với các máy ảo VMware vSphere và một trang web DR tại một vị trí từ xa:

  • DC-VM là một máy ảo chạy Windows đang chạy Bộ điều khiển miền Active Directory.
  • FS-VM là một máy ảo chạy trên nền tảng Windows với máy chủ tệp đang hoạt động (giao thức SMB được sử dụng để chia sẻ tệp). Active Directory được sử dụng để xác thực người dùng. Các bản sao lưu cơ sở dữ liệu Oracle được lưu trữ trên máy chủ tệp.
  • Ora-DB là máy ảo trên đó cơ sở dữ liệu Oracle đang chạy.

VMs at this production site are running, while the VMs and ESXi host at the DR site remain powered off

Trang web phục hồi thảm họa chứa các máy ảo sau:

  • DC-VM-replica FS-VM-replica là các bản sao của các máy ảo sản xuất. Chúng có thể được sử dụng làm đích cho việc chuyển đổi dự phòng.
  • DB-VM là một máy ảo dựa trên Linux với Phần mềm cơ sở dữ liệu Oracle đã được cài đặt nhưng không chứa cơ sở dữ liệu.

Cơ sở dữ liệu được sao lưu bằng NAKIVO Backup & Replication ở cấp độ cơ sở dữ liệu sang FS-VM trên trang web sản xuất (điều này Sao lưu cơ sở dữ liệu Oracle là nhất quán với ứng dụng). FS-VM DC-VM được sao chép ở cấp độ máy chủ đến trang DR bằng giải pháp NAKIVO.

Thứ tự khôi phục VM

Trong trường hợp xảy ra sự cố khiến trang sản xuất ngừng hoạt động, các thành phần phải được khôi phục tại trang DR như sau:

  1. Chuyển đổi dự phòng của DC-VM sang DC-VM-replica.

Disaster recovery failover to the first VM replica is performed at the DR site

  1. Khi DC-VM-replica đã hoạt động, chuyển đổi dự phòng từ FS-VM sang FS-VM-replica . Bạn phải thực hiện theo thứ tự này vì FS-VM phụ thuộc vào DC-VM để xác thực người dùng trên máy chủ tệp.
  2. Khi hai máy ảo này đã chạy, DB-VM có thể truy cập thư mục chia sẻ trên máy chủ tệp nơi lưu trữ bản sao lưu. Bây giờ DB-VM có thể được khởi động.

Disaster recovery failover to the second VM replica, which is dependent on the first VM replica, is performed after the first VM replica has started

  1. Khi DB-VM đã chạy, hãy chạy một tập lệnh có thể khôi phục cơ sở dữ liệu từ bản sao lưu nằm trên máy chủ tệp. Các mũi tên màu xanh lam trong sơ đồ trên cho thấy các mối quan hệ phụ thuộc.

Lưu ý rằng có thể cần một khoảng thời gian để các dịch vụ khởi động trên bản sao VM đã được bật nguồn sau hành động chuyển đổi dự phòng và trước khi chuyển sang bản sao tiếp theo hoặc khôi phục ứng dụng hoặc cơ sở dữ liệu. Thời gian chờ này cần được đưa vào chuỗi thao tác khôi phục thảm họa (DR).

Đối với quy trình chuyển đổi dự phòng máy ảo (VM) này, bạn cần tạo một tác vụ Site Recovery trong NAKIVO Backup & Replication với logic sau:

  • Action 1: Chuyển đổi dự phòng máy ảo DC (DC-VM) . Chờ cho đến khi thao tác này hoàn tất trước khi chuyển sang bước tiếp theo. Dừng tác vụ nếu hành động này thất bại.
  • Action 2. Chờ trong 3 phút.
  • Action 3. Kiểm tra điều kiện của bản sao DC-VM . Kiểm tra xem tài nguyên có đang chạy không. Nếu tài nguyên đang chạy, tiếp tục sang hành động tiếp theo trong tác vụ Site Recovery. Nếu không, dừng và hủy tác vụ.
  • Action 4. Chuyển đổi dự phòng FS-VM . Chờ cho đến khi hành động này hoàn tất trước khi tiếp tục sang hành động tiếp theo. Dừng công việc nếu thao tác này thất bại.
  • Action 5. Chờ trong 3 phút.
  • Action 6. Kiểm tra trạng thái của FS-VM-replica . Nếu tài nguyên đang chạy, tiếp tục đến thao tác tiếp theo của công việc Site Recovery. Nếu không, dừng và báo lỗi công việc.
  • Action 7. Khởi động DB-VM . Chờ cho đến khi thao tác này hoàn tất trước khi tiếp tục đến thao tác tiếp theo. Dừng công việc nếu thao tác này thất bại.
  • Action 8. Chờ trong 5 phút.
  • Action 9. Chạy tập lệnh . Loại mục tiêu: Máy ảo VMware. Máy ảo mục tiêu: DB-VM. Đường dẫn tập lệnh: /home/oracle/restore_db.sh (khi thêm bước này, bạn phải nhập tên người dùng và mật khẩu của tài khoản có đủ quyền để chạy tập lệnh).

Hướng dẫn thực hiện Site Recovery của NAKIVO

Hãy tạo một tác vụ Site Recovery mới dựa trên kế hoạch được nêu ở trên. Trên trang Jobs của phiên bản NAKIVO Backup & Replication của bạn, nhấp vào Create > Site recovery job.

Backup and disaster recovery - creating a new Site Recovery job

1. Các hành động

Trình hướng dẫn tạo công việc Site Recovery mới sẽ được khởi chạy. Trong bảng điều khiển bên trái, bạn có thể tìm thấy các hành động có thể thêm vào công việc. Chỉ cần nhấp vào một hành động để thêm nó vào chuỗi. Lưu ý rằng bạn không thể kết hợp các hành động dành cho các nền tảng khác nhau trong cùng một chuỗi (chúng ta đang tạo công việc cho các máy ảo VMware).

Hành động 1. Chuyển đổi dự phòng DC-VM

  1. Trong bảng điều khiển bên trái, nhấp vào Failover VMware VMs.

Adding Failover VMware VMs action

  1. Trong bảng điều khiển bên trái, chọn bản sao máy ảo từ một tác vụ sao chép hiện có. Trong quy trình làm việc của chúng ta, chuyển đổi dự phòng sang DC-VM-replica là hành động đầu tiên. Trong bảng điều khiển bên phải, bạn có thể chọn điểm khôi phục. Điểm khôi phục mới nhất được sử dụng theo mặc định.

Nhấp vào Next để tiếp tục. Choosing the VM for a disaster recovery failover action in the framework of site recovery

  1. Đối với các tùy chọn khôi phục thảm họa và chuyển đổi dự phòng , bạn có thể bỏ chọn Power off source VMs – tùy chọn này có thể được sử dụng để ngăn chặn xung đột địa chỉ IP nếu các máy ảo nguồn và bản sao sử dụng cùng một mạng.

Dựa trên logic được nêu ở trên, chúng ta chọn các tùy chọn sau:

  • Thực thi hành động này trong: Run this action in both testing and production mode
  • Hành vi chờ: Wait for this action to complete
  • Xử lý lỗi: Stop and fail the job if this action fails

Nhấp vào Save để lưu hành động đã tạo.
Options for the VM disaster recovery failover action

Hành động 2. Chờ 3 phút

Một hành động chờ là hữu ích trong trường hợp này vì hành động chuyển đổi dự phòng tiếp theo trong quy trình làm việc (chuyển đổi dự phòng sang FS-VM-replica ) sẽ yêu cầu DC-VM-replica phải đang hoạt động và đã chạy với Dịch vụ miền Active Directory.

  1. Trong khung bên trái của màn hình Actions , nhấp vào Wait.

Adding a “Wait” action

  1. Chọn thời gian chờ (chúng tôi đang sử dụng 3 phút ).

Chọn các tùy chọn hành động như bạn đã làm cho hành động đầu tiên và nhấp vào Save.
Configuring the “Wait” action

Hành động mới được thêm vào sau hành động trước đó, ở cuối danh sách. Bạn có thể sắp xếp lại, chỉnh sửa hoặc xóa các hành động. Chỉ cần di chuột qua một hành động để xem các tùy chọn.

Hành động 3. Kiểm tra trạng thái của DC-VM-replica

  1. Trong khung bên trái của màn hình Hành động , nhấp vào Check condition để kiểm tra xem máy ảo (VM) đã được chuyển đổi trong hành động đầu tiên có đang chạy hay không.

Adding the “Check condition” action to the disaster recovery process

  1. Cấu hình hành động này như sau:
  • Chọn loại điều kiện: Resource is running. Các tùy chọn khác là tài nguyên tồn tại hoặc IP/tên máy chủ có thể truy cập được.
  • Chọn loại tài nguyên: VMware VM.
  • Chọn phương pháp xác định: Name (tùy chọn khác là ID ) để xác định máy ảo (VM) cần kiểm tra. Bạn có thể sử dụng bất kỳ phần nào của chuỗi tên VM. Ở đây, chúng ta biết chính xác tên, nên sử dụng hàm Equals .
  • Định nghĩa chuỗi tìm kiếm: DC-VM-replica.

Bây giờ chúng ta có một hành động kiểm tra xem máy ảo VMware có tên DC-VM-replica có đang chạy hay không. Nhấp vào Save để tiếp tục.
Configuring the “Check condition” action for a disaster recovery process

Hành động 4. Chuyển đổi dự phòng FS-VM

  1. Tương tự như đối với Hành động 1 , nhấp vào Failover VMware VMs.

Adding another “Failover VMware VMs” action for a disaster recovery process

  1. Trong trường hợp này, chúng ta chọn FS-VM-replica . Nhấp vào Next, sau đó chọn các tùy chọn tương tự cho hành động chuyển đổi dự phòng như bạn đã thực hiện trong Hành động 1 và nhấp vào Save.

Adding the VM replica for the disaster recovery failover action

Hành động 5. Chờ 3 phút

Nhấp vào Wait và cấu hình hành động này giống như bạn đã làm với hành động 2 . Thời gian được chỉ định trong trường hợp của chúng ta vẫn là 3 phút .

Hành động 6. Kiểm tra trạng thái của FS-VM-replica

Nhấp vào Check condition để kiểm tra xem máy ảo VMware FS-VM-replica có đang chạy hay không. Tham khảo hành động 2 và chọn các tùy chọn tương tự – tất nhiên là ngoại trừ tên máy ảo.

Hành động 7. Khởi động DB-VM

  1. Nhấp vào Start VMware VMs trong khung bên trái của màn hình Actions .

The current list of actions (disaster recovery procedures) for a Site Recovery job

  1. Chọn DB-VM . Máy ảo này có thể được khởi động sau khi bạn chắc chắn rằng FS-VM-replica đang chạy. Ở cuối trang, chọn các tùy chọn hành động tương tự như trong các hành động trước đó. Sau đó nhấp vào Save.

Selecting the VM for a Start VM action

Hành động 8. Chờ 5 phút

Chờ 5 phút. Nhấp vào Wait và cấu hình hành động này tương tự như đối với hành động 2 . Thời gian này đủ để khởi động dịch vụ Oracle trên DB-VM .

Hành động 9. Chạy tập lệnh

  1. Trên màn hình Hành động nhấp vào Run script. Lưu ý rằng tập lệnh này nhằm khôi phục cơ sở dữ liệu Oracle ở cấp độ cơ sở dữ liệu từ bản sao lưu được lưu trữ trên FS-VM-replica .

Adding the Run script action

  1. Xác định các tùy chọn tập lệnh. Trong trường hợp của chúng ta:
  • Loại mục tiêu: VMware VM
  • VM mục tiêu: DB-VM
  • Đường dẫn tập lệnh: /home/oracle/restore.db.sh
  • Tên người dùng: oracle
  • Mật khẩu: (password)

Đường dẫn tập lệnh, tên người dùng và mật khẩu của bạn sẽ khác. Đừng quên đảm bảo rằng tệp kịch bản có thể thực thi và người dùng có đủ quyền để chạy kịch bản. Các tùy chọn hành động được cấu hình như bình thường trong ví dụ này.

Nhấp vào Save khi bạn sẵn sàng tiếp tục.

Configuring the Run script action

  1. Bây giờ bạn có thể xem tất cả các hành động đã được cấu hình. Nhấp vào nút Next để tiếp tục cấu hình công việc Site Recovery dựa trên kế hoạch khôi phục thảm họa của bạn.

Finalizing configuration of the actions (disaster recovery procedures) for a Site Recovery job workflow

2. Mạng

Nếu các máy ảo tại site sản xuất và site khôi phục thảm họa là kết nối với các mạng khác nhau, hãy chọn Enable network mapping. Nhấp vào Create new mapping, trong cửa sổ bật lên, chọn mạng nguồn, mạng đích và mạng để sử dụng cho việc kiểm tra công việc Site Recovery.
Nhấp vào Save để lưu quy tắc ánh xạ mạng, sau đó nhấp vào Next.

Lưu ý : Bạn cũng có thể sử dụng các quy tắc ánh xạ hiện có nếu đã định cấu hình chúng trong các tác vụ sao chép, chuyển đổi dự phòng hoặc Site Recovery khác.

Configuring network mapping for a site recovery job

3. Re-IP

Nếu các mạng được sử dụng để kết nối máy ảo tại vị trí nguồn và vị trí đích có địa chỉ khác nhau, thì bạn nên bật Re-IP bằng cách chọn Enable Re-IP.

  1. Tạo quy tắc Re-IP mới bằng cách nhấp vào Create new rule. Xác định cài đặt nguồn và cài đặt đích, sau đó nhấp vào Save.

Creating a new Re-IP rule

  1. Nhấp vào Select VMs và chọn các máy ảo (VM) mà bạn muốn áp dụng Re-IP. Bạn cần cung cấp thông tin đăng nhập của người dùng có quyền hạn đủ để thay đổi cài đặt mạng trong hệ điều hành khách của VM.

Setting credentials for a Re-IP rule

4. Lịch trình thử nghiệm

Bạn có thể tạo lịch trình riêng biệt để chạy các tác vụ Site Recovery ở chế độ thử nghiệm và thực hiện kiểm tra khôi phục thảm họa. Điều này cho phép bạn kiểm tra xem tác vụ có thể được thực thi thành công trong khung thời gian yêu cầu hay không. Khi hoàn tất, nhấp vào Next.
Chúng ta sẽ thảo luận chi tiết hơn về việc kiểm tra tác vụ Site Recovery trong bước 6.

Configuring schedule options for disaster recovery testing with Site Recovery

5. Tùy chọn

Nhập tên tác vụ và mục tiêu thời gian khôi phục. Nhấp vào Finish khi hoàn tất cấu hình.

Configuring job options for site recovery and finalizing job configuration

Bước 4. Bảo vệ lại môi trường

Sau khi các máy ảo (VM) đã được chuyển đổi và các tải công việc được di chuyển đến trang DR, các máy ảo sản xuất ban đầu hiện đã ngừng hoạt động, và các bản sao tại trang DR hiện là các bản sao duy nhất còn hoạt động. Nếu một bản sao VM đang hoạt động bị lỗi, bạn sẽ không thể khôi phục dữ liệu và tải công việc một cách nhanh chóng.

Để bảo vệ các VM đang chạy tại trang DR, bạn nên sao chép các VM này sang một vị trí an toàn khác. Như vậy, nếu VM đang chạy tại trang DR bị lỗi, bạn có thể chuyển đổi sang bản sao VM mới một cách nhanh chóng.

Chức năng Site Recovery cho phép bạn cấu hình sao chép tự động ngay sau khi quá trình chuyển đổi VM hoàn tất. Dưới đây là ví dụ hướng dẫn cách bảo vệ lại các máy ảo bằng tác vụ Site Recovery sau khi chuyển đổi dự phòng.

  1. Trên trang Jobs , nhấp chuột phải vào tên tác vụ Site Recovery mà bạn vừa tạo. Nhấp vào Edit trong menu ngữ cảnh.

Editing an existing site recovery job

  1. Bạn có thể thấy các hành động chuyển đổi dự phòng đã được thêm vào tác vụ Site Recovery trước đó. Tìm và nhấp vào Run jobs từ danh sách hành động nằm ở bảng điều khiển bên trái của màn hình Site Recovery Actions .

Adding a “Run jobs” action to add a VM disaster recovery replication job

  1. Chọn tác vụ sao chép từ danh sách tác vụ. Chọn các tùy chọn hành động như bình thường và nhấp vào Save.

Selecting an existing replication job for a “Run job” action

  1. Thêm hành động Wait giữa hành động chuyển đổi dự phòng và tác vụ sao chép. Điều này giúp bản sao máy ảo có thời gian khởi động và tải hệ điều hành (bạn không thể sao chép một máy ảo đang tắt nguồn). Trong danh sách Hành động ở khung bên trái, nhấp vào Wait.

Adding a “Wait” action to a site recovery job

  1. Chọn thời gian chờ – 5 phút là đủ. Chọn các tùy chọn hành động và nhấp vào Save.

Configuring time to wait and action options

  1. Khi bạn thêm hành động, nó sẽ được thêm vào cuối danh sách hành động. Nhấp vào Move up và di chuyển hành động Wait từ vị trí thứ tư sang vị trí thứ ba – hành động này cần diễn ra trước khi sao chép.

Moving up the “Wait” action
Bây giờ các hành động đã được sắp xếp theo thứ tự cần thiết.
A list of actions included to the site recovery job

  1. Cuối cùng, tác vụ Site Recovery đã sẵn sàng để thực hiện chuyển đổi dự phòng máy ảo và tự động bảo vệ lại các bản sao máy ảo được sử dụng cho chuyển đổi dự phòng. Nhấp chuột phải vào tên tác vụ Site Recovery của bạn trên trang chủ và nhấp vào Run job trong menu ngữ cảnh.

Running a site recovery job for re-protection using disaster recovery replication

Bước 5. Chuyển đổi trở lại (Failback)

Chuyển đổi trở lại là quá trình khôi phục các máy ảo về trạng thái mới nhất từ trang DR trở lại trang sản xuất ban đầu hoặc một trang sản xuất mới. Để hiểu tại sao bạn cần chuyển đổi trở lại, hãy tóm tắt lại cách thức hoạt động của chuyển đổi dự phòng:

  1. Khi thảm họa xảy ra (hoặc được dự báo sẽ xảy ra), quá trình chuyển đổi dự phòng sang bản sao VM sẽ được thực hiện.

Disaster recovery failover to replica is performed after disaster

  1. Bất kỳ thay đổi nào đối với máy ảo (ví dụ: các giao dịch được thêm vào cơ sở dữ liệu khi khách hàng thực hiện mua hàng trực tuyến) đều được ghi vào đĩa ảo của bản sao máy ảo. Một số khối được ghi, trong khi những khối khác bị xóa. Đĩa ảo của máy ảo nguồn không chứa các giao dịch đó.

All changes are written to a VM replica after disaster recovery and failover

  1. Khi sự cố đã được giải quyết và trang web sản xuất hoạt động trở lại, các tải công việc phải được đưa trở lại trang web sản xuất. Dữ liệu cập nhật của bản sao máy ảo phải được chuyển trở lại máy ảo nguồn. Các VM phải được đồng bộ hóa lại bằng cách sử dụng sao chép ngược thông qua failback.

Replication from a VM replica to the original source VM is performed during failback

Cấu hình failback trong NAKIVO Backup & Replication

Failback có thể được thực hiện ở chế độ sản xuất hoặc chế độ thử nghiệm (khi tất cả các thay đổi trong môi trường ảo do hành động failback gây ra sẽ được khôi phục về trạng thái trước khi failback sau khi thử nghiệm).

Hãy xem xét chi tiết cách thức hoạt động của từng trường hợp.

  Production failback Test failback
1 Tắt nguồn máy ảo nguồn ban đầu (nếu máy ảo này tồn tại và đang hoạt động).
2

Tạo bản sao lưu bản sao lưu dự phòng của máy ảo nguồn (nếu máy ảo nguồn đang hoạt động).

Việc tạo bản sao lưu này cho phép bạn khôi phục trạng thái trước khi chuyển đổi dự phòng của máy ảo nguồn trong trường hợp không thể thực hiện chuyển đổi trở lại đúng cách.

3 Chạy sao chép theo từng phần (nếu máy ảo nguồn gốc đang hoạt động tại môi trường sản xuất) hoặc sao chép toàn bộ (nếu máy ảo đang được khôi phục sang một môi trường sản xuất mới).
4 Tắt nguồn bản sao máy ảo (tùy chọn). Bản sao máy ảo được sử dụng để chạy các tác vụ và không bị tắt nguồn.
5 Chạy sao chép gia tăng một lần nữa từ bản sao máy ảo sang máy ảo nguồn. Lượng dữ liệu thay đổi (delta) lần này sẽ nhỏ hơn nhiều so với lần sao chép đầu tiên. Việc sao chép từ bản sao VM sang VM nguồn gốc (hoặc VM sản xuất mới) chỉ được thực hiện một lần vì điều này là đủ cho mục đích kiểm thử.
6 Kết nối VM nguồn gốc với mạng mới thông qua Network Mapping (tùy chọn). Kết nối máy ảo nguồn với mạng cách ly để không gây gián đoạn nào cho môi trường sản xuất (tùy chọn).
7 Thay đổi địa chỉ IP tĩnh của máy ảo nguồn gốc bằng Re-IP (tùy chọn).
8 Khởi động máy ảo nguồn gốc.
9 Cleanup after a successful failback. Sau khi thao tác failback thành công, cả máy ảo nguồn và bản sao máy ảo đều tồn tại ở trạng thái bình thường.

  • Bản sao lưu bảo vệ được xóa khỏi máy ảo nguồn gốc.
  • Công việc sao chép được cấu hình lại để sử dụng máy ảo chính (nguồn) mới tạo thay vì máy ảo cũ (tùy chọn; áp dụng nếu bạn đã chuyển sang máy ảo mới).
  • Chuyển bản sao máy ảo từ trạng thái failover (hoạt động) sang trạng thái bình thường.

Cleanup after a failed failback:

  • Khôi phục máy ảo nguồn về bản chụp bảo vệ đã được tạo.
  • Xóa bản chụp bảo vệ khỏi máy ảo nguồn.
  • Bật lại bản sao máy ảo.
Cleanup if the source VM didn't exist before the test failback was run:

  • Xóa máy ảo nguồn.

Cleanup if the source VM already existed before the test failback was run:

  • Khôi phục máy ảo nguồn về trạng thái tại thời điểm tạo bản chụp bảo vệ.
  • Bật máy ảo nguồn (nếu máy đã bị tắt).
  • Xóa bản chụp bảo vệ khỏi máy ảo nguồn.

Chuẩn bị cho quá trình failback

Trước tiên, bạn nên tạo một tác vụ Site Recovery bao gồm các hành động failover. Quy trình này đã được mô tả chi tiết trước đó.

  • Một tác vụ sao chép và một bản sao VM là bắt buộc để thực hiện hành động failover.
  • Một tác vụ Site Recovery phải bao gồm hành động failover để thực hiện failback.
  • Các bản sao VM phải ở trạng thái failover; do đó, bạn chỉ có thể thực hiện failback sau khi đã thực hiện failover.

Thực hiện chuyển đổi ngược

Hãy xem một ví dụ về cách thực hiện chuyển đổi ngược với NAKIVO Backup & Replication.

  1. Đảm bảo rằng thao tác chuyển đổi đã được thực hiện như một phần của công việc Site Recovery (công việc này đã được tạo sẵn).

Running failover first

  1. Tạo một công việc Site Recovery mới – các thao tác chuyển đổi ngược có thể được tích hợp vào công việc này. Trên trang Jobs , nhấp vào Create > Site recovery job.

Creating a new site recovery job for failback

Trình hướng dẫn tạo tác vụ Site Recovery mới sẽ được khởi chạy.

1. Actions.

  1. Trong khung bên trái, nhấp vào Failback VMware VMs (đối với các môi trường khác, sử dụng Failback Hyper-V VMs hoặc Failback EC2 Instances).

Adding a failback action to the Site Recovery job

  1. Chọn các bản sao VM mà thao tác chuyển đổi dự phòng sẽ được áp dụng. Nhấp vào Next.

Selecting the virtual machines for failback

  1. Chọn vị trí khôi phục – đây có thể là trang sản xuất ban đầu hoặc một vị trí mới. Nhấp vào Next.

Selecting location for failback

  1. Chọn các tùy chọn tác vụ. Chọn Power off replica VMs nếu cần. Nhấp vào Save khi bạn đã sẵn sàng tiếp tục.

Configuring the failback action options

  1. Sau khi bạn đã thêm hành động khôi phục, tác vụ Site Recovery sẽ trông giống như ảnh chụp màn hình bên dưới. Nhấp vào Next.

A failback action is added to this Site Recovery job

2. Networks. Chọn tùy chọn này nếu bạn cần bật ánh xạ mạng cho tác vụ này. Nhấp vào Next.

The network mapping configuration screen for a Site Recovery job

3. Re-IP. Chọn tùy chọn này nếu bạn cần bật Re-IP cho tác vụ này. Nhấp vào Next.

A Re-IP configuration screen for a site recovery job

4. Test Schedule. Định cấu hình các tùy chọn lập lịch của bạn, sau đó nhấp vào Next.

Configuring scheduling options for site recovery job testing

5. Options. Xác định các tùy chọn tác vụ Site Recovery và nhập tên tác vụ. Bạn có thể thiết lập thời gian khôi phục (RTO) cần thiết cho máy ảo (VM) và chỉ định địa chỉ email để nhận báo cáo khôi phục. Nhấp vào Finish để hoàn tất việc tạo tác vụ Site Recovery mới này kèm tính năng khôi phục.

Configuring Site Recovery job options for failback

Bây giờ bạn có thể chạy tác vụ Site Recovery này để thực hiện khôi phục máy ảo: Chỉ cần nhấp chuột phải vào tên tác vụ Site Recovery, chọn Run job, sau đó chọn Test site recovery job hoặc Run site recovery job.

Running a Site Recovery job with failover

Bước 6. Thực hiện kiểm tra khôi phục thảm họa

Kiểm tra khôi phục thảm họa giúp bạn đảm bảo rằng bạn đã sẵn sàng cho việc khôi phục khi thảm họa xảy ra và rằng tất cả các thành phần được chọn có thể được khôi phục thành công trong khung thời gian đã đặt.

Có hai lý do chính Tại sao bạn cần thực hiện kiểm thử khôi phục sau thảm họa:

  • To make sure that everything can be recovered successfully. Khi bạn kiểm tra kế hoạch khôi phục thảm họa và phát hiện một số vấn đề, bạn có thể khắc phục các vấn đề đó trước khi chúng gây ra các vấn đề nghiêm trọng trong tình huống khủng hoảng thực tế.
  • To make sure that RTO values can be met. Kiểm tra khôi phục thảm họa cho phép bạn kiểm tra xem các tải công việc của bạn có thể được khôi phục trong các RTO tương ứng hay không. Thử nghiệm khôi phục trang web có thể được thực hiện thủ công theo yêu cầu hoặc tự động theo lịch trình, giúp quá trình này diễn ra suôn sẻ và tiết kiệm thời gian cho bạn.

Sự khác biệt giữa chuyển đổi dự phòng trong chế độ thử nghiệm và chế độ sản xuất

Cơ chế thực hiện chuyển đổi dự phòng khác nhau tùy thuộc vào việc tác vụ Site Recovery được chạy ở chế độ thử nghiệm hay chế độ sản xuất. Bảng dưới đây trình bày chi tiết các bước cho từng chế độ.

Production (emergency) failover Test failover
1 Tắt sao chép từ máy ảo nguồn sang bản sao
2 Quay lại bản sao máy ảo về một điểm khôi phục (RP) cụ thể (tùy chọn, điểm khôi phục cuối cùng được sử dụng theo mặc định) Thực hiện sao chép gia tăng từ máy ảo nguồn sang bản sao một lần
3 Kết nối bản sao máy ảo với new mạng thông qua Mapped Network (tùy chọn) Kết nối bản sao VM với isolated mạng bằng Network Mapping (tùy chọn)
4 Sửa đổi địa chỉ IP tĩnh của bản sao bằng Re-IP (tùy chọn)
4A Tắt nguồn VM nguồn (tùy chọn)
5 Bật nguồn bản sao
6 Chuyển bản sao sang trạng thái “Failover”

Như bạn có thể thấy, điểm thứ hai và thứ ba khác nhau giữa quy trình sản xuất và thử nghiệm. Bạn có thể thực hiện sao chép từ một máy ảo nguồn ở chế độ thử nghiệm trong khi máy ảo nguồn vẫn đang hoạt động. Trong hầu hết các trường hợp, khi xảy ra sự cố, máy ảo nguồn sẽ ngừng hoạt động và do đó không thể thực hiện sao chép. Các mạng dùng để kết nối máy ảo có thể được định nghĩa riêng biệt trong các tùy chọn Mapped Networks (Ánh xạ mạng) cho chế độ sản xuất và chế độ thử nghiệm khi cấu hình tác vụ Site Recovery.

Quá trình dọn dẹp sau thử nghiệm chuyển đổi dự phòng được thực hiện sau khi hoàn tất tác vụ Site Recovery ở chế độ thử nghiệm. Bản sao máy ảo được tắt nguồn và khôi phục về trạng thái trước khi chuyển đổi dự phòng thông qua ảnh chụp nhanh (một ảnh chụp nhanh của bản sao máy ảo được tạo trước khi thực hiện hành động chuyển đổi dự phòng). Bản sao sau đó được chuyển từ trạng thái chuyển đổi dự phòng sang trạng thái bình thường, và quá trình sao chép từ đối tượng nguồn sang bản sao được kích hoạt lại.

Khả năng kiểm tra khôi phục thảm họa trong Site Recovery của NAKIVO

Hãy nhanh chóng điểm qua các điểm chính của khả năng kiểm tra trong Site Recovery của NAKIVO.
1. Checking the actions included in testing
Xem lại logic của các hành động trong tác vụ Site Recovery. Kiểm tra xem các hành động có được sắp xếp theo thứ tự phù hợp hay không và đảm bảo chúng không tạo thành vòng lặp vô tận. Bạn có thể chỉnh sửa các tùy chọn công việc Site Recovery khi công việc không đang chạy: thay đổi thứ tự các hành động, thêm hành động, xóa hành động hoặc chỉnh sửa tùy chọn hành động nếu cần thiết.
2. Checking networking
Kiểm tra xem mạng của bạn có hoạt động bình thường không. Có thể sử dụng kết nối VPN giữa trang web sản xuất và trang web khôi phục thảm họa (DR), nhưng kết nối này không được ngắt định kỳ trong trạng thái bình thường. Mạng tại trang web DR cũng phải hoạt động mà không bị gián đoạn. Kiểm tra các thiết lập Mapped Network và Re-IP mà bạn đã sử dụng để cấu hình chuyển đổi dự phòng và khôi phục. Nếu một máy ảo (VM) được cấu hình cho mạng sai, kết nối mạng có thể không được thiết lập. Điều tương tự cũng áp dụng cho các thiết lập IP.
3. Setting the test schedule
Việc kiểm tra tác vụ Site Recovery có thể được lên lịch trong các tùy chọn lên lịch tác vụ Site Recovery. Mở giao diện web của phiên bản NAKIVO Backup & Replication của bạn. Trong khung bên trái, nhấp chuột phải vào tên tác vụ của bạn và chọn ” Edit ” trong menu ngữ cảnh.
Editing scheduling options for testing a site recovery job

Lợi ích của Site Recovery của NAKIVO

  • Comprehensive DR orchestration and automation. Site Recovery cho phép bạn triển khai các kế hoạch phục hồi thảm họa với mức độ tự động hóa cao. Bạn có thể xác định thứ tự phục hồi máy ảo (VM) dựa trên các mối quan hệ phụ thuộc giữa các VM để khi thảm họa xảy ra, quá trình phục hồi diễn ra hiệu quả nhất có thể.
  • Flexibility to accommodate the needs of various businesses. Bạn có thể tạo nhiều tác vụ Site Recovery theo nhu cầu của mình. Bộ các hành động có sẵn để tích hợp vào các tác vụ Site Recovery cho phép tạo ra các quy trình khôi phục khác nhau, được tùy chỉnh phù hợp với từng tình huống cụ thể.
  • Built into the data protection solution. Site Recovery là một tính năng được tích hợp sẵn trong NAKIVO Backup & Replication và có sẵn cùng với bộ tính năng toàn diện còn lại của sản phẩm; bạn không cần phải mua giấy phép riêng cho Site Recovery. Với giải pháp này, tất cả các hoạt động bảo vệ dữ liệu và khôi phục thảm họa đều được quản lý từ một giao diện duy nhất.
  • Significant savings compared to other DR solutions. NAKIVO Backup & Replication, với công cụ Site Recovery tích hợp sẵn, là một giải pháp tiết kiệm chi phí. Sản phẩm tiếp tục làm hài lòng người dùng với các tính năng mới hữu ích trong khi vẫn giữ mức giá phải chăng – đặc biệt khi so sánh với các đối thủ cạnh tranh trên thị trường khôi phục thảm họa.
Hãy thử NAKIVO Backup & Replication

Hãy thử NAKIVO Backup & Replication

Đăng ký dùng thử miễn phí để khám phá toàn bộ các tính năng bảo vệ dữ liệu của giải pháp. 15 ngày miễn phí. Không có giới hạn về tính năng hay dung lượng. Không cần thẻ tín dụng.

People also read