Các phương pháp hay nhất về khắc phục sự cố của VMware
Phục hồi sau thảm họa là một quy trình bao gồm một loạt các biện pháp nhằm khôi phục các thành phần của cơ sở hạ tầng sau khi sự cố xảy ra. Hơn nữa, DR nhằm mục đích giảm thiểu các tác động tiêu cực có thể do thảm họa gây ra cũng như đảm bảo tính liên tục của hoạt động kinh doanh. Để chuẩn bị cho các loại thảm họa có thể xảy ra, các công ty thường xây dựng một kế hoạch phục hồi sau thảm họa, vốn phải là một phần của kế hoạch duy trì hoạt động kinh doanh.
Máy ảo là các thành phần có nguy cơ bị ảnh hưởng trong trường hợp xảy ra thảm họa; chính vì lý do này mà bạn nên chuẩn bị cho thảm họa bằng cách xây dựng kế hoạch khắc phục thảm họa. Bài đăng trên blog này tìm hiểu các phương pháp hay nhất về khắc phục thảm họa (DR) trong môi trường ảo VMware.
Lập Kế hoạch Phục hồi Thảm họa
Một kế hoạch khắc phục thảm họa là một tài liệu có cấu trúc mô tả quy trình phục hồi thảm họa dưới dạng một tập hợp các hành động cần được thực hiện bởi những người có trách nhiệm trong tình huống thảm họa. Hơn nữa, tài liệu này xác định các tiêu chí cần thiết để triển khai kế hoạch. Cả các yếu tố tự nhiên lẫn do con người gây ra đều có thể dẫn đến thảm họa. Kế hoạch DR nên bao gồm các kịch bản khôi phục khác nhau cho các loại thảm họa và sự cố không lường trước. Ví dụ, kế hoạch DR có thể mô tả các bước cần thực hiện trong trường hợp bị tấn công ransomware, mất điện, hỏng phần cứng, động đất, bão, v.v. Kế hoạch DR có thể được phân loại: ví dụ, phần đầu tiên có thể giải thích về khôi phục mạng, phần thứ hai tập trung vào khôi phục trung tâm dữ liệu, trong khi phần thứ ba giải thích về khôi phục máy ảo (VM), v.v.
Chuẩn bị Trang Phục Hồi
Trang phục hồi thảm họa là một địa điểm mà doanh nghiệp có thể sử dụng để phục hồi hạ tầng và các tải công việc khi trang chính dùng cho mục đích sản xuất không thể hoạt động. Các trang phục hồi thảm họa có thể là hot, warm hoặc cold.
- Trang hot là một trang phục hồi thảm họa hoạt động đầy đủ, được trang bị các máy chủ ESXi đã được cấu hình, lưu trữ, bản sao VM và dữ liệu người dùng. Nếu trang web chính gặp sự cố sau thảm họa, trang web nóng sẵn sàng để sử dụng ngay lập tức. Việc triển khai trang web nóng tốn kém, nhưng mang lại khả năng khôi phục nhanh nhất có thể.
- Trang web ấm chứa một số thiết bị như thiết bị mạng, máy chủ cổng, máy chủ ESXi, cũng như lưu trữ, nhưng có thể không chứa máy ảo (VM) và dữ liệu người dùng. Trong trường hợp này, các máy ảo (VM) cần được khôi phục từ bản sao lưu, và dữ liệu người dùng cũng có thể cần được sao chép. Thiết bị và phần mềm bổ sung có thể được cài đặt trong quá trình khôi phục thảm họa, do đó việc sử dụng trang web dự phòng ấm là giải pháp thỏa hiệp đòi hỏi chi phí trung bình, nhưng mang lại thời gian khôi phục hợp lý.
- Trang web dự phòng lạnh là trang web khôi phục thảm họa chỉ có cơ sở hạ tầng cơ bản. Khi thảm họa xảy ra, máy chủ phải được cấu hình, lưu trữ phải được triển khai, máy ảo phải được khôi phục và dữ liệu người dùng có thể cần được trích xuất từ bản sao lưu. Việc sử dụng loại trang web khôi phục thảm họa này đòi hỏi nhiều nỗ lực hơn để khôi phục máy ảo và khối lượng công việc. Quá trình khôi phục này mất nhiều thời gian, nhưng chi phí để duy trì một trang web dự phòng (cold site) là thấp nhất so với các loại trang web khác.
Tự động tạo bản sao lưu và bản sao
Bản sao lưu và bản sao của máy ảo (VM) là những thành phần quan trọng nhất trong kế hoạch khôi phục thảm họa trong môi trường ảo VMware vSphere. Bản sao lưu bao gồm một bản sao dữ liệu của máy ảo, được lưu trữ tại một nơi an toàn. Dữ liệu đã sao lưu có thể được nén và cần thời gian để khôi phục. Bản sao VM là bản sao giống hệt VM nguồn, được lưu trữ trên Máy chủ ESXi, sẵn sàng khởi động khi cần thiết và được sử dụng trong quá trình chuyển đổi dự phòng. Tránh sao lưu VM thủ công quá thường xuyên, vì một số thay đổi quan trọng có thể bị bỏ sót và mất mát khi thảm họa xảy ra. Hãy sử dụng phần mềm bảo vệ dữ liệu VM cấp máy chủ phù hợp, có thể tự động tạo bản sao lưu và bản sao VM bằng cách thiết lập lịch trình.
Sử dụng các tính năng cụm của VMware
VMware cung cấp các đặc trưng phân cụm như cụm Distributed Resource Scheduler (DRS), cụm High Availability (HA) và Fault Tolerance (có sẵn cho các VM trong cụm HA). Cụm HA giúp bạn giảm thiểu thời gian ngừng hoạt động của VM, trong khi Fault Tolerance (FT) cho phép bạn tránh thời gian ngừng hoạt động của VM trong trường hợp hỏng hóc phần cứng. Lưu ý rằng các tính năng cụm không thể thay thế cho sao lưu và sao chép. Tính khả dụng cao (HA) kết hợp với Khả năng chịu lỗi (FT) và sao lưu kết hợp với sao chép bổ sung cho nhau. Điểm quan trọng là HA và FT không thể bảo vệ dữ liệu khỏi hư hỏng, việc xóa tệp bên trong các máy ảo, cập nhật phần mềm không thành công hoặc các sự cố phần mềm khác, v.v.
Sử dụng thứ tự khôi phục máy ảo phù hợp
Các máy ảo nên được khôi phục theo thứ tự phù hợp. Hãy tưởng tượng bạn có nhiều máy ảo với các ứng dụng khác nhau có sự phụ thuộc lẫn nhau. Ví dụ điển hình là có một máy ảo với Bộ điều khiển miền Active Directory, một máy ảo với máy chủ cơ sở dữ liệu và một máy ảo với máy chủ web. Các máy ảo phải được khởi động theo thứ tự sau:
- Máy ảo với Bộ điều khiển miền nên được khởi động trước tiên.
- Máy ảo chạy máy chủ cơ sở dữ liệu sẽ khởi động khi máy ảo chạy Máy chủ miền đã hoạt động, vì máy chủ cơ sở dữ liệu sử dụng Máy chủ miền để xác thực người dùng.
- Máy ảo chạy máy chủ web sẽ khởi động khi máy ảo chạy máy chủ cơ sở dữ liệu đã hoạt động, vì máy chủ web sử dụng cơ sở dữ liệu để hoạt động đúng cách trong trường hợp này.
Nếu bạn có một máy ảo chạy máy chủ email MS Exchange, máy ảo đó phải khởi động sau máy ảo chạy Máy chủ miền vì MS Exchange được tích hợp với Active Thư mục dùng để xác thực người dùng.
Sử dụng cấu hình mạng ảo (VM) phù hợp
Một trang web sản xuất và một trang web phục hồi thảm họa có thể sử dụng các mạng khác nhau để kết nối máy ảo (VM). Các bộ điều hợp mạng ảo của máy ảo được kết nối với các cổng của bộ chuyển mạch ảo (vSwitches). Các nhóm cổng đại diện cho các mạng khác nhau với tên mạng và địa chỉ tương ứng. Nếu bạn khôi phục một VM đến trang web khôi phục thảm họa, nhưng VM đó được cấu hình để kết nối với mạng của trang web sản xuất (khác với mạng được sử dụng cho các VM trên trang web khôi phục thảm họa), kết nối mạng của VM sẽ không thể thiết lập được. Trong trường hợp này, đừng quên thay đổi cài đặt mạng của các VM khi khôi phục chúng tại trang web khôi phục thảm họa.
Chuẩn bị Lưu trữ cho Máy ảo
Phải có đủ dung lượng trống trong hệ thống lưu trữ được sử dụng tại trang DR để lưu trữ các máy ảo. Đây là yêu cầu đầu tiên và quan trọng nhất. Hệ thống lưu trữ cũng phải cung cấp đủ hiệu suất; nếu không, các dịch vụ quan trọng cho hoạt động kinh doanh chạy trên các máy ảo có thể bị chậm trễ. Nếu sử dụng hệ thống lưu trữ dựa trên mạng như NAS (Network Attached Storage) hoặc SAN (Storage Area Network), tốc độ mạng phải đủ nhanh để đáp ứng. Mạng lưu trữ tại địa điểm DR phải là mạng chuyên dụng, tách biệt với các mạng khác.
Kiểm tra Kế hoạch Phục hồi Thường xuyên
Kế hoạch phục hồi thảm họa có thể trông tốt trên giấy, nhưng có thể vô dụng trong trường hợp thảm họa nếu không được kiểm tra trước. Do đó, hãy đảm bảo kiểm tra kế hoạch DR của bạn thường xuyên. Kiểm tra giúp bạn xác định xem kế hoạch DR có khả thi hay không, và liệu các yêu cầu RTO và RPO có được đáp ứng hay không. Kiểm tra cũng giúp bạn phát hiện nhược điểm của kế hoạch DR, từ đó cho phép bạn điều chỉnh để khắc phục chúng.
Kiểm tra kế hoạch DR của bạn thường xuyên để đảm bảo rằng môi trường ảo vSphere của bạn có thể được khôi phục. Hạ tầng có thể thay đổi theo thời gian, và sau khi các thay đổi xảy ra, một kế hoạch DR từng khả thi có thể không còn đáp ứng các yêu cầu phù hợp nữa. Ví dụ: một số máy ảo (VM) có thể được thêm vào, địa chỉ IP có thể thay đổi, các ứng dụng có thể được di chuyển từ máy ảo này sang máy ảo khác, v.v. Việc kiểm tra thường xuyên giúp bạn phát hiện những phần nào của kế hoạch cần được cập nhật sau khi cơ sở hạ tầng thay đổi, nhằm duy trì kế hoạch DR ở trạng thái hiệu quả.
Tìm giải pháp khôi phục tại địa điểm phù hợp
Khi đã xây dựng xong kế hoạch DR, hãy tìm giải pháp khôi phục tại địa điểm phù hợp nhất với nhu cầu của bạn. Trong trường hợp sử dụng VMware vSphere, giải pháp cần hỗ trợ sao lưu/sao chép máy ảo (VM) ở cấp độ máy chủ, khôi phục nhanh từ bản sao lưu, chuyển đổi dự phòng sang bản sao VM, khôi phục toàn bộ VM và khôi phục từng đối tượng riêng lẻ. Hãy lựa chọn một giải pháp phù hợp với các tính năng cần thiết, cho phép kiểm tra và cập nhật kế hoạch khôi phục thảm họa (DR) định kỳ.
NAKIVO Backup & Replication cho Khôi phục Thảm họa VMware
NAKIVO Backup & Replication là giải pháp bảo vệ dữ liệu VM nhanh chóng, đáng tin cậy và chi phí hợp lý, có thể bảo vệ các VM VMware của bạn. Ngoài ra, sản phẩm còn có thể thực hiện sao lưu và nhân bản VM ở cấp độ máy chủ, khôi phục đối tượng riêng lẻ, khôi phục VM tức thì và chuyển đổi dự phòng sang bản sao VM. Không cần cài đặt trình điều khiển trên các VM vì sử dụng VMware vStorage API cho bảo vệ dữ liệu. Hơn nữa, NAKIVO Backup & Replication bao gồm tính năng Site Recovery mới, cho phép bạn thực hiện khôi phục thảm họa cho toàn bộ site (không chỉ) với các VM VMware.
Tổng quan về Site Recovery
Khôi phục trang web là tính năng mạnh mẽ giúp bạn khôi phục các VM từ site này sang site khác trong trường hợp thảm họa. Tính năng này cũng có thể được sử dụng cho việc di chuyển VM có kế hoạch giữa các site. Bạn có thể xây dựng các quy trình khôi phục tự động và chạy chúng cho việc chuyển đổi dự phòng có kế hoạch hoặc khẩn cấp, cũng như cho mục đích kiểm thử.
Tính năng Site Recovery
Site Recovery cho phép bạn tự động hóa và điều phối quy trình khôi phục thảm họa cho máy ảo (VM). Tính năng này bao gồm một bộ các hành động và điều kiện mà bạn có thể kết hợp thành một quy trình khôi phục site (công việc) theo kế hoạch khôi phục thảm họa của mình. Các hành động này bao gồm:
- Chuyển đổi dự phòng máy ảo (VM). Bạn có thể chuyển đổi dự phòng sang bản sao máy ảo (bản sao máy ảo phải được tạo trước khi thực hiện hành động chuyển đổi dự phòng).
- Chuyển trở lại VM . Bạn có thể chuyển các tải công việc trở lại từ bản sao VM được lưu trữ tại trang web khôi phục thảm họa sang VM nguồn được lưu trữ tại trang web sản xuất.
- Khởi động VM . Bạn có thể khởi động một hoặc nhiều VM.
- Dừng VM . Bạn có thể dừng một hoặc nhiều VM.
- Chạy tác vụ . Bạn có thể chạy các tác vụ (sao lưu, sao chép, Khởi động VM Flash, v.v.) được tạo trong thực thể NAKIVO Backup & Replication của bạn.
- Dừng tác vụ . Bạn có thể dừng các tác vụ đang chạy.
- Chạy tập lệnh . Bạn có thể chạy tập lệnh trên máy có phiên bản NAKIVO Backup & Replication, trên máy Windows từ xa, máy Linux từ xa, máy ảo VMware, máy ảo Hyper-V hoặc phiên bản EC2.
- Gắn kho lưu trữ . Bạn có thể gắn kho lưu trữ sao lưu.
- Tách kho lưu trữ . Bạn có thể ngắt kết nối kho lưu trữ sao lưu đã được gắn.
- Gửi email . Bạn có thể gửi email sau khi thực hiện hành động tương ứng, ví dụ như khi quá trình chuyển đổi dự phòng máy ảo (VM failover) hoàn tất thành công.
- Chờ . Bạn có thể chờ trong một khoảng thời gian đã định trước khi chuyển sang hành động tiếp theo.
- Kiểm tra điều kiện . Bạn có thể kiểm tra các điều kiện sau trước khi chuyển sang hành động tiếp theo: tài nguyên có tồn tại hay không, tài nguyên có đang chạy hay không, và địa chỉ IP/tên máy chủ có thể truy cập được hay không.
Bạn có thể linh hoạt sử dụng các hành động được liệt kê để tạo các tác vụ khôi phục trang web khác nhau cho các trường hợp sử dụng và kịch bản khác nhau. Nhấp vào nút Chạy tác vụ và tất cả các hành động sẽ được khởi chạy tự động theo thứ tự đã định. Các tác vụ khôi phục trang web có thể được chạy thủ công ở chế độ sản xuất và thử nghiệm, nhưng khi bạn cấu hình các tác vụ khôi phục trang web để chạy tự động dưới dạng tác vụ được lên lịch, chúng sẽ được chạy ở chế độ thử nghiệm.
Lợi ích của Site Recovery
Site Recovery là một tính năng mạnh mẽ, tiện lợi và trực quan. Tính năng này có thể đơn giản hóa quá trình khôi phục thảm họa cho môi trường ảo VMware vSphere, đồng thời giúp bạn tiết kiệm công sức và chi phí đầu tư vào duy trì hoạt động kinh doanh.
Tóm tắt các lợi ích của Site Recovery:
- Nó giúp bạn triển khai các kế hoạch khôi phục site phức tạp trong khuôn khổ chiến lược khôi phục thảm họa của bạn.
- Nó tự động hóa quy trình khôi phục thảm họa.
- Nó giảm thời gian dành cho việc khôi phục thảm họa. (Do đó, bạn sẽ giảm thiểu thời gian ngừng hoạt động, ít gián đoạn dịch vụ hơn và tiết kiệm chi phí.)
- Các tác vụ khôi phục trang web có thể được kiểm tra tự động để xác định xem kế hoạch khôi phục trang web của bạn có được cập nhật hay không, cũng như liệu RPO và RTO có thể được đáp ứng hay không.
- Khôi phục trang web không phải là một tính năng độc lập, mà được tích hợp vào giải pháp bảo vệ dữ liệu VM mạnh mẽ và toàn diện, nơi nó có thể được quản lý từ một giao diện duy nhất.
- Nó có chính sách giá cả phải chăng. Bạn không cần mua giấy phép riêng để sử dụng Site Recovery nếu đã có giấy phép cho phiên bản NAKIVO Backup & Replication phù hợp.
Kết luận
Khôi phục thảm họa cho môi trường ảo VMware vSphere là một quy trình quan trọng trong việc đảm bảo tính liên tục của hoạt động kinh doanh. Các phương pháp hay nhất về khôi phục thảm họa của VMware bao gồm việc lập kế hoạch khôi phục thảm họa, cũng như tự động tạo các bản sao VM cần thiết cho việc chuyển đổi dự phòng VM. Nên sử dụng sao lưu và nhân bản VM bên cạnh các tính năng phân cụm vSphere. Xác định thứ tự khôi phục máy ảo (VM), chuẩn bị cơ sở khôi phục thảm họa (bao gồm các thành phần mạng và lưu trữ), đảm bảo kiểm tra kế hoạch khôi phục thảm họa thường xuyên, và sử dụng giải pháp bảo vệ dữ liệu phù hợp hỗ trợ sao lưu, nhân bản và khôi phục máy ảo ở cấp độ máy chủ.
NAKIVO Backup & Replication là giải pháp bảo vệ dữ liệu máy ảo đa năng, hỗ trợ các máy ảo VMware. Site Recovery là tính năng mới mạnh mẽ được tích hợp trong NAKIVO Backup & Replication kể từ phiên bản 8.0. Site Recovery cho phép bạn triển khai kế hoạch khôi phục thảm họa bằng cách tạo các tác vụ khôi phục trang web tự động. Tính năng hữu ích này giúp bạn điều phối và tự động hóa quy trình khôi phục thảm họa, khôi phục dữ liệu VM nhanh chóng cũng như đảm bảo mức độ bảo vệ dữ liệu cao.
Tải xuống NAKIVO Backup & Replication với Site Recovery và thử nghiệm sản phẩm trong môi trường VMware vSphere của bạn.