Các phương pháp hay nhất về khắc phục thảm họa trên AWS
Bất kỳ hoạt động nào có thể ảnh hưởng tiêu cực đến tính liên tục của hoạt động kinh doanh của công ty liên quan đến các khối lượng công việc tại chỗ hoặc trên đám mây đều có thể được coi là thảm họa. Điều quan trọng là công ty phải đầu tư thời gian và nguồn lực để xác định tất cả các rủi ro có thể xảy ra và xây dựng kế hoạch phòng ngừa – hoặc ít nhất là có những biện pháp thích hợp để giảm thiểu tác động tiêu cực.
Việc xây dựng một kế hoạch khắc phục thảm họa (DR) toàn diện cho cơ sở hạ tầng tại chỗ và trên đám mây AWS của bạn là vấn đề có mức độ ưu tiên cao nhất. Trong bài viết blog này, chúng tôi sẽ trình bày các phương pháp hay nhất về lập kế hoạch khắc phục thảm họa trên AWS cho cả hai trường hợp, với trọng tâm là các khối lượng công việc trên AWS.
Lợi ích của việc sử dụng AWS cho khôi phục thảm họa
Nền tảng Amazon Web Services (AWS) cung cấp một loạt các dịch vụ, bao gồm lưu trữ cơ sở dữ liệu, sức mạnh tính toán, phân phối nội dung và các tính năng đặc biệt khác. AWS cũng có thể được sử dụng để nhanh chóng khôi phục các hoạt động kinh doanh đang chạy trên máy ảo và các phiên bản EC2 trong trường hợp xảy ra thảm họa. AWS cho phép bạn tạo các bản sao và cấu hình khôi phục thảm họa cho cả môi trường tại chỗ và trên đám mây. Việc lưu trữ dữ liệu quan trọng của doanh nghiệp trên đám mây AWS cũng loại bỏ nhu cầu về hệ thống lưu trữ vật lý thứ cấp, vốn thường đi kèm với chi phí đáng kể.
Thực tế, dữ liệu sao lưu và sao chép của bạn có thể được lưu trữ tại nhiều khu vực AWS trên toàn thế giới, một cách an toàn và đáng tin cậy. Là một phần của chức năng phục hồi thảm họa, AWS cho phép bạn chạy và kiểm tra giải pháp phục hồi thảm họa của bên thứ ba để phát hiện các thiếu sót (thực hiện kiểm tra phục hồi thảm họa AWS). Sau đó, bạn có thể sử dụng các mẫu AWS CloudFormation để định nghĩa các thực hành phục hồi thảm họa hiệu quả nhất và lưu trữ chúng trong một Amazon Virtual Private Cloud để sử dụng sau này.
Các kịch bản phục hồi thảm họa của AWS
Có bốn chiến lược phục hồi thảm họa AWS do Amazon cung cấp. Lựa chọn phụ thuộc vào nhu cầu và ngân sách của tổ chức bạn. Có thể kết hợp các phương án khác nhau để đáp ứng nhu cầu cụ thể của bất kỳ hạ tầng ảo nào.
- Sao lưu và khôi phục. Dữ liệu quan trọng có thể được sao lưu và gửi đến một vị trí ngoài cơ sở như Dịch vụ lưu trữ Amazon S3, nơi dữ liệu được bảo vệ an toàn và có thể khôi phục nhanh chóng khi cần thiết. Giao diện người dùng web của Amazon S3 cho phép truy cập từ bất kỳ đâu. Bạn có thể sao chép dữ liệu trực tiếp lên Amazon S3 hoặc tạo bản sao lưu và lưu trữ chúng trên đám mây. Đây là một trong những kịch bản phục hồi thảm họa phổ biến nhất trên AWS.
- Pilot light. Kịch bản phục hồi thảm họa này cho phép bạn có một phiên bản nhỏ của môi trường ảo trên đám mây, luôn duy trì hoạt động và cập nhật. Bạn có thể nhanh chóng khôi phục và khởi chạy các thành phần quan trọng nhất của cơ sở hạ tầng dựa trên AWS. Các dịch vụ như Amazon Machine Images (AMIs) và ảnh chụp nhanh Amazon EBS được sử dụng. Phương pháp Pilot Light thuận tiện hơn chiến lược khôi phục thảm họa sao lưu và khôi phục của AWS vì nó giảm đáng kể thời gian dành cho việc khôi phục.
- Chế độ chờ ấm (Warm standby). Trong kịch bản khôi phục thảm họa này, một phiên bản thu nhỏ của cơ sở hạ tầng sản xuất của bạn luôn chạy trên đám mây. Trong trường hợp xảy ra sự cố khôi phục thảm họa (DR), hệ thống có thể được mở rộng quy mô nhanh chóng để giảm thiểu thời gian ngừng hoạt động và khôi phục các hoạt động và khối lượng công việc quan trọng.
- Triển khai đa địa điểm (“hot standby”). Phương pháp này bao gồm việc sao chép dữ liệu quan trọng đối với hoạt động kinh doanh và các thành phần cốt lõi của hạ tầng, sau đó phân phối chúng trên nhiều vị trí tại chỗ hoặc trên đám mây. Tất cả các địa điểm này đều hoạt động; chúng chia sẻ lưu lượng truy cập và khối lượng công việc. Nếu thảm họa ảnh hưởng đến một trong các địa điểm, bạn vẫn có một hệ thống nguyên vẹn sẵn sàng hoạt động ở chế độ sản xuất đầy đủ. Amazon EC2 Auto Scaling được sử dụng để thực hiện quy trình này. Với hot standby, mục tiêu thời gian phục hồi (RTO) và mục tiêu điểm phục hồi (RPO) tối thiểu được đạt được. Nếu bạn quyết định sử dụng chế độ hot standby trong các kịch bản phục hồi thảm họa của AWS, hãy nhớ rằng việc chạy nhiều hệ thống ảo cùng lúc có thể khá tốn kém.
Các tính năng sau đây cũng nên được đề cập trong bối cảnh phục hồi thảm họa:
- Sao chép . Để đảm bảo tính sẵn sàng cao, có thể triển khai Sao chép giữa các khu vực (Cross-Region Replication) nếu các tải công việc chính của bạn nằm trên đám mây AWS. Tại đây, dữ liệu quan trọng và các thành phần hệ thống được sao chép sang bất kỳ khu vực AWS nào mà bạn chọn. Nếu có bất kỳ thay đổi nào được thực hiện trong cơ sở dữ liệu chính, dữ liệu có thể được cập nhật ngay lập tức (sao chép đồng bộ) hoặc với một độ trễ nhỏ (sao chép không đồng bộ). Hai loại sao chép này phục vụ các nhu cầu kinh doanh khác nhau.
- Failback . Trong quá trình DR, tải công việc của instance bị ảnh hưởng được chuyển đến site đích và instance sao chép được khởi động (failover). Khi trang web chính được khôi phục, bạn có thể khôi phục lại instance gốc. Để lưu lại tất cả các thay đổi trong dữ liệu đã được thực hiện trên instance DR kể từ khi chuyển đổi dự phòng, bạn cần đảo ngược luồng sao chép dữ liệu trở lại trang web chính (failback).
- Nhiều khu vực AWS . Mỗi khu vực AWS là một khu vực riêng biệt và độc lập, được thiết kế để lưu trữ instance hoặc dữ liệu. Để phục hồi thảm họa thành công, bạn có thể chọn lưu trữ dữ liệu ở hai hoặc nhiều khu vực AWS để giảm thiểu tác động của các thảm họa quy mô cực lớn.
Các phương pháp hay nhất về phục hồi thảm họa AWS
Dưới đây là các phương pháp hay nhất về phục hồi thảm họa AWS, mà bạn nên ghi nhớ khi tạo kế hoạch phục hồi thảm họa AWS cho môi trường của mình.
- Kiểm tra phục hồi thảm họa AWS . Sau khi cài đặt giải pháp DR, bạn nên kiểm tra nó. Việc kiểm tra có thể được thực hiện theo yêu cầu hoặc theo lịch trình. Bạn có thể thực hiện “kiểm thử trong điều kiện thực tế”, đây là phương pháp kiểm tra các ứng dụng và phiên bản của bạn nhằm xác minh xem kế hoạch khôi phục thảm họa (DR) có hoạt động như mong đợi và các chỉ tiêu RTO có thể được đáp ứng hay không. Để thực hiện điều này, bạn có thể sử dụng AWS CloudFormation để triển khai các môi trường hoàn chỉnh trên Amazon EC2. Bạn có thể tạo một mẫu tài nguyên, cho phép bạn mô hình hóa và quản lý các thành phần hạ tầng trong môi trường đám mây của mình. Kiểm tra định kỳ giúp xác minh rằng tất cả các thành phần DR đã được lập kế hoạch và tổ chức đúng cách, đồng thời các chỉ số RTO và RPO có thể được đáp ứng khi cần thiết.
- Giám sát và cảnh báo . Để ngăn chặn bất kỳ thảm họa nào có thể xóa sổ cơ sở hạ tầng của bạn, bạn cần xác định các vấn đề tiềm ẩn một cách nhanh chóng. Bạn có thể theo dõi thường xuyên quy trình làm việc của hệ thống và kiểm tra tính toàn vẹn của nó. Điều này cho phép bạn phát hiện nhanh chóng các mối đe dọa mới nổi như sự cố kết nối, sự cố máy chủ hoặc ứng dụng ngừng hoạt động. Amazon CloudWatch đánh giá hiệu suất của các tài nguyên AWS của bạn. Có thể thiết lập các cảnh báo và thông báo để thông báo cho bạn khi các chỉ số nhất định đạt đến mức nghiêm trọng.
- Sao lưu và sao chép định kỳ . Trước khi thảm họa xảy ra, việc chuẩn bị hệ thống và thực hiện các tác vụ sao lưu và sao chép định kỳ là vô cùng quan trọng. Nhờ đó, bạn sẽ có một mục tiêu đáng tin cậy cho việc chuyển đổi dự phòng. Sau khi chuyển sang môi trường phục hồi thảm họa (DR), bạn nên tiếp tục thực hiện các tác vụ sao lưu và sao chép định kỳ. Lưu trữ các bản sao lưu và bản sao tại các vị trí từ xa riêng biệt giúp bạn tránh rủi ro điểm lỗi duy nhất. AWS có thể thực hiện các bài kiểm tra phục hồi thảm họa định kỳ để xác minh trạng thái của hạ tầng DR.
- Sử dụng các công cụ và kỹ thuật của AWS . Để đảm bảo các thực hành tốt nhất về phục hồi thảm họa của AWS được áp dụng, bạn phải triển khai các nhóm phục hồi hoặc bộ ứng dụng. Bằng cách này, bạn có thể sắp xếp việc phục hồi hạ tầng của mình một cách hợp lý – ví dụ: các ứng dụng quan trọng đối với hoạt động kinh doanh nên được phục hồi trước tiên, vì chúng có mức độ ưu tiên cao nhất.
Dịch vụ khôi phục thảm họa của AWS
Để đạt được mục tiêu này, AWS cung cấp nhiều dịch vụ khác nhau:
- AWS Elastic Disaster Recovery là dịch vụ sao chép dữ liệu và khôi phục các ứng dụng chạy tại chỗ và trên đám mây. Bạn có thể khởi chạy quá trình khôi phục các phiên bản AWS trên đám mây để khôi phục các ứng dụng vào các phiên bản đó.
- AWS Nhập/Xuất cho phép truy cập vào các thiết bị lưu trữ di động để chuyển dữ liệu và ứng dụng quan trọng cho hoạt động kinh doanh vào và ra khỏi AWS. Nhờ mạng nội bộ tốc độ cao của Amazon, ngay cả những khối lượng dữ liệu khổng lồ cũng có thể được truyền tải nhanh chóng và an toàn đến vị trí đích. Dịch vụ Máy ảo (
- Amazon Elastic Cloud Compute – Amazon EC2) cho phép bạn sử dụng các tài nguyên tính toán và xây dựng một trung tâm dữ liệu ảo hoàn chỉnh trên đám mây AWS theo nhu cầu. Các phiên bản EC2 có thể được tạo ra chỉ trong vài phút và bạn sẽ duy trì quyền kiểm soát hoàn toàn trong suốt quá trình khôi phục thảm họa. Dịch vụ Lưu trữ Đám mây (
- Dịch vụ Lưu trữ Đơn giản của Amazon – Amazon S3) được thiết kế để lưu trữ và truy xuất dữ liệu với mức độ ưu tiên cao nhất. Dịch vụ này lưu trữ các thành phần quan trọng của doanh nghiệp trên nhiều thiết bị tại nhiều cơ sở, từ đó đảm bảo mức độ sẵn sàng cao nhất. AWS đảm bảo bảo vệ thêm thông qua Quản lý Danh tính và Quyền truy cập (IAM), chính sách thùng chứa, Xác thực Đa yếu tố (MFA) và phiên bản đối tượng.
- Amazon Elastic Block Store (Amazon EBS) là lưu trữ cấp khối cho dữ liệu được sử dụng với các phiên bản Amazon EC2 của bạn trên đám mây. Dữ liệu được lưu trữ dựa trên các bản sao lưu (snapshots), sau đó được chuyển đến Amazon S3, từ đó cung cấp giải pháp lưu trữ lâu dài và đáng tin cậy cho dữ liệu của bạn.
- Dịch vụ Cơ sở dữ liệu Quan hệ của Amazon (Amazon RDS) giúp cấu hình và quản lý cơ sở dữ liệu quan hệ trên đám mây AWS. Đây là giải pháp tiết kiệm chi phí và linh hoạt để thực hiện các tác vụ quản trị cơ sở dữ liệu.
- Amazon Direct Connect cho phép bạn thiết lập kết nối chuyên dụng giữa mạng nội bộ và đám mây AWS. Điều này giúp bạn bảo mật và tăng tốc kết nối mạng mà không phải chịu chi phí cao.
- Truy cập an toàn . Khi làm việc với dữ liệu riêng tư và/hoặc dữ liệu quan trọng đối với hoạt động kinh doanh, việc đảm bảo mức độ bảo mật cao là điều thiết yếu đối với các tổ chức ở mọi quy mô. Để đạt được điều này, bạn có thể áp dụng AWS Identity and Access Management (IAM), giúp đảm bảo truy cập an toàn vào các tài nguyên trong môi trường DR của bạn. Với IAM, bạn có thể tạo các chính sách bảo mật dựa trên vai trò và dựa trên người dùng để kiểm soát quyền truy cập của người dùng vào dữ liệu quan trọng.
- Tự động hóa . Tự động hóa khôi phục thảm họa là một khía cạnh quan trọng trong các phương pháp hay nhất về DR của AWS. Trong một sự cố khôi phục thảm họa, việc kiểm soát hoàn toàn các máy chủ dựa trên AWS và máy chủ tại chỗ của bạn là điều thiết yếu. Tuy nhiên, thường thì về mặt vật lý, không thể giám sát thủ công việc khôi phục từng ứng dụng và phiên bản riêng lẻ. Để quản lý hiệu quả, cần phải có sự điều phối và tự động hóa các quy trình khôi phục thảm họa. Có một số dịch vụ quản lý của Amazon dành cho mục đích này:
- Bộ tính năng có trong AWS CloudFormation cho phép bạn triển khai các dịch vụ hạ tầng một cách tự động.
- AWS OpsWorks giúp tự động hóa việc cấu hình, triển khai và quản lý máy chủ trong các phiên bản Amazon EC2 của bạn, cũng như trong các môi trường điện toán tại chỗ.
- Tính năng Tự động điều chỉnh quy mô (Autoscaling) có thể tăng hoặc giảm quy mô các phiên bản của bạn để đáp ứng nhu cầu dựa trên các thông số bạn chỉ định tại AWS CloudWatch. Điều này cực kỳ hữu ích trong trường hợp khôi phục sau thảm họa. Giải pháp này có thể tự động mở rộng quy mô để xử lý khối lượng công việc tăng lên trên các máy chủ và thu hẹp quy mô khi các quy trình cơ sở hạ tầng sản xuất của bạn được khôi phục về trạng thái bình thường.
- Cấp phép . Việc cài đặt các ứng dụng được cấp phép chính xác trong môi trường AWS của bạn là rất quan trọng để đảm bảo hiệu suất hoạt động hiệu quả. AWS có nhiều loại cấp phép khác nhau, chẳng hạn như “Bao gồm giấy phép” và “Mang theo giấy phép của riêng bạn”, để đáp ứng các nhu cầu kinh doanh cụ thể của bạn. Lưu ý rằng giải pháp bảo vệ dữ liệu của bạn cũng cần được cấp phép cho tích hợp liền mạch với AWS.
Giải pháp Phục hồi Thảm họa AWS từ NAKIVO
Amazon EC2 là một nền tảng đám mây đáng tin cậy và an toàn. Tuy nhiên, vẫn tồn tại nhiều mối đe dọa có thể làm gián đoạn hiệu suất của các instance EC2 và ảnh hưởng đến tính liên tục của hoạt động kinh doanh. Một giải pháp sao lưu và phục hồi thảm họa tích hợp chuyên dụng như NAKIVO Backup & Replication có thể đảm bảo độ tin cậy và mục tiêu phục hồi tốt nhất.
Giải pháp NAKIVO có thể bảo vệ môi trường đám mây của bạn thông qua sao lưu các instance Amazon EC2 và Sao chép máy ảo Amazon EC2, giúp bạn tuân thủ các nguyên tắc tốt nhất về phục hồi thảm họa của AWS. Các tính năng phục hồi thảm họa (DR) của giải pháp bao gồm chuyển đổi tự động sang site dự phòng (failover), chuyển đổi trở lại (failback), Site Recovery để điều phối các chuỗi quy trình DR với bất kỳ độ phức tạp nào và kiểm thử DR.
Sản phẩm cho phép bạn tạo và quản lý các bản sao của các instance EC2 gốc và lưu trữ chúng tại vị trí đích do bạn lựa chọn. Các bản sao instance duy trì trạng thái tắt nguồn tại vị trí khôi phục thảm họa và có thể được bật nguồn dễ dàng trong trường hợp khôi phục thảm họa khi cần khôi phục tức thì. Do đó, không phát sinh chi phí thêm cho việc duy trì các bản sao instance ở trạng thái chờ sẵn liên tục.