Najlepsze rozwiązania dotyczące odzyskiwania awaryjnego w AWS
Każde zdarzenie, które może negatywnie wpłynąć na ciągłość działania firmy w kontekście obciążeń lokalnych lub w chmurze, można uznać za awarię. Niezwykle ważne jest, aby firma poświęciła czas i zasoby na zidentyfikowanie wszystkich potencjalnych zagrożeń oraz opracowanie planów ich zapobiegania – lub przynajmniej podjęcie odpowiednich działań w celu złagodzenia ewentualnych negatywnych skutków.
Opracowanie kompleksowego planu odzyskiwania awaryjnego (DR) dla infrastruktury lokalnej i chmury AWS ma najwyższy priorytet. W tym wpisie na blogu omawiamy najlepsze rozwiązania dotyczące planowania odzyskiwania awaryjnego w AWS dla obu przypadków, kładąc nacisk na obciążenia w AWS.
Korzyści z wykorzystania AWS do odzyskiwania awaryjnego
Platforma Amazon Web Services (AWS) oferuje szeroki wachlarz usług, w tym przechowywanie baz danych, moc obliczeniową, dostarczanie treści oraz inne unikalne funkcje. AWS może również służyć do szybkiego przywrócenia działalności biznesowej prowadzonej na maszynach wirtualnych i instancjach EC2 w razie awarii. AWS umożliwia tworzenie replik i konfigurowanie odzyskiwania awaryjnego zarówno lokalnie, jak i w chmurze. Przechowywanie danych krytycznych dla działalności w chmurze AWS eliminuje również konieczność posiadania dodatkowego fizycznego systemu pamięci masowej, co zazwyczaj wiąże się ze znacznymi kosztami.
W rzeczywistości dane kopii zapasowej i replikacji mogą być przechowywane w wielu regionach AWS na całym świecie, w sposób bezpieczny i niezawodny. W ramach funkcji odzyskiwania awaryjnego AWS umożliwia uruchamianie i testowanie rozwiązań DR innych dostawców w celu wykrycia ewentualnych niedociągnięć (przeprowadzanie testów odzyskiwania awaryjnego AWS). Następnie można użyć szablonów AWS CloudFormation do zdefiniowania najbardziej efektywnych praktyk odzyskiwania awaryjnego i zapisania ich w Amazon Virtual Private Cloud do dalszego wykorzystania.
Scenariusze odzyskiwania awaryjnego AWS
Amazon oferuje cztery strategie odzyskiwania awaryjnego AWS. Wybór zależy od potrzeb i budżetu organizacji. Możliwe są różne kombinacje dostosowane do konkretnych potrzeb danej infrastruktury wirtualnej.
- Wykonać kopię zapasową i przywrócić. Krytyczne dane można zarchiwizować i przesłać zdalnie, do lokalizacji takiej jak Magazyn Amazon S3, gdzie są one dobrze chronione i w razie potrzeby można je szybko przywrócić. Interfejs użytkownika Amazon S3 zapewnia dostęp z dowolnego miejsca. Można kopiować dane bezpośrednio do Amazon S3 lub wykonać kopie zapasowe i przechowywać je w chmurze. Jest to jeden z najpopularniejszych scenariuszy odzyskiwania awaryjnego w AWS.
- Pilot light. Ten scenariusz odzyskiwania awaryjnego pozwala na posiadanie niewielkiej wersji środowiska wirtualnego w chmurze, która jest zawsze uruchomiona i aktualna. Możesz szybko przywrócić i uruchomić najbardziej krytyczne komponenty swojej infrastruktury opartej na AWS. Wykorzystywane są usługi takie jak Amazon Machine Images (AMI) i migawki Amazon EBS. Metoda „pilot light” jest wygodniejsza niż strategia odzyskiwania awaryjnego AWS oparta na tworzeniu kopii zapasowych i przywracaniu, ponieważ znacznie skraca czas potrzebny na odzyskiwanie.
- Ciepła gotowość. W tym scenariuszu odzyskiwania awaryjnego w chmurze zawsze działa okrojona wersja infrastruktury produkcyjnej. W przypadku wystąpienia sytuacji wymagającej przywrócenia sprawności (DR) można go szybko skalować w górę, aby zminimalizować przestoje oraz przywrócić kluczowe operacje i obciążenia.
- Wdrażanie wielooddziałowe („hot standby”). Metoda ta polega na replikacji danych krytycznych dla działalności oraz podstawowych komponentów infrastruktury, a następnie rozłożeniu ich na kilka lokalnych lub w chmurze. Wszystkie te lokalizacje są aktywne; dzielą między sobą ruch i obciążenia. Jeśli awaria dotknie jedną z lokalizacji, nadal dysponujesz nienaruszonym systemem gotowym do pracy w pełnym trybie produkcyjnym. Do uruchomienia tego procesu służy funkcja Amazon EC2 Auto Scaling. Dzięki trybowi hot standby osiąga się minimalny cel związany z czasem odzyskiwania (RTO) i minimalny cel punktu odzyskiwania (RPO). Jeśli zdecydujesz się na wykorzystanie trybu hot standby w scenariuszach odzyskiwania awaryjnego w AWS, pamiętaj, że jednoczesne uruchamianie kilku systemów wirtualnych może być dość kosztowne.
W kontekście odzyskiwania awaryjnego należy również wspomnieć o następujących funkcjach:
- Replikacja . Aby zapewnić wysoką dostępność, można wdrożyć replikację międzyregionową, jeśli główne obciążenia znajdują się w chmurze AWS. W tym przypadku krytyczne dane i komponenty systemu są replikowane do dowolnego innego regionu AWS, który wybierzesz. Jeśli w głównej bazie danych zostaną wprowadzone jakiekolwiek zmiany, dane mogą zostać zaktualizowane natychmiast (replikacja synchroniczna) lub z niewielkim opóźnieniem (replikacja asynchroniczna). Te dwa rodzaje replikacji służą różnym potrzebom biznesowym.
- Powrót po awarii . Podczas procesu odzyskiwania po awarii obciążenie instancji, której dotyczy awaria, jest przenoszone do lokalizacji docelowej, a instancja repliki zostaje uruchomiona (Tryb failover). Po przywróceniu lokalizacji podstawowej można przywrócić pierwotną instancję. Aby zapisać wszystkie zmiany w danych, które zostały wprowadzone w instancji DR od momentu Trybu failover, należy odwrócić przepływ replikacji danych z powrotem do lokalizacji podstawowej (powrót po awarii).
- Wiele regionów AWS . Każdy region AWS to oddzielny i niezależny obszar przeznaczony do przechowywania instancji lub danych. Aby zapewnić skuteczne odzyskiwanie awaryjne, można przechowywać dane w dwóch lub więcej regionach AWS w celu złagodzenia skutków katastrof na bardzo dużą skalę.
Najlepsze rozwiązania dotyczące odzyskiwania awaryjnego w AWS
Oto najlepsze rozwiązania dotyczące odzyskiwania awaryjnego w AWS, o których należy pamiętać podczas tworzenia planu odzyskiwania awaryjnego w AWS dla swojego środowiska.
- Testowanie odzyskiwania awaryjnego w AWS . Po zainstalowaniu rozwiązania DR należy je przetestować. Testy można przeprowadzać na żądanie lub zaplanować. Można przeprowadzić „testy w warunkach rzeczywistych”, czyli sprawdzić działanie aplikacji i instancji, aby upewnić się, że plan odzyskiwania po awarii działa zgodnie z oczekiwaniami, a cele RTO są osiągalne. W tym celu można wykorzystać usługę AWS CloudFormation do wdrażania kompletnych środowisk na platformie Amazon EC2. Można utworzyć szablon zasobów, który pozwala modelować elementy infrastruktury w środowisku chmury i zarządzać nimi. Okresowe testy pozwalają zweryfikować, czy wszystkie elementy DR są odpowiednio zaplanowane i zorganizowane oraz czy w razie potrzeby możliwe jest dotrzymanie RTO i RPO.
- Monitorowanie i alerty . Aby zapobiec zniszczeniu infrastruktury przez ewentualną awarię, należy szybko identyfikować potencjalne problemy. Możesz regularnie monitorować przepływ pracy w systemie i sprawdzać jego integralność. Pozwala to na szybkie wykrywanie pojawiających się zagrożeń, takich jak problemy z łącznością, awaria serwera lub wyłączenie aplikacji. Amazon CloudWatch ocenia wydajność zasobów AWS. Można skonfigurować alarmy i powiadomienia, które będą informować o osiągnięciu krytycznego poziomu określonych wskaźników.
- Regularne tworzenie kopii zapasowych i replikacja . Przed wystąpieniem awarii kluczowe znaczenie ma przygotowanie systemu oraz regularne wykonywanie zadań tworzenia kopii zapasowych i replikacji. Dzięki temu uzyskasz dobry punkt docelowy dla Trybu failover. Po przełączeniu się do środowiska DR należy kontynuować regularne wykonywanie zadań tworzenia kopii zapasowych i replik. Przechowywanie tych kopii zapasowych i replik w oddzielnych lokalizacjach zdalnych pozwala uniknąć ryzyka wystąpienia pojedynczego punktu awarii. AWS może przeprowadzać regularne testy odzyskiwania awaryjnego w celu weryfikacji stanu infrastruktury DR.
- Wykorzystanie narzędzi i technik AWS . Aby zapewnić wdrożenie najlepszych rozwiązań AWS w zakresie odzyskiwania awaryjnego, należy zastosować grupy odzyskiwania lub stosy aplikacji. W ten sposób można odpowiednio zorganizować odzyskiwanie infrastruktury – np. aplikacje o znaczeniu krytycznym dla działalności powinny być odzyskiwane w pierwszej kolejności, ponieważ mają najwyższy priorytet.
Usługi AWS w zakresie odzyskiwania awaryjnego
W tym celu AWS oferuje różne usługi:
- Elastyczne odzyskiwanie awaryjne danych w AWS to usługa replikacji danych i odzyskiwania aplikacji działających lokalnie i w chmurze. Można uruchomić odzyskiwanie instancji AWS w chmurze, aby przywrócić aplikacje na tych instancjach.
- AWS Import/Export umożliwia dostęp do przenośnych urządzeń pamięci masowej w celu przesyłania danych i aplikacji o znaczeniu krytycznym dla działalności do i z AWS. Dzięki szybkiej sieci wewnętrznej Amazon nawet duże ilości danych można szybko i bezpiecznie przesyłać do miejsca docelowego. Usługa Amazon Elastic Compute Cloud (
- Amazon Elastic Cloud Compute , EC2) pozwala na korzystanie z zasobów obliczeniowych i tworzenie kompletnego wirtualnego centrum danych w chmurze AWS na żądanie. Instancje EC2 można utworzyć w ciągu kilku minut, zachowując pełną kontrolę przez cały okres odzyskiwania awaryjnego. Usługa Amazon Simple Storage Service (
- Usługa Amazon Simple Storage Service , S3) została zaprojektowana do przechowywania i pobierania danych o najwyższym priorytecie. Usługa ta przechowuje elementy krytyczne dla działalności na wielu urządzeniach w różnych lokalizacjach, zapewniając w ten sposób najwyższy poziom dostępności. AWS zapewnia dodatkową ochronę poprzez zarządzanie tożsamością i dostępem (IAM), zasady dotyczące zasobników, uwierzytelnianie wieloskładnikowe (MFA) oraz przechowywanie wersji obiektów.
- Amazon Elastic Block Store (Amazon EBS) to pamięć masowa na poziomie bloków przeznaczona do przechowywania danych wykorzystywanych w instancjach Amazon EC2 w chmurze. Dane są przechowywane na podstawie migawek, które są następnie przesyłane do Amazon S3, zapewniając w ten sposób długoterminowe i niezawodne przechowywanie danych.
- Usługa relacyjnych baz danych Amazon (Amazon RDS) pomaga skonfigurować relacyjną bazę danych w chmurze AWS i zarządzać nią. Jest to ekonomiczne i elastyczne rozwiązanie do wykonywania wielu zadań związanych z administracją bazami danych.
- Amazon Połączenie bezpośrednie umożliwia skonfigurowanie dedykowanego połączenia między siecią lokalną a chmurą AWS. Pomaga to zabezpieczyć i przyspieszyć połączenia sieciowe bez ponoszenia wysokich kosztów.
- Bezpieczny dostęp . Podczas pracy z danymi prywatnymi i/lub krytycznymi dla działalności zapewnienie wysokiego poziomu bezpieczeństwa ma kluczowe znaczenie dla organizacji każdej wielkości. W tym celu można zastosować usługę AWS Identity and Access Management (IAM), która zapewnia bezpieczny dostęp do zasobów w środowisku DR. Dzięki IAM można tworzyć zasady bezpieczeństwa oparte na rolach i użytkownikach, które kontrolują dostęp użytkowników do krytycznych danych.
- Automatyzacja . Automatyzacja odzyskiwania awaryjnego jest ważnym aspektem najlepszych rozwiązań AWS w zakresie odzyskiwania awaryjnego. Podczas odzyskiwania awaryjnego niezbędna jest pełna kontrola nad serwerami opartymi na AWS oraz serwerami lokalnymi. Jednak ręczne nadzorowanie odzyskiwania każdej aplikacji i instancji jest często fizycznie niemożliwe. Aby zapewnić skuteczne zarządzanie, wymagana jest orkestracja i automatyzacja procesów odzyskiwania awaryjnego. W tym celu dostępnych jest wiele usług zarządzania Amazon:
- Zestaw funkcji dostępnych w AWS CloudFormation umożliwia automatyczne wdrażanie usług infrastrukturalnych.
- AWS OpsWorks pomaga zautomatyzować konfigurację, wdrażanie i zarządzanie serwerami w instancjach Amazon EC2, a także lokalnie.
- Funkcja Autoscaling pozwala skalować instancje w górę lub w dół w celu dostosowania się do zapotrzebowania na podstawie parametrów określonych w AWS CloudWatch. Jest to niezwykle pomocne podczas odzyskiwania awaryjnego. Rozwiązanie może automatycznie zwiększać skalowanie, aby poradzić sobie ze zwiększonym obciążeniem serwerów, oraz zmniejszać skalowanie, gdy procesy infrastruktury produkcyjnej powrócą do normalnego stanu.
- Licencjonowanie . Zainstalowanie prawidłowo licencjonowanych aplikacji w środowisku AWS ma kluczowe znaczenie dla wydajności działania. AWS oferuje różne rodzaje licencjonowania, takie jak „Licencja w zestawie” i „Własna licencja”, aby dostosować się do konkretnych potrzeb biznesowych. Należy pamiętać, że rozwiązanie do ochrony danych powinno również posiadać licencję na płynna integracja z AWS.
Rozwiązanie do odzyskiwania awaryjnego AWS od NAKIVO
Amazon EC2 to wysoce niezawodna i bezpieczna chmura. Niemniej jednak istnieje szereg zagrożeń, które mogą zakłócić wydajność instancji EC2 i zagrozić ciągłości działania. Dedykowane, zintegrowane rozwiązanie do tworzenia kopii zapasowych i odzyskiwania awaryjnego, takie jak NAKIVO Backup & Replication, może zapewnić najwyższą niezawodność i realizację celów związanych z odzyskiwaniem danych.
Rozwiązanie NAKIVO może chronić Twoje środowisko chmurowe dzięki tworzeniu kopii zapasowej instancji Amazon EC2 oraz Replikacja wystąpienia Amazon EC2, umożliwiając stosowanie najlepszych rozwiązań AWS w zakresie odzyskiwania awaryjnego. Funkcje odzyskiwania awaryjnego tego rozwiązania obejmują automatyczny tryb failover, powrót po awarii, odzyskiwanie lokacji do orkiestracji sekwencji odzyskiwania o dowolnej złożoności oraz testowanie odzyskiwania.
Produkt pozwala tworzyć repliki oryginalnych instancji EC2 i zarządzać nimi oraz przechowywać je w wybranej lokalizacji docelowej. Repliki instancji pozostają w stanie wyłączonym w lokalizacji odzyskiwania po awarii i można je łatwo włączyć podczas zdarzenia awaryjnego, gdy wymagane jest natychmiastowe odzyskiwanie. Dzięki temu nie ponosisz dodatkowych kosztów związanych z ciągłym utrzymywaniem replik instancji w stanie gotowości.