Przegląd scenariuszy testów odzyskiwania awaryjnego

Od współczesnych przedsiębiorstw oczekuje się ciągłości działania przez całą dobę, siedem dni w tygodniu. Nawet niewielkie opóźnienie w działalności operacyjnej i świadczeniu usług może podważyć wiarygodność organizacji i spowodować znaczne straty. Istnieje wiele czynników, które mogą prowadzić do przestojów w działalności, a głównym z nich są awarie, które zawsze pojawiają się w najmniej oczekiwanym momencie. Dlatego też, aby pozostać konkurencyjnym na rynku i zapewnić ciągłość działania, organizacje powinny opracować skuteczny plan odzyskiwania awaryjnego (DR) i regularnie go testować. W tym wpisie na blogu wymieniono czynniki, które warto wziąć pod uwagę przed przetestowaniem planu DR, oraz opisano, w jaki sposób przeprowadzenie scenariuszy testowych odzyskiwania awaryjnego może pomóc w przygotowaniu się do odzyskiwania danych po awarii.

Zapewnij dostępność dzięki NAKIVO

Zapewnij dostępność dzięki NAKIVO

Spełnij rygorystyczne wymagania dotyczące dostępności usług w infrastrukturach wirtualnych. Osiągnij zamierzone poziomy dostępności dzięki niezawodnym funkcjom orkestracji i automatyzacji procesów odzyskiwania po awarii.

Czym jest plan DR?

Zazwyczaj nie da się przewidzieć katastrofy, a zawsze pojawia się ona niespodziewanie. Dlatego organizacja zainteresowana zapewnieniem wysokiej dostępności powinna opracować plan DR. Plan DR to udokumentowany zestaw zadań i procedur, które należy wdrożyć, gdy katastrofa dotknie infrastrukturę IT organizacji. Jego głównym celem jest zminimalizowanie negatywnych skutków zdarzenia DR oraz zapobieganie ewentualnym szkodom. Kompleksowy plan DR określa, jakie działania należy podjąć przed, w trakcie i po wystąpieniu katastrofy.

Wyróżnia się dwa rodzaje katastrof: naturalne (tornada, huragany, powodzie itp.) oraz spowodowane przez człowieka (błędy serwerów, nieudane aktualizacje, ataki hakerów itp.). Plan odzyskiwania awaryjnego powinien być opracowany w oparciu o ryzyka i zagrożenia, na które organizacja jest najbardziej narażona. Ponadto należy zidentyfikować operacje i aplikacje, które są najbardziej krytyczne dla prowadzenia działalności, i nadać im najwyższy priorytet w kolejności odzyskiwania. Analizując te czynniki z wyprzedzeniem, zapewniasz, że Twój plan DR będzie w stanie rozwiązać wszelkie problemy, które mogą pojawić się podczas rzeczywistego zdarzenia DR.

Types of disasters

Czynniki, które należy wziąć pod uwagę przed przetestowaniem planu DR

Po stworzeniu planu DR powinieneś być gotowy do jego przetestowania. Nawet jeśli masz pewność, że opracowałeś wydajny i kompleksowy plan DR, powinieneś zweryfikować, czy wszystko działa zgodnie z planem, oraz zidentyfikować wszelkie problemy z wyprzedzeniem. Zanim jednak przystąpisz do testowania planu DR, warto wziąć pod uwagę kilka czynników, które zapewnią sukces procesu, takich jak założenia testowe, zakres testów i kryteria powodzenia testów.

Założenia testowe

Pierwszym krokiem w przygotowaniach do testów jest zdefiniowanie założeń testowych. Przed rozpoczęciem testów DR zespół ds. odzyskiwania danych powinien omówić, jaki kierunek obrać, aby osiągnąć optymalne wyniki. Zasadniczo założenia testowe stanowią podstawę, na której opiera się proces testowania DR. Kompleksowe założenia testowe obejmują:

  • Ryzyka i zagrożenia, na które organizacja jest najbardziej narażona, oraz odpowiednie mechanizmy reagowania, które należy przetestować
  • Scenariusze testów DR do wdrożenia oraz uzasadnienie tego wyboru
  • Warunki i okoliczności przedtestowe wymagane do przeprowadzenia testów DR
  • Warunki i okoliczności potestowe, które muszą zostać spełnione po zakończeniu testów
  • Wyniki, których oczekuje się po zakończeniu procesu testowania

Zakres testów

Kolejny ważny czynnik Należy wziąć pod uwagę zakres testów, który określa obszary, jakie należy objąć podczas procesu testowania. Zespół ds. odzyskiwania danych powinien jasno określić, które elementy systemu i funkcje należy przetestować, a następnie poinformować personel o systemach, które będą objęte testami DR. Ponadto zespół ds. odzyskiwania danych powinien zdefiniować ograniczenia i wyłączenia procesu testowania, aby dokładnie wiedzieć, co zostanie przetestowane, a co nie, i uniknąć wszelkich nieporozumień z góry.

Kryteria powodzenia testów

Kryteria powodzenia testów określają, kiedy proces testowania DR można uznać za pomyślnie zrealizowany. Analizując wyniki testów, można określić, czy oczekiwania zostały spełnione i jakie obszary wymagają poprawy. Testy DR są ogólnie uznawane za zakończone sukcesem, jeśli plan DR potwierdził swoją funkcjonalność i ważność. Jednakże, jeśli w wyniku procesu testowania DR zidentyfikowano słabe punkty planu DR, można to również uznać za sukces. Zespół ds. odzyskiwania danych jest teraz w stanie ulepszyć plan DR poprzez opracowanie środków zaradczych i usunięcie jego niedoskonałości. Ponadto kryteria powodzenia testu pozwalają personelowi ocenić swoją wydajność podczas testowania DR i ulepszyć mechanizmy reagowania organizacji na katastrofy.

Dlatego ważne jest, aby udokumentować każdy etap procesu oraz z wyprzedzeniem określić założenia testu, jego zakres i kryteria powodzenia, aby być przygotowanym na wszelkie nieoczekiwane problemy i odpowiednio na nie reagować.

Czym jest scenariusz testowania DR?

Testowanie wszystkich elementów planu DR bez wcześniejszego przygotowania nie jest praktyczne, ponieważ przeprowadzenie testów DR może być bardzo trudnym zadaniem. Aby zapewnić skuteczne działanie planu DR podczas zdarzenia DR, należy sprawdzić, w jaki sposób organizacja zareaguje na konkretne zdarzenie awaryjne. W tym celu można wykorzystać scenariusz testowania DR. Scenariusz awarii może zostać opracowany przez zespół ds. odzyskiwania danych, który uwzględni wszystkie aspekty organizacji, lub można skorzystać z gotowych szablonów scenariuszy DR dostępnych online.

Typowy scenariusz testowania DR zazwyczaj opisuje zdarzenie DR, jego okoliczności oraz wpływ, jaki wywarło ono na daną organizację. Symulując zdarzenie DR, można ocenić gotowość organizacji do procesu DR oraz zidentyfikować lepsze sposoby reagowania i przywracania sprawności po rzeczywistej katastrofie (naturalnej lub spowodowanej przez człowieka).

Rodzaje scenariuszy testów odzyskiwania awaryjnego

Scenariusze testów odzyskiwania awaryjnego obejmują wiele sytuacji awaryjnych i zdarzeń katastroficznych, które mogą w taki czy inny sposób wpłynąć na wydajność Twojej organizacji. Przyjrzyjmy się bliżej, co oznaczają te scenariusze testów DR.

Zakłócenie działalności

Większość organizacji stanowi złożony system, którego elementy są ze sobą silnie powiązane. Dlatego też awaria jednego z tych elementów naraża cały system na ryzyko zakłócenia działania. Należy opracować scenariusze testów DR obejmujące szeroki zakres problemów operacyjnych. W tym celu należy rozważyć wszelkie krytyczne operacje/procesy oraz zdarzenia związane z odzyskiwaniem awaryjnym, które mogą mieć na nie negatywny wpływ lub je uszkodzić.

Tego typu scenariusze testów odzyskiwania awaryjnego zazwyczaj obejmują wszelkie sytuacje awaryjne, które mogą zakłócić wydajność organizacji. Przykłady zdarzeń związanych z odzyskiwaniem awaryjnym w zakresie operacyjnym to: pożar lub wybuch w centrum produkcyjnym, awaria głównej linii montażowej spowodowana nieprawidłowym działaniem oprogramowania lub zakłócenia przepływu pracy spowodowane błędami ludzkimi.

Problemy technologiczne

Jeśli większość operacji odbywa się w środowisku serwerów wirtualnych, symulacja scenariuszy odzyskiwania po awarii związanych z technologią powinna być głównym priorytetem. W przypadku awarii systemu wznowienie działalności biznesowej może zająć trochę czasu. Dlatego niezbędne jest opracowanie scenariusza testów odzyskiwania po awarii odzwierciedlającego problemy technologiczne, które mogą znacząco wpłynąć na wydajność organizacji. Problemy takie mogą obejmować awarię serwera, zakłócenia łączności sieciowej, usterki oprogramowania, utratę danych lub brak dostępu do kopii zapasowych.

Utrata kluczowych pracowników

Personel stanowi istotną część każdej organizacji, ponieważ to pracownicy jako pierwsi stają w obliczu sytuacji kryzysowej i reagują na nią. Kierownictwo powinno utworzyć zespół ds. odzyskiwania sprawności, odpowiedzialny za przeprowadzenie i monitorowanie procesu DR od początku do końca. Jednak niektórzy członkowie zespołu ds. odzyskiwania sprawności – ci, którzy posiadają kluczową wiedzę na temat procedur DR – mogą zachorować lub odejść z pracy. Dlatego należy rozważyć możliwe konsekwencje takiej utraty i przygotować scenariusz testowania DR, który uwzględnia tę kwestię. Możliwe scenariusze DR obejmują następujące sytuacje: strajk personelu, sabotaż pracowniczy, epidemię grypy lub atak hakerski ze strony zwolnionego i niezadowolonego pracownika.

Klęski żywiołowe

Klęski żywiołowe, takie jak tornada, huragany czy trzęsienia ziemi, mogą mieć wpływ na ludzi i mienie, a także na infrastrukturę organizacji. Klęski żywiołowe są zazwyczaj nieprzewidywalne, a szkody, jakie mogą spowodować, są zazwyczaj dość trudne do oszacowania. Dlatego należy wziąć pod uwagę położenie geograficzne centrum produkcyjnego i zidentyfikować potencjalne ryzyka oraz zagrożenia, na które obszar ten jest najbardziej narażony. Na tej podstawie można opracować scenariusz testów odzyskiwania po awarii (DR), który będzie najbardziej odpowiedni dla danej organizacji. Przykłady scenariuszy klęsk żywiołowych obejmują: burzę lodową uszkadzającą infrastrukturę komunikacyjną, trzęsienie ziemi niszczące centrum produkcyjne oraz powodzie powodujące problemy transportowe.

Ryzyko biznesowe

Scenariusze DR związane z działalnością biznesową powinny być opracowane specjalnie dla Państwa organizacji, co oznacza, że należy przede wszystkim zdefiniować sposób funkcjonowania firmy oraz określić, jakie kluczowe elementy zapewniają jej ciągłość. Aby zidentyfikować obszary wymagające wyższego poziomu ochrony, należy przeprowadzić analizę wpływu na działalność (BIA), która ocenia najbardziej krytyczne operacje biznesowe oraz skutki ich zakłócenia. Na tej podstawie kierownictwo może zidentyfikować najbardziej prawdopodobne ryzyka i opracować odpowiedni scenariusz DR. Takie scenariusze DR zazwyczaj obejmują: krach na giełdzie, wycieki danych, utratę klientów na rzecz konkurencji lub niewypłacalność kluczowych dostawców.

Zdarzenia mało prawdopodobne

Jak wspomniano powyżej, istnieją różne zdarzenia związane z odzyskiwaniem po awarii, które mogą od czasu do czasu wpływać na organizacje. Należy jednak być również przygotowanym na reagowanie na zdarzenia o skali wykraczającej poza normę. Prawdopodobieństwo wystąpienia takiego zdarzenia jest niezwykle niskie, ale personel powinien być ich świadomy i wiedzieć, jak zareagować, gdy nadejdzie odpowiedni moment. W związku z tym należy stworzyć scenariusz testowania DR, który obejmowałby takie sytuacje awaryjne, jak: katastrofa samolotu w centrum produkcyjnym, erupcja wulkanu lub zamieszki społeczne.

Znaczenie testowania planu DR

Nawet najlepiej przemyślany plan DR nie może zostać uznany za skuteczny, dopóki nie zostanie przetestowany. Testowanie planu DR pozwala zidentyfikować wszelkie wady i niespójności w strategii DR, zapewniając w ten sposób przewidywanie i zapobieganie ewentualnym szkodom, zanim dojdzie do rzeczywistej katastrofy. W tym przypadku zdecydowanie zaleca się przegląd planu DR w kontekście scenariuszy testowych DR. Zespół ds. odzyskiwania sprawności może po prostu przejść przez wszystkie etapy opracowanego planu i omówić je szczegółowo, co nie wiąże się z żadnymi kosztami i jest łatwe do przeprowadzenia. Ta metoda testowania daje jednak jedynie podstawowy obraz przebiegu procesu odzyskiwania sprawności, ponieważ nie testuje się w niej żadnych elementów systemu. Z drugiej strony można przeprowadzić test symulacyjny na pełną skalę, co jest działaniem droższym i bardziej złożonym, ponieważ wymaga przetestowania wszystkich elementów planu odzyskiwania sprawności w rzeczywistym środowisku roboczym. Mimo że może to zakłócić proces produkcyjny, ten sposób testowania pozwala sprawdzić zdolność personelu do reagowania na różne scenariusze DR oraz zweryfikować skuteczność planu DR. W ten sposób można regularnie testować plan DR organizacji, stosując różne scenariusze DR w celu jego udoskonalenia i zapewnienia, że nawet nieoczekiwana awaria nie spowoduje opóźnień.

Testowanie odzyskiwania lokacji z NAKIVO

Aby zapewnić odpowiednią ochronę systemu oraz możliwość jego łatwego i szybkiego odzyskania, samo posiadanie planu DR nie wystarczy. Organizacja powinna zainstalować wydajne oprogramowanie do tworzenia kopii zapasowych i replikacji, aby zapewnić płynny proces DR. NAKIVO Backup & Replication to idealne rozwiązanie, ponieważ oferuje unikalną funkcję Odzyskiwanie lokacji, pozwalającą zaspokoić potrzeby każdej firmy w zakresie odzyskiwania po awarii. Możesz utwórz procedurę Odzyskiwania lokacji (tj. zadanie SR), które obejmuje szereg działań lub warunków, takich jak Tryb failover, powrót po awarii, uruchamianie/zatrzymywanie maszyn wirtualnych, uruchamianie/zatrzymywanie zadań, podłączanie/odłączanie repozytorium i inne, ułożone w wybranej przez Ciebie kolejności. Zadanie SR stanowi zautomatyzowany algorytm, który pozwala zaprojektować proces odzyskiwania na dowolną skalę. Zadania SR można łatwo modyfikować, uzupełniać lub testować bez wpływu na środowisko produkcyjne. Następnie proces jest całkowicie zautomatyzowany i może być uruchamiany zgodnie z harmonogramem lub na żądanie.

Zadanie SR można wykonać w trybie produkcyjnym i testowym. Aby przeprowadzić test zadania SR na żądanie, należy najpierw upewnić się, że zadanie SR już istnieje, a jeśli nie, należy je utworzyć. Następnie można wykonać poniższe kroki:

  1. W panelu Jobs należy wybrać zadanie SR, które ma zostać przetestowane, a następnie kliknąć Run Job.
  2. Następnie powinno otworzyć się okno dialogowe, które oferuje dwie opcje: Test site recovery job lub Run site recovery job. Należy kliknąć Test site recovery job.Running a SR job in test mode
  3. Następnie otworzy się nowe okno dialogowe, w którym można skonfigurować cele związane z czasem odzyskiwania (RTO). RTO to okres dopuszczalnego przestoju, w którym system powinien zostać przywrócony, aby zapobiec poważnym stratom. W tym oknie dialogowym można wyłączyć lub włączyć opcję „Cele związane z czasem odzyskiwania” (Czas docelowy przywrócenia sprawności). Jeśli opcja jest włączona, należy koniecznie ustawić wartość czasu docelowego przywrócenia sprawności, która określa czas, w jakim ma zostać zakończone testowanie zadania SR.Setting up the RTO value
  4. Kliknij Test , aby uruchomić zadanie.

    Uwaga: Testowanie zadania SR może również przebiegać zgodnie z harmonogramem. Opcję Test Schedule można skonfigurować podczas tworzenia nowego zadania SR. W ten sposób można skonfigurować zadanie SR tak, aby przeprowadzało okresowe testy zgodnie z wybranym harmonogramem.
    Configuring Test Schedule

Inny sposób ustawienia harmonogramu testów jest dostępny w przypadku wcześniej utworzonych zadań SR. W tym przypadku należy przejść do lewego panelu strony głównej, a następnie kliknąć prawym przyciskiem myszy zadanie SR, dla którego chcesz skonfigurować harmonogram testów. Pojawi się menu podręczne zawierające różne opcje zarządzania zadaniami, takie jak Run Job, Rename, Edit, Delete, i Disable. Kliknij Edit.

Następnie kliknij sekcję Test Schedule i wprowadź wybrane ustawienia harmonogramu. Menu jest identyczne jak w kreatorze New Odzyskiwanie lokacji Job Wizard.

W ten sposób można skonfigurować zadanie Odzyskiwanie lokacji tak, aby przeprowadzało okresowe testy zgodnie z harmonogramem najbardziej odpowiednim dla danej organizacji.

Wnioski

Każda organizacja świadoma konsekwencji zdarzenia związanego z odzyskiwaniem po awarii zdaje sobie sprawę z tego, jak ważne jest posiadanie kompleksowego planu odzyskiwania po awarii. Jednak wiele planów odzyskiwania po awarii okazuje się nieskutecznych z powodu braku testów. Aby zapewnić skuteczność i aktualność planu odzyskiwania po awarii, ważne jest opracowanie różnych scenariuszy awarii i zastosowanie ich w ramach procesu testowania odzyskiwania po awarii. Scenariusze DR pozwalają przeszkolić personel w zakresie reagowania na awarię, niezależnie od tego, jak nieoczekiwana lub mało prawdopodobna może ona być, co pozwala uniknąć ewentualnej paniki lub zamieszania.

Dzięki NAKIVO Backup & Replication masz pewność, że Twój system jest niezawodnie chroniony i można go łatwo odzyskać. Nowa funkcja — Odzyskiwanie lokacji — to zautomatyzowane, wielofunkcyjne narzędzie, które odciąża od konieczności ręcznego przeprowadzania procesu odzyskiwania awaryjnego. Ponadto możesz wykonać test zadania odzyskiwania w dowolnym momencie, bez wpływu na środowisko produkcyjne. Po otrzymaniu wyników testu możesz zidentyfikować wady swojej strategii odzyskiwania i odpowiednio zaktualizować zadanie odzyskiwania. W ten sposób funkcja Odzyskiwanie lokacji zapewnia szereg korzyści mających na celu zapewnienie ciągłości działania i ochrony danych.

Pobierz bezpłatną wersję próbną i przetestuj produkt w swoim środowisku VMware, Hyper-V lub mieszanym już dziś!

Wypróbuj NAKIVO Backup & Replication

Wypróbuj NAKIVO Backup & Replication

Skorzystaj z bezpłatnej wersji próbnej, aby poznać wszystkie funkcje rozwiązania w zakresie ochrony danych. 15 dni za darmo. Bez żadnych ograniczeń dotyczących funkcji ani pojemności. Nie trzeba podawać danych karty kredytowej.

People also read