Testy odzyskiwania awaryjnego i dlaczego Twoja firma ich potrzebuje
Niezależnie od tego, jak niezawodny stał się obecnie sprzęt i oprogramowanie, urządzenia nadal są narażone na awarie z różnych powodów. W przypadku awarii systemy mogą przestać działać, a dane mogą być niedostępne przez długi czas. Nawet po przywróceniu działania systemów czasami nie da się odzyskać danych, które zostają bezpowrotnie utracone. Najbardziej niezawodnym sposobem na ograniczenie tych zagrożeń jest wdrożenie planu odzyskiwania awaryjnego ( kompleksowy plan odzyskiwania awaryjnego (DR)).
Plan odzyskiwania awaryjnego to zestaw procedur, które należy wykonać w celu przywrócenia danych i obciążeń w wyznaczonym czasie. Ta szczegółowa lista kontrolna DR zawiera mechanizmy wdrożone z wyprzedzeniem w celu przygotowania się na różne scenariusze awarii.
Statystyki pokazują, że 95% firm na całym świecie inwestuje znaczne zasoby w planowanie na najgorszy scenariusz, w tym w odzyskiwanie po awarii. Jednak tylko 78% z nich przeprowadza testy odzyskiwania awaryjnego sprawdza, czy ich plan faktycznie spełnia założone cele. Czytaj dalej, aby dowiedzieć się, czym są testy odzyskiwania awaryjnego i jak opracować strategię testowania odzyskiwania awaryjnego dla swojej organizacji, aby zapewnić dostępność systemu i ciągłość działania w przypadku każdego incydentu.
Czym są testy odzyskiwania awaryjnego?
Testy odzyskiwania awaryjnego to weryfikacja poszczególnych etapów planu odzyskiwania awaryjnego, mająca na celu upewnienie się, że plan można pomyślnie wdrożyć, a kluczowe aplikacje i dane przywrócić po wystąpieniu zakłócenia. Testowanie planu odzyskiwania awaryjnego ma na celu zapewnienie, że działalność biznesowa i kluczowe usługi mogą być utrzymane zarówno w trakcie, jak i po wystąpieniu incydentu.
Testy odzyskiwania awaryjnego w swojej najbardziej kompleksowej formie obejmują symulację awarii systemów informatycznych lub innego rodzaju zakłócenia działalności, aby ocenić skuteczność istniejącego planu odzyskiwania awaryjnego. Głównym celem testów odzyskiwania awaryjnego jest sprawdzenie, czy organizacja jest w stanie spełnić cele związane z czasem odzyskiwania (RTO) i cele punktu odzyskiwania (RPO) określone w planie odzyskiwania awaryjnego. Należy Zrozumieć różnicę między RPO a RTO i ustalić je dla każdej aplikacji i maszyny wirtualnej. Test odzyskiwania awaryjnego dostarcza również informacji na temat tego, jak system zachowuje się w przypadku, gdy jakakolwiek część infrastruktury stanie się niedostępna. Informacje te mogą pomóc w udoskonaleniu planu odzyskiwania awaryjnego organizacji i usunięciu wszelkich słabych punktów, zanim dojdzie do rzeczywistej awarii.
Należy pamiętać, że plan testów odzyskiwania awaryjnego nie powinien ograniczać się do technicznych elementów planu odzyskiwania awaryjnego. Równie ważne jest sprawdzenie, czy każdy pracownik zaangażowany w odzyskiwanie awaryjne rozumie swoją rolę i ma dostęp do zasobów niezbędnych do wykonywania swoich zadań w przypadku awarii.
Testy planu odzyskiwania awaryjnego powinny być przeprowadzane regularnie, najlepiej kilka razy w roku. Środowiska IT zmieniają się regularnie wraz z wycofywaniem oprogramowania, wprowadzaniem nowych aplikacji lub wymianą sprzętu, co z kolei wymaga odpowiednich zmian w planie odzyskiwania awaryjnego. Proces testowania odzyskiwania awaryjnego może być częścią rutynowych czynności konserwacyjnych i szkoleń personelu.
Dlaczego testowanie odzyskiwania awaryjnego jest ważne
Ryzyko związane z brakiem testowania planu odzyskiwania awaryjnego to utrata danych i dostępu do systemów. Można ubezpieczyć firmę od strat, ale żadna polisa ubezpieczeniowa nie zastąpi danych utraconych w wyniku incydentu ani nie zrekompensuje skutków długotrwałej przerwy w działaniu firmy. Jedynym sposobem na rzeczywiste zapewnienie ciągłości działania i dostępności jest stworzenie planu odzyskiwania awaryjnego i przeprowadzanie regularnych testów. Jeśli nadal nie są Państwo przekonani, że testowanie planu odzyskiwania awaryjnego jest konieczne, oto lista korzyści, jakie testy odzyskiwania awaryjnego pomagają osiągnąć, zanim dojdzie do incydentu:
- Wykryj luki lub niedociągnięcia w planie odzyskiwania po awarii
- Upewnij się, że sekwencja działań podczas odzyskiwania jest prawidłowa
- Sprawdź, czy cele odzyskiwania są realistyczne i możliwe do osiągnięcia
- Zminimalizuj utratę danych
- Przećwicz działania zespołu ds. odzyskiwania awaryjnego i upewnij się, że każdy członek rozumie swoją rolę
- Wprowadź aktualizacje i poprawki, zanim będzie za późno
Elementy procesu testowania odzyskiwania awaryjnego
Test odzyskiwania awaryjnego powinien być zaplanowany tak, aby przynosił rezultaty i pomagał poprawić gotowość do odzyskiwania. Oznacza to, że cele testu odzyskiwania awaryjnego powinny być jasne, a Ty powinieneś dysponować określonym harmonogramem dotyczącym częstotliwości przeprowadzania testów, kryteriów sukcesu, oceny wyników oraz kroków mających na celu wyeliminowanie luk i wszelkich niepowodzeń w zakresie odzyskiwania awaryjnego. Przyjrzyjmy się tym elementom bardziej szczegółowo.
Określenie zakresu testu odzyskiwania po awarii
Zakres testów odzyskiwania po awarii obejmuje zestaw założeń i oczekiwań, które powinny zostać spełnione podczas procesu testowania. Określenie zakresu testów powinno obejmować:
- Identyfikację systemów i funkcji, które zostaną uwzględnione w testach odzyskiwania po awarii
- Zdefiniowanie, jaki rodzaj procesu odzyskiwania awaryjnego będzie testowany: odzyskiwanie całych maszyn z kopii zapasowych, Tryb failover do lokalizacji odzyskiwania awaryjnego itp.
- Ustalenie z wyprzedzeniem wyjątków i ograniczeń, ponieważ niektóre elementy planu odzyskiwania awaryjnego mogą nie zostać zrealizowane zgodnie z planem
- Określenie działów i personelu objętych procesem testowania odzyskiwania awaryjnego
- Zdefiniowanie scenariuszy, które będą testowane: awaria lokalizacji podstawowej, atak oprogramowania wymuszającego okup, utrata połączenia, awaria serwera/bazy danych itp.
Przegląd planu odzyskiwania awaryjnego
Przed rozpoczęciem testów należy dokonać przeglądu planu odzyskiwania awaryjnego. Testy odzyskiwania awaryjnego powinny być przeprowadzane w sposób zorganizowany, z naciskiem na polityki i praktyki organizacji. W związku z tym zespół ds. odzyskiwania awaryjnego powinien spotkać się z kierownictwem wyższego szczebla w celu przeglądu istniejącego planu odzyskiwania awaryjnego i określenia wszelkich zmian lub aktualizacji, które należy wdrożyć w oparciu o aktualny stan działalności. Obejmują one takie czynniki, jak wprowadzenie nowego sprzętu lub oprogramowania, ekspansja biznesowa, cięcia budżetowe, rotacja personelu itp.
Częstotliwość testów odzyskiwania awaryjnego
Ponieważ obecne środowiska IT są bardzo dynamiczne, określenie częstotliwości przeglądów ma kluczowe znaczenie dla stałej aktualizacji planu odzyskiwania awaryjnego. Niektóre organizacje przeglądają i aktualizują swoje plany odzyskiwania awaryjnego raz w roku. Najskuteczniejszą strategią jest jednak aktualizowanie (i ponowne testowanie) planu odzyskiwania awaryjnego za każdym razem, gdy zachodzą zmiany w kluczowych dla działalności elementach organizacji. Chociaż testy odzyskiwania awaryjnego mogą być czasochłonne i kosztowne, harmonogram testów należy opracować w oparciu o potrzeby biznesowe i dostępne zasoby, biorąc pod uwagę zakres procesów odzyskiwania awaryjnego.
Kryteria powodzenia testów
Należy ustalić kryteria, które określają, czy testy odzyskiwania awaryjnego maszyn wirtualnych zakończyły się powodzeniem, czy nie. W idealnym przypadku testy odzyskiwania awaryjnego maszyn wirtualnych można uznać za zaliczone, gdy plan odzyskiwania awaryjnego okaże się ważny i wykonalny.
Jednak testy odzyskiwania awaryjnego można uznać za udane, nawet jeśli plan odzyskiwania awaryjnego nie przeszedł testu. Taki scenariusz pozwala zidentyfikować wady planu odzyskiwania awaryjnego przed faktyczną awarią i usunąć je w kolejnej iteracji planu. Zasadniczo kryteria powodzenia testu są definiowane na podstawie z góry określonych oczekiwań, które powinny być jasno wyrażone w planie testów odzyskiwania awaryjnego, aby uniknąć nieporozumień.
Ocena wyników testów
Wyniki procesu testowania odzyskiwania awaryjnego maszyn wirtualnych (VM) zapewniają ogólny przegląd strategii odzyskiwania awaryjnego (DR) stosowanych obecnie w firmie. Zespół ds. odzyskiwania może ocenić wyniki testów i zaproponować ulepszenia lub dostosowania planu DR na podstawie zidentyfikowanych problemów.
Podczas oceny wyników testów DR należy również wziąć pod uwagę następujące wskaźniki:
- Ile czasu upłynęło do przywrócenia działań o znaczeniu krytycznym
- Jak dobrze wykonano każdy etap planu (czy wystąpiły jakieś błędy i opóźnienia)
- Ile operacji zostało pomyślnie zakończonych podczas procesu testowania DR
Należy wprowadzić zmiany i aktualizacje oraz je przetestować w celu ulepszenia planu DR. Celem jest zapewnienie bardziej efektywnego i łatwiejszego w zarządzaniu procesu odzyskiwania.
Przegląd planu odzyskiwania awaryjnego po zakończeniu testów
Po uruchomieniu planu odzyskiwania awaryjnego w trybie testowym zaleca się ponowne przejrzenie planu odzyskiwania awaryjnego. Podczas testów odzyskiwania awaryjnego należy odnotować mocne i słabe strony, a także wszelkie nieoczekiwane wyniki oraz zmierzyć ich wpływ na ciągłość działania. Może to znacznie poprawić strategie odzyskiwania awaryjnego i zwiększyć ogólną wydajność. Kroki mające na celu wyeliminowanie luk i usunięcie awarii powinny zostać szczegółowo opisane i dodane do kolejnej wersji planu odzyskiwania awaryjnego.
Czynniki, które należy wziąć pod uwagę przed przetestowaniem planu odzyskiwania awaryjnego
- Liczba osób w zespole ds. odzyskiwania awaryjnego: Zespół ds. odzyskiwania awaryjnego powinien składać się z co najmniej dwóch osób, aby uniknąć problemu „pojedynczego punktu awarii”. Dzięki większej liczbie członków zespołu, jeśli w razie awarii nie uda się skontaktować z jedną osobą, można mieć pewność, że jest zastępca posiadający niezbędną wiedzę i dostęp do lokalizacji awaryjnej.
- Pora dnia wybrana do testowania odzyskiwania awaryjnego: Zazwyczaj testy odzyskiwania awaryjnego są przeprowadzane poza godzinami pracy, ponieważ proces ten jest czasochłonny i może zakłócić działalność biznesową lub wpłynąć na ogólną wydajność. Jednak wyniki tych testów mogą nie odzwierciedlać tego, jak plan odzyskiwania awaryjnego funkcjonowałby w rzeczywistych warunkach pracy. Idealnym rozwiązaniem może być testowanie poszczególnych elementów planu odzyskiwania awaryjnego maszyn wirtualnych w izolacji w godzinach pracy. Pomaga to zmniejszyć ryzyko przeciążenia systemu, które wiąże się z przeprowadzaniem pełnych testów.
- Zmiany w zespole lub infrastrukturze IT: Przed przetestowaniem planu odzyskiwania awaryjnego należy wziąć pod uwagę różne czynniki, które mogą sprawić, że plan odzyskiwania awaryjnego będzie niekompletny i nieaktualny. Jak wspomniano powyżej, czynniki te mogą obejmować między innymi nowe elementy infrastruktury oraz zmiany kadrowe. Należy na bieżąco informować zespół odzyskiwania awaryjnego o nowych zmianach w środowisku i wysyłać krótkie notatki z najnowszymi aktualizacjami do pracowników.
Metody testowania odzyskiwania awaryjnego
W tej sekcji omówimy cztery najpopularniejsze metody testowania odzyskiwania awaryjnego. Rozważ je dokładnie przed podjęciem decyzji, które z nich stanowi właściwe podejście dla Twojej organizacji lub czy można zastosować kombinację tych podejść.
Testowanie na podstawie listy kontrolnej
Test planu odzyskiwania awaryjnego na podstawie listy kontrolnej polega na przeglądzie listy wymagań i warunków, które muszą zostać spełnione. Przegląd ten stanowi doskonały punkt wyjścia, ponieważ jest to najbardziej podstawowa opcja i obejmuje analizę aktualnego planu oraz sprawdzenie każdego punktu w celu wykrycia nieaktualnych lub brakujących elementów. Oznacza to na przykład sprawdzenie, czy kopia zapasowa ma wystarczającą wielkość, czy zespół ds. odzyskiwania danych został poinformowany o najnowszych aktualizacjach, czy rozwiązanie do ochrony danych działa itp.
Dzięki zastosowaniu tej metody testowania DR zespół ds. odzyskiwania danych może szybko przejrzeć plan DR, upewnić się, że wszystkie elementy są na swoim miejscu, oraz zidentyfikować wszelkie brakujące elementy w strategii DR. Procedurę tę można przeprowadzić w minimalnym czasie i bez dużego zaangażowania personelu.
Testowanie odzyskiwania awaryjnego metodą „walkthrough”
Celem tej strategii jest ustne prześledzenie każdego etapu planu odzyskiwania awaryjnego maszyn wirtualnych oraz zidentyfikowanie wszelkich problemów i niedociągnięć. W ramach tego procesu wszyscy członkowie zespołu ds. odzyskiwania awaryjnego biorą udział w przeglądzie i omówieniu planu, formułując zalecenia.
Niezwykle ważne jest zapewnienie, aby każdy dobrze rozumiał plan i był świadomy swoich obowiązków w trakcie zdarzenia awaryjnego. Metoda ta polega wyłącznie na ustnym omówieniu procesu odzyskiwania awaryjnego. Technologiczne aspekty planu DR nie są faktycznie testowane ani zatwierdzane podczas testów typu walkthrough.
Testy DR typu tabletop/symulacyjne
W przypadku testu typu tabletop organizacja przechodzi przez symulowany scenariusz awarii, aby ustalić, czy plan DR jest odpowiedni i czy zdefiniowane cele mogą zostać osiągnięte. Tę metodę testowania DR można uznać za rozszerzenie testu typu walkthrough. Wszyscy członkowie zespołu zapoznają się z różnymi scenariuszami katastrof, które analizują, omawiając, jak postąpiliby w danych okolicznościach. Pozwala to przetestować gotowość personelu w bardziej realistycznych warunkach i sprawdzić, czy plan odzyskiwania awaryjnego jest w stanie poradzić sobie z nieoczekiwanymi problemami.
- Przećwiczenie na papierze . Zespół ds. odzyskiwania awaryjnego przeprowadza krok po kroku przećwiczenie planu, tak jakby doszło do prawdziwej katastrofy. Ta metoda testowania odzyskiwania awaryjnego pomaga zidentyfikować potencjalne słabe punkty i ukryte problemy.
- Symulacja scenariusza . Metoda ta polega na wykonaniu planu odzyskiwania awaryjnego w środowisku testowym bez zakłócania przepływu pracy w środowisku produkcyjnym. Symulacja jest przeprowadzana zgodnie z konkretne scenariusze odzyskiwania danych.
- Pełna symulacja odzyskiwania awaryjnego . Ta metoda testowania odzyskiwania awaryjnego jest podobna do opisanej powyżej symulacji, ale tym razem scenariusz obejmuje całkowitą awarię operacji w głównej lokalizacji. Metoda ta polega na próbie pełnego odzyskiwania danych zdalnie.
Testy równoległe
Testy równoległe pozwalają sprawdzić funkcję systemów odzyskiwania danych w celu ustalenia, czy są one w stanie realizować operacje biznesowe i zabezpieczyć krytyczne procesy. Systemy podstawowe nie są uwzględniane w procesie testowania odzyskiwania awaryjnego, ponieważ oczekuje się, że będą one obsługiwać pełne obciążenie produkcyjne. Jest to bezpieczny i bezprzerwowy sposób testowania systemów technicznych.
Testy z całkowitym wstrzymaniem działalności
Test odzyskiwania awaryjnego z całkowitym wstrzymaniem działalności zapewnia dokładne sprawdzenie planu odzyskiwania danych maszyn wirtualnych. W tym przypadku lokalizacja awaryjna przejmuje całe obciążenie produkcyjne, a lokalizacja podstawowa zostaje wyłączona. Celem jest jak najszybsze przywrócenie sprawności przy użyciu korporacyjnego planu odzyskiwania awaryjnego. Przeprowadzenie testu z całkowitym wstrzymaniem działalności powinno być dobrze przemyślane, ponieważ może to zakłócić normalne funkcjonowanie firmy i wiąże się ze znacznymi kosztami.
Każdy z procesów odzyskiwania powinien zostać udokumentowany. Zidentyfikuj wszystkie problemy i wątpliwości podczas przeprowadzania testu odzyskiwania awaryjnego, aby zająć się nimi później. Działania zespołu ds. odzyskiwania danych powinny być ściśle obserwowane w celu wskazania wszelkich potencjalnych luk w planie odzyskiwania awaryjnego maszyn wirtualnych. Test z pełnym przerwaniem pracy jest również odpowiednią metodą testowania odzyskiwania awaryjnego, pozwalającą sprawdzić, czy cele odzyskiwania awaryjnego są akceptowalne i osiągalne.
Możesz rozważyć przeprowadzenie testu z pełnym przerwaniem pracy bez uprzedniego powiadamiania personelu. Pozwoli to dokładniej ocenić gotowość zespołu na wypadek awarii.
Przydatne wskazówki dotyczące testowania odzyskiwania awaryjnego
Testowanie planu odzyskiwania awaryjnego to ważne zadanie, które czasami może wydawać się przytłaczające. Poniższe wskazówki dotyczące testowania odzyskiwania awaryjnego mogą pomóc zaoszczędzić czas i zmniejszyć stres:
- Po zainstalowaniu nowego sprzętu lub oprogramowania należy je natychmiast przetestować w celu zweryfikowania ich funkcji i integralności. Pomaga to również określić RTO produktu i dowiedzieć się, jak może on działać podczas procedur odzyskiwania awaryjnego.
- Przed opracowaniem planu DR przeprowadź analizę ryzyka (RA) oraz analizę wpływu na działalność (BIA). Stale weryfikuj wyniki tych analiz, a w przypadku wprowadzenia jakichkolwiek zmian zastanów się, w jaki sposób powinny one znaleźć odzwierciedlenie w strategii DR.
- Testy powinny być przeprowadzane w warunkach jak najbardziej zbliżonych do scenariusza DR. Symulując rzeczywisty scenariusz awarii, możesz sprawdzić, jak dobrze pracownicy mają wysoki poziom wydajności w warunkach DR. Pomaga to również zmniejszyć stres wśród personelu, ponieważ pracownicy przyzwyczajają się do różnych scenariuszy DR i dowiadują się, czego się od nich oczekuje.
- Zaproś niezależnych obserwatorów do przeglądu planu DR i monitorowania procesu testowania. Takie podejście gwarantuje, że pracownicy nie będą szli na skróty, aby szybko zakończyć testy. Co więcej, niezależni obserwatorzy mogą następnie pomóc w przeredagowaniu i ulepszeniu planu DR, często identyfikując problemy, które nie są widoczne dla osób wewnątrz organizacji.
- Posiadaj kompletną listę wszystkich aplikacji w swojej infrastrukturze. Lista ta powinna zawierać szczegółowe informacje o każdej aplikacji, ich konfiguracjach, dane kontaktowe właścicieli aplikacji oraz szczegóły dotyczące umowy/licencji.
- Na początkowych etapach testy odzyskiwania awaryjnego (DR) należy przeprowadzać etapami i po godzinach pracy, aby nie przeciążać systemu. Po zidentyfikowaniu ewentualnych niedociągnięć i odpowiednim udoskonaleniu planu można rozważyć przeprowadzenie dalszych pełnych testów w godzinach pracy.
Odzyskiwanie awaryjne z NAKIVO Backup & Replication
NAKIVO Backup & Replication to niezawodne rozwiązanie do tworzenia kopii zapasowych i odzyskiwania danych po awarii. Rozwiązanie to pozwala zautomatyzować procesy tworzenia kopii zapasowych, replikacji i odzyskiwania danych po awarii, zapewniając jednocześnie integralność danych na różnych platformach (fizycznych, wirtualnych lub w chmurze). Rozwiązanie NAKIVO obejmuje replikację maszyn wirtualnych, Tryb failover, powrót po awarii oraz Odzyskiwanie lokacji funkcje odzyskiwania danych po awarii. Ponadto można przetestować sekwencję odzyskiwania danych po awarii, aby upewnić się, że wszystko jest poprawnie skonfigurowane.
Uruchamianie zadań Odzyskiwania lokacji w trybie testowym
Usługa NAKIVO Backup & Replication umożliwia uruchamianie zadań Odzyskiwania lokacji w trybie testowym w celu sprawdzenia, czy w przypadku awarii wszystkie składniki systemu można łatwo przywrócić oraz czy możliwe jest osiągnięcie określonych celów odzyskiwania awaryjnego. Test ten nie zakłóca działania obciążeń produkcyjnych. Zadanie Odzyskiwania lokacji w trybie testowym można zarówno zaplanować, jak i uruchomić na żądanie.
Poniższy przewodnik opisuje, jak ręcznie uruchomić zadanie Odzyskiwania lokacji w trybie testowym. Należy pamiętać, że zadanie odzyskiwania lokacji musi zostać najpierw skonfigurowane.
- Na pulpicie nawigacyjnym
Jobswybierz zadanie odzyskiwania lokacji, a następnie kliknij przyciskRun Job. Menu rozwijane zawiera dwie opcje. KliknijTest site recoveryzadanie.
- W wyświetlonym oknie dialogowym można skonfigurować wskaźniki RTO. Zdefiniuj maksymalny dopuszczalny czas, jaki może zająć wykonanie zadania odzyskiwania lokacji. Jeśli przebieg testu przekroczy wprowadzoną wartość RTO, test zostanie uznany za nieudany. Można również wyłączyć tę opcję.
- Na koniec kliknij
Test, aby uruchomić zadanie.
Opcje harmonogramu testów
Opcje harmonogramu testów można również skonfigurować podczas konfigurowania zadania Odzyskiwanie lokacji. Opcje te działają, gdy zadanie jest uruchamiane w trybie testowym.
Raport e-mailowy
Gdy ta opcja jest włączona, wybrani odbiorcy otrzymują raport z testu po każdym zakończeniu zadania. Przed kliknięciem przycisku należy skonfigurować ustawienia powiadomień e-mailowych w zakładce 5. Opcje Finish .
Raport można również pobrać jako plik PDF lub CSV bezpośrednio z przeglądarki internetowej. Wystarczy kliknąć prawym przyciskiem myszy zadanie Odzyskiwania lokacji i wybrać opcję Site Recovery Job Report.



