Lista kontrolna planu zapewnienia ciągłości działania
Zakłócenie lub awaria mogą wystąpić w najmniej oczekiwanym momencie. W rzeczywistości 80% kierowników centrów danych doświadczyło awarii w ciągu ostatnich trzech lat. Niezależnie od tego, czy chodzi o cyberatak, infekcję oprogramowaniem wymuszającym okup, błąd ludzki czy klęskę żywiołową, długotrwałe przestoje mogą mieć szkodliwy wpływ na działalność Twojej organizacji.
Posiadanie solidnego planu ciągłości działania (BCP) w ramach strategii zarządzania ryzykiem pozwala na utrzymanie lub szybkie przywrócenie kluczowych funkcji w przypadku wystąpienia zakłóceń. Plan BCP chroni również infrastrukturę firmy i służy jako zarys, zgodnie z którym można odpowiednio zareagować na incydent.
W tym poście wymieniono podstawowe elementy listy kontrolnej planu ciągłości działania. Zapoznaj się z nim, aby dowiedzieć się, jakie działania należy podjąć, aby skutecznie wznowić działalność przy minimalnych skutkach ubocznych.
Dlaczego potrzebujesz planu ciągłości działania
Plan ciągłości działania (BCP) określa, w jaki sposób organizacja może nadal dostarczać produkty i usługi w przypadku nieprzewidzianych zakłóceń. BCP to szczegółowa strategia, która pomaga złagodzić wpływ awarii na bieżącą działalność, jednocześnie zapewniając ciągłość funkcjonowania środowiska produkcyjnego.
Kompleksowy plan BCP powinien uwzględniać wszystkie potencjalne zagrożenia, które mogą stanowić niebezpieczeństwo dla pracowników, zasobów i działalności, niezależnie od tego, czy chodzi o awarię zasilania, infekcję złośliwym oprogramowaniem czy klęskę żywiołową. Jest to szczególnie ważne, ponieważ wszystkie te zdarzenia mogą powodować przestoje, co z kolei skutkuje stratami finansowymi, utratą reputacji lub trwałym zamknięciem działalności.
Głównym celem planu ciągłości działania jest zapewnienie gotowości na sytuacje awaryjne poprzez umożliwienie zespołowi reagowania metodycznego wykonania niezbędnych czynności przed, w trakcie i po wystąpieniu sytuacji zakłócającej. Firmy, które nie dysponują taką listą kontrolną, mogą mieć trudności z utrzymaniem normalnych procesów biznesowych i narażają się na ryzyko utraty danych, systemów lub klientów, często w sposób nieodwracalny.
7-etapowy plan ciągłości działania
7-etapowa lista kontrolna pomaga sformułować ogólne ramy priorytetów, na podstawie których można stworzyć plan ciągłości działania dostosowany do potrzeb danej organizacji. Można w nim uwzględnić wszystkie procedury niezbędne do utrzymania działalności biznesowej w czasie kryzysu. Należy pamiętać, że dokładne szczegóły różnią się w zależności od firmy, w oparciu o różne aspekty, takie jak wielkość przedsiębiorstwa, branża i rodzaj zagrożeń.
Standardowy plan ciągłości działania zazwyczaj obejmuje następujące etapy:
- Powołać zespół ds. reagowania na sytuacje kryzysowe
- Określ kluczowe usługi biznesowe
- Przeprowadzić ocenę ryzyka i analizę skutków dla działalności
- Opracuj plan odzyskiwania sprawności
- Należy określić cele w zakresie odzyskiwania sprawności i wyznaczyć lokalizację zapasową
- Należy zadbać o ochronę wszystkich obciążeń o znaczeniu krytycznym dla działalności
- Sprawdź i zaktualizuj swój plan zapewnienia ciągłości działania
Przyjrzyjmy się bliżej każdemu z tych etapów, aby zrozumieć, dlaczego są one ważnymi elementami każdej listy kontrolnej BCP.
1. Stwórz zespół reagowania na katastrofy
Pierwszym krokiem w opracowaniu planu ciągłości działania jest zebranie zespołu odpowiedzialnego za utrzymanie funkcjonowania firmy w sytuacji kryzysowej. W skład zespołu BCP powinni wchodzić członkowie z każdego działu zaangażowanego w codzienne operacje, a na czele działań związanych z planowaniem ciągłości działania powinien stać wyznaczony menedżer.
Przy identyfikowaniu kluczowego personelu BCP należy stworzyć obszerną listę katastrof, które stanowią największe zagrożenie dla organizacji, aby można było zatrudnić odpowiednich ludzi. Różnego rodzaju sytuacje awaryjne, takie jak awaria systemu informatycznego, przerwa w dostawie prądu lub uszkodzenie obiektów, wymagają pracowników posiadających konkretną wiedzę i doświadczenie, aby można było sobie z nimi poradzić właściwie i szybko.
Utwórz tabelę, w której zapiszesz niezbędne informacje o członkach zespołu reagowania, aby w razie potrzeby móc się z nimi łatwo skontaktować. Tabela może zawierać imię i nazwisko, stanowisko, rolę w zespole reagowania oraz dane kontaktowe. Pamiętaj, że do każdej roli w zespole należy wyznaczyć co najmniej jednego zastępcę. Pozwoli to uniknąć zatorów w przypadku, gdyby główni delegaci nie wywiązali się ze swoich obowiązków.
2. Zidentyfikuj kluczowe usługi biznesowe
Jednym z głównych celów planu ciągłości działania jest pomoc w identyfikacji procesów, sprzętu i zasobów, które mają kluczowe znaczenie dla funkcjonowania organizacji. Są to ważne funkcje infrastrukturalne i usługi, wokół których należy zbudować plan ciągłości działania.
Te kluczowe usługi i elementy infrastruktury najprawdopodobniej obejmują:
- Systemy zasilania i generatory
- Urządzenia telekomunikacyjne – WAN, LAN, telefony, komputery
- Systemy informatyczne i serwery
- Infrastruktura budynkowa i obiekty
- Sprzęt specjalistyczny lub materiały o kluczowym znaczeniu dla działalności
W przypadku zakłóceń kluczowe znaczenie ma jak najszybsze przywrócenie tych elementów w celu wznowienia działalności i ochrony aktywów.
3. Przeprowadź ocenę ryzyka i analizę wpływu na działalność
Po zidentyfikowaniu kluczowych usług biznesowych należy przeprowadzić ocena skutków ryzyka w celu wykrycia słabych punktów związanych z niezbędnymi systemami, działaniami i zasobami. Ocena ryzyka szacuje prawdopodobieństwo wystąpienia każdego zagrożenia i odzwierciedla prawdopodobieństwo wystąpienia katastrofy.
analiza wpływu na działalność (BIA), zwykle przeprowadzana równolegle z oceną ryzyka, pozwala ocenić krytyczność i dotkliwość wpływu na działalność firmy. Głównym celem BIA jest analiza kosztów finansowych i operacyjnych, które poniesiesz w przypadku materializacji ryzyka. Pomaga to określić poziom tolerancji ważnych procesów i zależności, takich jak klienci i partnerzy, w przypadku pogorszenia, zakłócenia lub całkowitego zatrzymania kluczowych funkcji biznesowych.
Oto uproszczona tabela, którą możesz wykorzystać jako szablon do rozpoczęcia tworzenia własnej analizy:
| Proces biznesowy | Kategoria wpływu | Waga | Maksymalny dopuszczalny czas przestoju (MTD) | Szacowane koszty | Zależności |
Należy pamiętać, że organizacje posiadające wiele lokalizacji muszą przeprowadzić oddzielną ocenę ryzyka oraz analizę wpływu na działalność (BIA) dla każdej z nich. Jeśli lokalizacje te są oddalone od siebie geograficznie, wyzwania i ryzyko mogą się różnić. Solidny plan ciągłości działania uwzględnia również relacje i zależności między poszczególnymi lokalizacjami.
4. Opracuj plan odzyskiwania
Po wykonaniu poprzednich kroków nadszedł czas na stworzenie planu odzyskiwania, który koncentruje się na odzyskaniu działalności po awarii. Ciągłość działania i odzyskiwanie awaryjne idą w parze, zwłaszcza że plan odzyskiwania awaryjnego (DR) jest istotną częścią planu ciągłości działania. Aby uzyskać bardziej szczegółowe szablony planów odzyskiwania awaryjnego, pobierz nasz bezpłatny oficjalny dokument Podręcznik i szablony dotyczące odzyskiwania awaryjnego.
Plan DR określa kroki techniczne, które należy wykonać, aby jak najszybciej odzyskać podstawowe usługi. Należy pamiętać, że plan odzyskiwania nie ogranicza się do danych, ponieważ powinien również obejmować maszyny, obciążenia i procesy.
Plan odzyskiwania może wykorzystywać między innymi następujące strategie:
- Alternatywne procedury biznesowe – na przykład ręczne obejścia dla zmechanizowanych lub zautomatyzowanych procesów do czasu wykonania kopii zapasowej systemów
- Wtórna lub alternatywna lokalizacja do wznowienia działalności biznesowej
- Tryb failover sieci i serwerów na poziomie lokalizacji
- Przywracanie kopii zapasowej danych krytycznych dla działalności, przechowywanych poza siedzibą firmy
- „Hot-spare” lub zasoby rezerwowe, które można natychmiast uruchomić w przypadku awarii głównych komponentów
Poniższy film wyjaśnia, jak przeprowadzić pełne odzyskiwanie awaryjne przy użyciu NAKIVO Backup & Replication.
5. Ustal cele związane z czasem odzyskiwania i wyznacz lokalizację DR
Cel związany z czasem odzyskiwania (RTO) określa, jak długi przestój systemu IT firma może racjonalnie tolerować przed przywróceniem procesów lub usług. Cel punktu odzyskiwania (RPO) określa, jaką utratę danych firma może tolerować. Zarówno RTO, jak i RPO są ważnymi wskaźnikami w każdym planie ciągłości działania.
Wyznaczenie lokalizacji odzyskiwania awaryjnego (DR) na potrzeby Trybu failover sieci/danych ma kluczowe znaczenie, ponieważ zapewnia natychmiastowy substytut w przypadku, gdy główna lokalizacja produkcyjna przestanie działać. Ponadto pomaga to zagwarantować osiągnięcie celów odzyskiwania danych.
Centrum odzyskiwania po awarii (DR) zlokalizowane w innym miejscu geograficznym pełni rolę kopii „w trybie czuwania” zasobów, takich jak maszyny wirtualne (VM). W przypadku awarii obejmującej całą lokalizację, która spowoduje wyłączenie sieci produkcyjnej, ruch sieciowy może zostać przekierowany na przełączono na lokalizację DR. Maszyny wirtualne w trybie czuwania stają się w zasadzie obciążeniami produkcyjnymi, przywracając działalność biznesową i skutecznie zapewniając ciągłość działania.
Można skorzystać z zaawansowanych rozwiązań innych firm do ochrony danych, aby replikować produkcyjne maszyny wirtualne do zdalnej lokalizacji DR i ustawić interwał replikacji zgodnie z RPO. Replika maszyny wirtualnej jest dokładną kopią oryginalnej maszyny i może być wykorzystana w automatycznym trybie failover podczas wdrażania planu odzyskiwania awaryjnego.
6. Upewnij się, że wszystkie obciążenia krytyczne dla działalności są chronione
Skutki awarii można znacznie złagodzić poprzez odpowiednią ochronę danych krytycznych dla działalności. Zwiększ odporność kopii zapasowej, stosując zasadę 3-2-1: posiadaj co najmniej 3 kopie zapasowe na 2 różnych nośnikach, z co najmniej 1 kopią przechowywaną zdalnie.
Wykonaj tworzenie kopii zapasowych danych firmowych zgodnie z metodologią tworzenia kopii zapasowych 3-2-1, aby osiągnąć możliwie najkrótsze RPO i RTO. Pozwoli to również zapewnić, że ta sama awaria, która dotknęła sieć produkcyjną, nie wpłynie również na dane kopii zapasowej.
7. Przetestuj i zaktualizuj plan ciągłości działania
Po ukończeniu planu ciągłości działania konieczne jest przeprowadzenie rygorystycznych testów. Najlepszym sposobem na to jest przeszkolenie pracowników, aby upewnić się, że w pełni rozumieją swoje role i obowiązki. Nie można zagwarantować gotowości na sytuacje awaryjne bez przeprowadzania regularnych szkoleń i ćwiczeń. Co ważniejsze, dzięki przeprowadzeniu pełnych symulacji można zidentyfikować i naprawić słabe punkty planu.
Należy upewnić się, że wszystkie procedury są przeprowadzane w sposób odzwierciedlający przebieg rzeczywistego scenariusza katastrofy. Tego typu testy najlepiej przeprowadzać co kwartał, ponieważ kluczowi członkowie zespołu pozostają zaznajomieni z procesem. Ponadto zmiany w infrastrukturze, środowisku, protokołach, obciążeniach i/lub kadrze mogą wprowadzać komplikacje do planu. Te potencjalne przeszkody często odkrywa się dopiero w trakcie pełnych prób.
Symulacje powinny być obserwowane przez niezależnego obserwatora, który może sporządzać notatki dotyczące wszystkich słabych punktów. Po każdym przećwiczeniu powinno odbywać się podsumowanie, a następnie można sporządzić raport dokumentujący odnotowane słabe punkty i proponowane aktualizacje. Raporty, a także zaktualizowany plan ciągłości działania, należy udostępnić wszystkim członkom zespołu.
Lista kontrolna planu ciągłości działania
Oto uproszczona lista kontrolna BCP, która pozwala przejść przez niezbędne etapy w celu zapewnienia gotowości na wypadek sytuacji kryzysowej.
Stwórz zespół reagowania na katastrofy
- Wyznacz kierownika ds. BCP
- Stwórz komitet ds. ciągłości działania
- Wybierz członków zespołu reagowania
- Określ role i obowiązki
- Wybierz zastępców dla każdego członka zespołu
- Zapewnij jasną komunikację między wszystkimi członkami
Zidentyfikuj kluczowe usługi biznesowe
- Opracuj mapę wszystkich systemów zasilania
- Zidentyfikuj urządzenia telekomunikacyjne
- Zidentyfikuj systemy IT i serwery
- Zidentyfikuj obiekty i specjalistyczny sprzęt
- Zidentyfikuj wzajemne zależności między usługami
- Sprawdź służby ratownicze
Przeprowadź ocenę ryzyka i analizę wpływu na działalność
- Zidentyfikuj zagrożenia i słabe punkty
- Ustal poziom tolerancji ryzyka
- Określ krytyczne procesy biznesowe
- Oblicz maksymalny dopuszczalny czas przestoju dla każdej usługi
- Przeanalizuj wpływ na finanse, kwestie prawne, regulacyjne i klientów
- Zidentyfikuj wzajemne zależności między krytycznymi funkcjami biznesowymi
Opracuj plan odzyskiwania sprawności
- Stwórz plan ciągłości działania (COOP)
- Opracuj ręczne procedury zastępcze dla procesów zautomatyzowanych
- Przygotuj się na przełączenie awaryjne sieci i serwerów na poziomie lokalizacji
- Przetestuj przywracanie krytycznych danych z kopii zapasowych zdalnie przechowywanych
- Upewnij się, że zasoby rezerwowe są dostępne
Ustal cele odzyskiwania i wyznacz lokalizację DR
- Wyznacz lokalizację zapasową w celu wznowienia działalności biznesowej
- Ustal cele punktu odzyskiwania (RPO)
- Cele związane z czasem odzyskiwania (RTO)
- Zarządzaj procesami odzyskiwania awaryjnego
Chroń dane krytyczne dla działalności
- Wykonuj kopie zapasowe danych krytycznych dla działalności
- Przechowuj dane na miejscu i zdalnie na nośnikach
- Przechowuj kopie zapasowe fizycznie odłączone
- Włącz niezmienność dla określonych kopii zapasowych
Testuj i aktualizuj plan ciągłości działania
- Przeprowadzaj testy roczne, półroczne i kwartalne
- Przeprowadzaj co roku kompleksowe symulacje planu ciągłości działania
- Stwórz proces audytu
- Zidentyfikuj słabe punkty i zaktualizuj plan
- Przeprowadź szkolenia dla pracowników
Podsumowanie
Lista kontrolna planu ciągłości działania jest niezbędna, aby zapewnić płynne świadczenie usług podczas przywracania obciążeń dotkniętych awarią po wystąpieniu zdarzenia zakłócającego. Organizacje, które nie opracują planu ciągłości działania, narażają się na ryzyko poważnych przestojów i utraty danych, co może spowodować nieodwracalne szkody finansowe i utratę reputacji.
Ta lista kontrolna stanowi podstawę skutecznego planu ciągłości działania, który pomoże Ci przetrwać nawet najgorsze scenariusze. Pamiętaj, że plan ciągłości działania nie może być kompletny bez zaawansowanego rozwiązania do ochrony danych, takiego jak NAKIVO Backup & Replication. Rozwiązanie NAKIVO zawiera wszystkie narzędzia potrzebne do wykonywania procesów tworzenia kopii zapasowych i odzyskiwania danych, automatyzacji procesów odzyskiwania po awarii oraz przeprowadzania testów bezprzerwowych, aby zapewnić osiągnięcie celów odzyskiwania.