Tryb failover a powrót po awarii: kluczowe różnice w odzyskiwaniu awaryjnym

We współczesnym świecie każda firma może od czasu do czasu doświadczyć uszkodzenia danych lub zakłóceń w działaniach o znaczeniu krytycznym. Jednak nawet krótkotrwała przerwa w świadczeniu usług może podważyć zaufanie klientów i ostatecznie doprowadzić do znacznych strat. Firmy, zwłaszcza te, które korzystają z usług opartych na maszynach wirtualnych, muszą opracować plan odzyskiwania awaryjnego (DR) dla maszyn wirtualnych zapewnić wysoką dostępność i ciągłość działania. W tym wpisie na blogu opisano rolę Trybu failover i powrotu po awarii w procesie odzyskiwania po awarii oraz omówiono, w jaki sposób można wykorzystać te strategie do ochrony swojej firmy.

Zapewnij dostępność dzięki NAKIVO

Zapewnij dostępność dzięki NAKIVO

Spełnij rygorystyczne wymagania dotyczące dostępności usług w infrastrukturach wirtualnych. Osiągnij zamierzone poziomy dostępności dzięki niezawodnym funkcjom orkestracji i automatyzacji procesów odzyskiwania po awarii.

Czym jest odzyskiwanie po awarii maszyn wirtualnych (VM Disaster Recovery)?

Odzyskiwanie awaryjne maszyn wirtualnych to proces przywracania infrastruktury biznesowej do normalnego stanu po wystąpieniu awarii. Awaria może oznaczać każde zdarzenie zagrażające funkcjonowaniu organizacji, obejmujące zarówno zagrożenia naturalne, jak i spowodowane przez człowieka. Zasadniczo odzyskiwanie po awarii maszyn wirtualnych ma na celu przywrócenie zwirtualizowanego środowiska organizacji. Ostatecznym celem każdego procesu odzyskiwania po awarii jest niemal natychmiastowe wznowienie działalności biznesowej oraz zabezpieczenie najbardziej krytycznych danych w celu zapewnienia ciągłości działania.

Środki DR dzielą się na trzy rodzaje. Środki zapobiegawcze mają na celu zapobieganie wystąpieniu zdarzenia. Środki naprawcze mają na celu naprawę systemu w przypadku awarii. Środki wykrywające służą do identyfikacji potencjalnych zagrożeń i ich ograniczania.

Różnica między Trybem failover a powrotem po awarii

Scenariusze awarii prawie zawsze pojawiają się nieoczekiwanie. W przypadku awarii kluczowe znaczenie ma jak najszybsze przywrócenie wirtualnej infrastruktury firmy, zanim dojdzie do poważnych szkód. Tryb failover i – powrót po awarii – może pomóc w zapewnieniu prawidłowego funkcjonowania firmy, nawet jeśli miejsce produkcji zostanie dotknięte katastrofą.

– Czym jest Tryb failover?

Tryb failover to proces przenoszenia obciążeń o znaczeniu krytycznym z głównego centrum produkcyjnego i przywracania systemu w lokalizacji poza siedzibą firmy. Głównym celem Trybu failover jest złagodzenie negatywnego wpływu katastrofy lub zakłócenia usług na usługi biznesowe i klientów. W przypadku awarii oprogramowania lub sprzętu można szybko przywrócić uszkodzoną maszynę wirtualną, przełączając się na jej replikę.

Tryb failover przy użyciu replik maszyn wirtualnych

Podczas trybu failover replika maszyny wirtualnej w lokalizacji zdalnej zostaje uruchomiona w celu zastąpienia oryginalnej maszyny wirtualnej w lokalizacji produkcyjnej. Można przełączyć się na najnowszy punkt odzyskiwania, który zasadniczo reprezentuje maszynę wirtualną w określonym momencie. Uruchamianie zadań replikacji tak często, jak to możliwe, pozwala na utworzenie wielu punktów odzyskiwania, co zapewnia minimalną utratę danych w przypadku awarii. Tryb failover na replikę jest ekonomicznym rozwiązaniem odpowiednim do odzyskiwania awaryjnego po awarii sprzętu lub oprogramowania.

Klastry trybu failover

Klaster trybu failover to grupa niezależnych komputerów, które współpracują ze sobą w celu zapewnienia wysokiej dostępności aplikacji i usług. Klaster trybu failover składa się z co najmniej dwóch połączonych ze sobą serwerów (lub węzłów), na których działają maszyny wirtualne, oraz wspólnej pamięci masowej, w której przechowywane są pliki tych maszyn. W przypadku awarii jednego z serwerów maszyny wirtualne są przywracane na innym serwerze. Klaster trybu failover chroni maszyny wirtualne wyłącznie przed awariami sprzętowymi. Klastry trybu failover są droższe w utrzymaniu niż przełączanie awaryjne na replikę. Zapewnia jednak niemal zerowy czas przestoju, ponieważ maszyny wirtualne są automatycznie uruchamiane w lokalizacji zapasowej w razie wystąpienia awarii.

Czym jest powrót po awarii?

Po przywróceniu działania lokalizacji podstawowej po awarii i rozwiązaniu wszelkich związanych z tym problemów można przenieść operacje biznesowe z powrotem na maszynę wirtualną źródłową.

Powrót po awarii pomaga przywrócić pierwotną maszynę wirtualną na hoście źródłowym (lub w nowej lokalizacji wybranej przez użytkownika) oraz przenieść obciążenia z repliki maszyny wirtualnej z powrotem na pierwotną maszynę wirtualną. Jednak od momentu Trybu failover w replice maszyny wirtualnej mogły nastąpić pewne zmiany. Dlatego przed wykonaniem powrotu po awarii należy zsynchronizować pierwotną maszynę wirtualną z jej repliką, aby nie utracono żadnych krytycznych informacji. Podczas powrotu po awarii do pierwotnego systemu wysyłane są wyłącznie dane, które uległy zmianie.

Proces Trybu failover i powrotu po awarii jako część odzyskiwania awaryjnego

Podczas zdarzenia związanego z odzyskiwaniem awaryjnym inicjowane są operacje Trybu failover i powrotu po awarii. Proces przebiega w następujący sposób:

  1. Maszyna wirtualna źródłowa w lokalizacji produkcyjnej jest replikowana do lokalizacji odzyskiwania po awarii. Dane na dyskach wirtualnych repliki maszyny wirtualnej są identyczne z danymi na dysku wirtualnym maszyny źródłowej w momencie replikacji. W przypadku wystąpienia awarii (lub jeśli awaria jest przewidywana) inicjowany jest Tryb failover na replikę maszyny wirtualnej.
  2. W Trybie failover obciążenia systemowe są przenoszone do lokalizacji DR. Jednak w miarę kontynuowania operacji w replice maszyny wirtualnej mogą wystąpić pewne zmiany. Ważne jest, aby zapisać takie dane, ponieważ oryginalny system jest w trybie offline i nie rejestruje żadnych wprowadzonych zmian. W związku z tym wszystkie zmiany są zapisywane wyłącznie na dysku wirtualnym repliki maszyny wirtualnej.
  3. Po usunięciu negatywnych skutków awarii (lub ustąpieniu potencjalnego zagrożenia) lokalizacja podstawowa może funkcjonować jak zwykle. W ten sposób wykonywana jest operacja powrotu po awarii; wszystkie obciążenia są przesyłane z powrotem z lokalizacji DR do lokalizacji produkcyjnej, a zaktualizowane dane są odbierane przez maszynę wirtualną źródłową. Oryginalna maszyna wirtualna i jej replika zostają zsynchronizowane.

Najlepsze rozwiązania dotyczące Trybu failover i powrotu po awarii w ramach odzyskiwania awaryjnego danych w przypadku maszyn wirtualnych

  • Zapewnij zgodność z przepisami. Niektóre organizacje przetwarzają bardzo wrażliwe i poufne dane, w związku z czym muszą przestrzegać przepisów takich jak HIPAA lub PCI DSS. Jeśli dotyczy to Twojej organizacji, musisz sprawdzić, czy Twoje strategie odzyskiwania danych po awarii w zakresie Trybu failover i powrotu po awarii spełniają obowiązujące normy bezpieczeństwa.
  • Sprawdź licencje. Przejrzyj dokumentację oprogramowania i ustal, czy w stosach aplikacji występują jakieś ograniczenia licencyjne. Jeśli tak, musisz zająć się wszelkimi problemami z wyprzedzeniem i upewnić się, że wszystkie wymagania są spełnione.
  • Określ zakres planu DR. Zakres planu DR dla maszyn wirtualnych określa, które systemy powinny być chronione, oraz identyfikuje oczekiwane wyniki, a także wszelkie możliwe ograniczenia. Upewnij się, że Twoje środowisko wirtualne ma odpowiednią wydajność techniczną, aby pokryć wszystkie aspekty planu.
  • Wybierz niezawodne rozwiązanie do ochrony danych. Zainstalowanie w środowisku wirtualnym rozwiązania do ochrony danych z odpowiednią licencją ma kluczowe znaczenie dla wydajności działania i płynnej integracji. Na potrzeby planowania DR należy ustalić, ile czasu zajmuje produktowi odzyskanie infrastruktury wirtualnej i przywrócenie wszystkich operacji do lokalizacji produkcyjnej.
  • Zdecyduj, kto jest odpowiedzialny za Tryb failover i powrót po awarii. Kierownictwo powinno wyznaczyć członków zespołu ds. odzyskiwania danych i przypisać konkretne obowiązki każdemu z nich. Należy określić, kto jest odpowiedzialny za monitorowanie operacji w trybie failover i powrotu po awarii, aby uniknąć nieporozumień w rzeczywistej sytuacji odzyskiwania danych, gdy ma to znaczenie.
  • Należy przeszkolić personel IT w zakresie operacji w trybie failover i powrotu po awarii. W nawiązaniu do poprzedniego punktu należy upewnić się, że personel IT posiada niezbędną wiedzę i kwalifikacje do przeprowadzania operacji w trybie failover i powrotu po awarii. Pracownicy odpowiedzialni za te zadania powinni być w pełni przygotowani na wypadek, gdyby coś nie poszło zgodnie z planem; muszą oni dobrze rozumieć przebieg operacji, aby móc odpowiednio dostosować się do sytuacji i poradzić sobie z wszelkimi pojawiającymi się problemami.
  • Przejrzyj umowy o gwarantowanym poziomie usług (SLA). Umowa o gwarantowanym poziomie usług to umowa pomiędzy dostawcą usług a jego klientami, która określa wymagania i standardy usług, jakie dostawca ma spełniać.
  • W związku z tym upewnij się, że Twoje umowy SLA są aktualne i że ich zakres obejmuje również środowisko odzyskiwania awaryjnego.

  • Zdefiniuj RTO oraz RPO . Cele związane z czasem odzyskiwania (RTO) to okres, w którym działalność biznesowa musi zostać odzyskana po awarii, aby zapobiec poważnym szkodom i krytycznym stratom. Cel punktu odzyskiwania (RPO) oznacza ilość danych (mierzoną w czasie), które mogą zostać utracone bez powodowania niedopuszczalnego poziomu szkód dla firmy. RPO to zasadniczo najdalej położony w przeszłości punkt, do którego maszyny wirtualne mogą zostać przywrócone w przypadku awarii. RTO i RPO powinny być ustalane przede wszystkim w oparciu o priorytety organizacji w scenariuszu awarii. Chociaż zwiększenie częstotliwości zadań wykonywania kopii zapasowej i replikacji może być zadaniem czasochłonnym i wymagającym dużych zasobów, znacznie poprawia to RPO. Krótsze RTO należy przypisać do komponentów o najwyższym priorytecie, które powinny zostać przywrócone w pierwszej kolejności. Należy pamiętać, że RTO i RPO należy ustalać oddzielnie dla aplikacji i maszyn wirtualnych.
  • Należy rozważyć możliwość przekształcenia lokalizacji DR w lokalizację stałą. Na działalność firmy może wpłynąć ogromna awaria, która uniemożliwi przywrócenie głównego centrum danych. Dlatego należy rozważyć możliwość przekształcenia lokalizacji DR w lokalizację stałą, aby z wyprzedzeniem być przygotowanym na zdarzenie tej skali. Oczywiście jest to kosztowne rozwiązanie, które pochłania znaczne ilości zasobów i wiąże się z dużymi kosztami sprzętu, oprogramowania i obiektów. Warto rozważyć, co należałoby zrobić, nawet jeśli nie zamierzasz od razu realizować tego planu.
  • Przetestuj operacje w Trybie failover. Testując procedurę w Trybie failover, możesz sprawdzić, czy infrastruktura wirtualna może zostać prawidłowo przywrócona w lokalizacji DR oraz zweryfikować, czy wstępnie zainstalowane aplikacje działają poprawnie, nawet gdy lokalizacja produkcyjna jest wyłączona.
  • Przetestuj operacje powrotu po awarii. W ten sposób możesz zapewnić, że działalność firmy zostanie pomyślnie przywrócona z lokalizacji DR do lokalizacji pierwotnej.
  • Przetestuj cały plan DR. Warto również przetestować cały plan DR; może to pomóc w zidentyfikowaniu słabych punktów planu poprzez symulację zdarzenia DR. W rezultacie możesz ulepszyć i dostosować strategie DR stosowane przez organizację. Niedoskonały i przestarzały plan odtwarzania po awarii (DR) może poważnie zakłócić ciągłość działania Twojej organizacji.

Tryb failover i powrót po awarii w NAKIVO Backup & Replication

NAKIVO Backup & Replication oferuje unikalną Odzyskiwanie lokacji funkcję, która pozwala tworzyć zautomatyzowane procedury odzyskiwania (lub zadania) o dowolnym stopniu złożoności. Przepływy pracy odzyskiwania lokacji (SR) obejmują niestandardowe sekwencje działań, takich jak przełączanie awaryjne, powrót po awarii, uruchamianie/zatrzymywanie maszyn wirtualnych, uruchamianie/zatrzymywanie zadań, podłączanie/odłączanie repozytoriów itp. Działania te można ustawić w dowolnej kolejności w celu całkowitej automatyzacji i orkiestracji procesu odzyskiwania po awarii. Ponadto w dowolnym momencie można łatwo modyfikować, uzupełniać lub testować zadania SR bez zakłócania środowiska produkcyjnego. Dzięki temu nawet najbardziej zaawansowany plan odzyskiwania awaryjnego można zbudować, przetestować, a następnie płynnie wdrożyć przy użyciu przepływów pracy SR.

Tryb failover w odzyskiwaniu awaryjnym

Działanie trybu failover jest integralną częścią większości przepływów pracy SR. Odzyskiwanie lokacji obejmujące tryb failover można wykonać tylko wtedy, gdy wcześniej utworzono repliki maszyn wirtualnych źródłowych, które chcesz chronić; są one używane jako cele trybu failover w przypadku wystąpienia awarii. Obciążenie jest przenoszone z maszyny wirtualnej źródłowej w dotkniętej awarią lokalizacji produkcyjnej do repliki maszyny wirtualnej w lokalizacji odzyskiwania w trybie failover.

Firma NAKIVO Backup & Replication przedstawiła trzy rodzaje trybu failover:

  • Tryb failover planowany służy do prewencyjnej ochrony systemów w przypadku potencjalnego zagrożenia lub spodziewanej awarii. Jeśli otrzymałeś powiadomienie o zagrożeniach pogodowych lub jeśli w okolicy planowana jest przerwa w dostawie prądu, możesz zainicjować Tryb failover awaryjny. W tym przypadku rozwiązanie synchronizuje dane między maszyną wirtualną źródłową a jej repliką przed przeniesieniem obciążenia do repliki; w ten sposób całkowicie zapobiega się utracie danych.
  • Testowy Tryb failover awaryjny pomaga ustalić, czy strategie Trybu failover działają i czy można na nich polegać w przypadku zdarzenia DR. Tryb failover przebiega podobnie jak planowane przełączenie awaryjne, z tą różnicą, że wszystkie zmiany wprowadzone w trybie testowym są natychmiast cofane, aby nie powodować zakłóceń w środowisku podstawowym. Ponadto można sprawdzić, czy przepływ pracy przebiega wystarczająco szybko w przypadku zdarzenia DR. NAKIVO Backup & Replication pozwala ustawić RTO dla zadania odzyskiwania lokacji. Jeśli wykonanie zadania trwa dłużej niż ustawiony czas, test uznaje się za nieudany. Raport z testu/uruchomienia jest wysyłany za pośrednictwem e-maila; można go przeanalizować w celu zidentyfikowania niedociągnięć w planie DR i ich usunięcia.
  • Tryb failover jest uruchamiany natychmiast po wystąpieniu awarii w lokalizacji produkcyjnej i utracie dostępu do maszyny wirtualnej źródłowej. Dzięki funkcji NAKIVO Backup & Replication można przenieść obciążenie z lokalizacji głównej do lokalizacji DR za pomocą jednego kliknięcia. W ten sposób gwarantowany jest minimalny czas przestoju, choć może dojść do utraty części danych.

Ponowne zabezpieczenie maszyn wirtualnych w lokalizacji DR

Po zakończeniu Trybu failover należy upewnić się, że repliki maszyn wirtualnych działające w lokalizacji DR są zabezpieczone. Repliki maszyn wirtualnych również mogą ulec uszkodzeniu, a jeśli nie ma innych kopii, natychmiastowe ich odzyskanie będzie niemożliwe.

Jednak NAKIVO Backup & Replication zapewnia ponowne zabezpieczenie infrastruktury wirtualnej po zdarzeniu DR. Wystarczy zreplikować maszyny wirtualne działające w lokalizacji odzyskiwania awaryjnego do innej lokalizacji. Dzięki temu w razie nieoczekiwanych zdarzeń można łatwo przełączyć się na nową replikę maszyny wirtualnej. Można skonfigurować przepływy pracy SR tak, aby automatycznie inicjowały replikację maszyn wirtualnych działających w lokalizacji odzyskiwania awaryjnego zaraz po zakończeniu Trybu failover, gwarantując w ten sposób wysoki poziom ochrony.

Powrót po awarii w odzyskiwaniu awaryjnym

Powrót po awarii można wykonać dopiero po wystąpieniu Trybu failover w przepływie pracy SR. Po pewnym czasie, gdy lokalizacja podstawowa zostanie wykonała kopię zapasową i będzie działać, można wznowić operacje na oryginalnej maszynie wirtualnej źródłowej. W tym celu można wykonać powrót do tej maszyny wirtualnej z repliki maszyny wirtualnej, która zastąpiła oryginalną maszynę wirtualną. Jeśli obciążenia maszyn wirtualnych nie mogą zostać przeniesione z powrotem do podstawowej lokalizacji produkcyjnej (np. ponieważ nie można jej przywrócić), można je przenieść do dowolnej innej nowej lokalizacji, wybranej jako rozwiązanie długoterminowe w stosunku do lokalizacji DR.

Powrót po awarii do pierwotnej maszyny wirtualnej można przeprowadzić w trybie produkcyjnym lub testowym.

  • Powrót po awarii do pierwotnej maszyny wirtualnej w trybie testowym ma na celu ustalenie, czy zadanie SR może przebiegać pomyślnie, bez żadnych problemów pojawiających się podczas rzeczywistego procesu powrotu do pierwotnej maszyny wirtualnej. W tym przypadku replikacja przyrostowa lub pełna z repliki maszyny wirtualnej do maszyny źródłowej jest wykonywana tylko raz, co wystarcza do celów testowych. Należy upewnić się, że adres IP i ustawienia sieciowe są prawidłowe. Maszyna wirtualna źródłowa i jej replika są synchronizowane, aby uniknąć utraty danych, a następnie maszyna wirtualna źródłowa zostaje włączona. Należy pamiętać, że wszystkie zmiany wprowadzone w maszynach wirtualnych podczas procesu powrotu po awarii są odrzucane po zakończeniu testu, a środowisko wirtualne zostaje przywrócone do stanu sprzed powrotu po awarii. W trybie testowym zadanie odzyskiwania lokacji można uruchomić na żądanie lub zgodnie z harmonogramem.
  • Powrót po awarii do trybu produkcyjnego jest wykonywany, gdy chcesz przywrócić środowisko produkcyjne po Trybie failover. W trybie produkcyjnym zadanie odzyskiwania lokacji można wykonać wyłącznie na żądanie. Powrót po awarii przebiega zasadniczo zgodnie z tymi samymi krokami, co w trybie testowym. Replikacja z repliki maszyny wirtualnej do maszyny źródłowej jest jednak wykonywana dwukrotnie, aby zapewnić zerową utratę danych w trakcie procesu. Po zakończeniu operacji replikacji oryginalna maszyna wirtualna źródłowa (w lokalizacji produkcyjnej) zostaje włączona, a replika maszyny wirtualnej w lokalizacji DR zostaje wyłączona. (Należy pamiętać, że ten ostatni krok — wyłączenie replik maszyn wirtualnych DR — ma miejsce tylko w trybie produkcyjnym.)

Wnioski

Zrozumienie technologii stojącej za Trybem failover i przywracaniem oraz włączenie jej do planu odzyskiwania awaryjnego maszyn wirtualnych może chronić środowisko wirtualne przed wszelkimi nieoczekiwanymi zdarzeniami. Tryb failover zapewnia bezpieczeństwo danych o znaczeniu krytycznym oraz szybkie przeniesienie wszystkich obciążeń do lokalizacji DR. Powrót po awarii pozwala na powrót z lokalizacji DR do lokalizacji produkcyjnej za pomocą kilku kliknięć. Razem operacje te pomagają zminimalizować utratę danych i skrócić czas przestoju.

Wypróbuj NAKIVO Backup & Replication

Wypróbuj NAKIVO Backup & Replication

Skorzystaj z bezpłatnej wersji próbnej, aby zapoznać się ze wszystkimi funkcjami rozwiązania w zakresie ochrony danych. 15 dni za darmo. Bez żadnych ograniczeń dotyczących funkcji ani pojemności. Nie trzeba podawać danych karty kredytowej.

People also read