Wysoka dostępność a odporność na awarie a odzyskiwanie awaryjne: przegląd
Jeśli chodzi o zapewnienie ciągłości działania infrastruktury IT organizacji przez całą dobę, wydaje się, że nadal istnieje pewna niejasność co do trzech podstawowych pojęć: wysokiej dostępności (HA), odporności na awarie (FT) oraz odzyskiwania awaryjnego (DR). Wszystkie trzy pojęcia dotyczą utrzymania ciągłości działania i dostępu do systemów IT. Jednak każde z nich ma swoją własną definicję, metodologię i przypadki użycia.
W tym wpisie na blogu zdefiniujemy, czym w praktyce są wysoka dostępność, odporność na awarie i odzyskiwanie awaryjne, a także przyjrzymy się, w jaki sposób pojęcia te się pokrywają i dlaczego ich wdrożenie jest tak ważne.
Czym jest wysoka dostępność?
Wysoka dostępność to zdolność systemu do działania (czas sprawności) i zapewnienia użytkownikom dostępu przez określony czas bez przestojów. Czas sprawności to okres, w którym serwer działa bez nieplanowanych restartów lub wyłączeń.
Wysoka dostępność (HA) jest obliczana jako procent czasu, w którym system działa w ustalonych godzinach, bez uwzględniania planowej konserwacji i wyłączeń. Nie oczekuje się, że HA zapewni 100% czasu pracy, co jest trudne i niepraktyczne do osiągnięcia. Za akceptowalne uważa się przestoje trwające do 5 minut i 26 sekund rocznie, co przekłada się na 99,999% czasu pracy. Jednak nawet ta wartość może nie być rozsądnym celem dla wielu organizacji. W zależności od organizacji, branży i zasobów wymagana wartość HA może być niższa.
Jak działa wysoka dostępność?
Cel wysokiej dostępności dla organizacji osiąga się poprzez wyeliminowanie pojedynczego punktu awarii w systemie przy użyciu komponentów nadmiarowości i Trybu failover. Oznacza to zapewnienie, że awaria pojedynczego komponentu nie prowadzi do niedostępności całego systemu.
W wirtualizacji wysoką dostępność można zaprojektować przy pomocy technologie klastrowania. Na przykład, gdy jeden z hostów lub maszyn wirtualnych (VM) w klastrze ulegnie awarii, inna maszyna wirtualna przejmuje kontrolę (Tryb failover) i utrzymuje odpowiednią wydajność systemu.
Chociaż posiadanie komponentów nadmiarowych jest podstawowym warunkiem zapewnienia wysokiej dostępności, same te komponenty nie wystarczają, aby system można było uznać za wysoce dostępny. System o wysokiej dostępności to taki, który zawiera zarówno komponenty redundantne, jak i mechanizmy wykrywania awarii oraz automatycznego przekierowywania obciążenia. Mogą to być urządzenia równoważące obciążenie lub hiperwizory. DRS w VMware vSphere jest przykładem urządzenia równoważącego obciążenie.
Kiedy wysoka dostępność jest ważna?
Architektura o wysokiej dostępności jest niezbędna dla wszelkich krytycznych obciążeń, które nie mogą sobie pozwolić na przestoje. Jeśli awaria systemu lub aplikacji zagraża przetrwaniu firmy, HA może zostać wykorzystana do zminimalizowania przestojów. Według serwisu StatistaWedług danych z 2020 r. koszt jednej godziny przestoju wynosił od 300 000 do 400 000 USD dla 25% firm. Oznacza to, że nawet bardzo wysoki poziom dostępności wynoszący 99,999% – czyli 5 minut i 26 sekund przestoju rocznie – może kosztować niektóre firmy około 35 000 USD. Oprócz znacznych strat finansowych przestoje mogą pociągać za sobą inne poważne konsekwencje, takie jak spadek wydajności, niemożność terminowego świadczenia usług, utrata reputacji firmy i tak dalej. Systemy o wysokiej dostępności pomagają uniknąć takich sytuacji, automatycznie i na bieżąco reagując na awarie.
Czym jest odporność na awarie?
Odporność na awarie to zdolność systemu do dalszego prawidłowego działania bez przestojów w przypadku awarii jednego lub kilku jego komponentów. System odporny na awarie składa się z dwóch ściśle powiązanych komponentów, które są lustrzanym odbiciem siebie nawzajem, zapewniając nadmiarowość. W ten sposób, jeśli komponent główny ulegnie awarii, komponent pomocniczy jest natychmiast gotowy do przejęcia jego funkcji.
Jak działa odporność na awarie?
Odporność na awarie, podobnie jak wysoka dostępność, opiera się na nadmiarowości w celu zapewnienia ciągłości działania. Taką nadmiarowość można osiągnąć poprzez jednoczesne uruchamianie jednej aplikacji na dwóch serwerach, co umożliwia jednemu serwerowi natychmiastowe przejęcie funkcji drugiego w przypadku awarii serwera głównego.
W środowiskach wirtualnych nadmiarowość zapewniająca odporność na awarie jest osiągana poprzez utrzymywanie i uruchamianie identycznych kopii danej maszyny wirtualnej na oddzielnych hostach. Każda zmiana lub operacja wprowadzona na głównej maszynie wirtualnej jest powielana na maszynie pomocniczej. W ten sposób, w przypadku uszkodzenia głównej maszyny wirtualnej, odporność na awarie jest zapewniona dzięki natychmiastowemu przeniesieniu obciążenia z jednej maszyny wirtualnej na jej duplikat.
Kiedy odporność na awarie jest ważna?
Projektowanie z uwzględnieniem odporności na awarie ma kluczowe znaczenie dla systemów, które nie mogą tolerować żadnych przestojów (zero przestojów). Jeśli istnieją aplikacje o znaczeniu krytycznym, a nawet najmniejszy przestój przekłada się na nieodwracalne straty, należy rozważyć skonfigurowanie komponentów IT z uwzględnieniem odporności na awarie.
Odporność na awarie a wysoka dostępność
Porównując HA z FT, odporność na awarie jest rozwiązaniem droższym. Jednak odporność na awarie i wysoka dostępność różnią się również pod dwoma głównymi względami:
- Odporność na awarie jest bardziej rygorystyczną wersją wysokiej dostępności. Wysoka dostępność koncentruje się na zapewnieniu minimalnych przestojów, podczas gdy odporność na awarie idzie o krok dalej, zapewniając zero przestojów.
- Jednak w modelu odpornym na awarie zdolność systemu do zapewnienia wysokiej wydajności w przypadku awarii nie jest priorytetem. Natomiast oczekuje się, że system będzie w stanie utrzymać wydajność operacyjną, nawet jeśli na obniżonym poziomie.
Czym jest odzyskiwanie awaryjne?
Odzyskiwanie awaryjne to proces stosowany przez organizacje w celu reagowania na zdarzenia mające wpływ na systemy oraz szybkiego przywrócenia funkcji infrastruktury IT. Odzyskiwanie awaryjne obejmuje plan DR, zespół DR, dedykowane rozwiązanie do odzyskiwania awaryjnego, lokalizację odzyskiwania itp. Podejście to zakłada wykorzystanie miejsca gorące, ciepłe lub zimne w zależności od wartości RTO określonej w plan odzyskiwania awaryjnego oraz dostępnych zasobów.
Dwa główne wskaźniki odzyskiwania awaryjnego to cele związane z czasem odzyskiwania (RTO) oraz cele punktu odzyskiwania (RPO), które mają na celu odpowiednio zminimalizowanie przestojów i utraty danych.
Jak działa odzyskiwanie awaryjne?
Odzyskiwanie awaryjne wymaga posiadania dodatkowej lokalizacji, w której można przywrócić krytyczne dane i obciążenia (całkowicie lub częściowo) w celu wznowienia wystarczającej działalności biznesowej po wystąpieniu zdarzenia zakłócającego.
Aby przenieść obciążenia do zdalnej lokalizacji, konieczne jest wdrożenie odpowiedniego rozwiązania do odzyskiwania awaryjnego. Takie rozwiązanie może zająć się operacją Tryb failover w odpowiednim czasie i przy niewielkim nakładzie pracy z Państwa strony, co pozwala osiągnąć wyznaczone RTO.
Jakie są elementy składowe odzyskiwania awaryjnego?
Odzyskiwanie awaryjne to znacznie szersza i bardziej złożona koncepcja niż wysoka dostępność i odporność na awarie. Odnosi się ona do strategii obejmującej kompleksowy zestaw elementów, w tym: ocenę ryzyka, planowanie, analizę zależności, konfigurację lokalizacji zdalnej, szkolenie personelu, testowanie, konfigurację automatyzacji i tak dalej. Kolejnym aspektem odzyskiwania awaryjnego, wykraczającym poza wysoką dostępność i odporność na awarie, jest jego niezależność od lokalizacji produkcyjnej.
Kiedy odzyskiwanie awaryjne jest ważne?
Awaria odnosi się nie tylko do katastrofy naturalnej, ale do wszelkiego rodzaju zakłóceń, które dotykają całą lokalizację produkcyjną i prowadzą do znacznych przestojów, w tym między innymi cyberataków, przerw w dostawie prądu, błędów ludzkich i awarii oprogramowania. Oznacza to, że takie zdarzenie może nastąpić w dowolnym momencie i w sposób nieoczekiwany. W większości przypadków katastrof nie da się przewidzieć ani uniknąć, dlatego organizacje powinny podejmować działania mające na celu wzmocnienie gotowości do odzyskiwania awaryjnego, a także regularnie optymalizować swoje strategie odzyskiwania awaryjnego.
Odzyskiwanie awaryjne a wysoka dostępność
Odzyskiwanie awaryjne, w odróżnieniu od wysokiej dostępności i odporności na awarie, dotyczy katastrofalnych skutków, które powodują niedostępność całej infrastruktury IT, a nie tylko awarii pojedynczych komponentów. Ponieważ odzyskiwanie awaryjne koncentruje się zarówno na danych, jak i na technologii, jego głównym celem jest odzyskanie danych oraz przywrócenie działania komponentów infrastruktury w jak najkrótszym czasie po wystąpieniu nieplanowanego zdarzenia.
Jeśli chodzi o różnicę między wysoką dostępnością a odzyskiwaniem po awarii, wysoka dostępność i odporność na awarie nie pomogą w odzyskaniu danych w przypadku katastrofy i utraty danych spowodowanej nieprzewidzianym zdarzeniem. Jest to scenariusz, w którym odzyskiwanie awaryjne może zapewnić niezależną infrastrukturę DR oraz kopie danych z określonego momentu (punkty odzyskiwania), aby zminimalizować przestoje i uniknąć utraty danych. Należy jednak pamiętać o różnice między odzyskiwaniem awaryjnym a tworzeniem kopii zapasowych.
Wykorzystanie NAKIVO Backup & Replication do odzyskiwania awaryjnego
NAKIVO Backup & Replication to szybkie, niezawodne i niedrogie rozwiązanie. Łączy w sobie zaawansowaną ochronę danych oraz funkcja odzyskiwania awaryjnego – funkcję Odzyskiwania lokacji – zaprojektowaną w celu uproszczenia i automatyzacji operacji odzyskiwania awaryjnego.
Jeśli masz skonfigurowaną lokalizację zdalną, zgodnie z najlepszymi rozwiązaniami w zakresie odzyskiwania awaryjnego (DR), rozwiązanie to jest łatwe w obsłudze i konfiguracji, a jednocześnie pozwala tworzyć złożone procesy odzyskiwania.
W jednym procesie (zadaniu) można połączyć nawet 200 czynności, dostosowując je do różnych scenariuszy awarii i różnych celów, w tym: monitorowania, migracji centrum danych, awaryjnego trybu failover, planowanego trybu failover, powrotu po awarii itp. W przypadku awarii każdy z utworzonych przepływów pracy można uruchomić natychmiast, jednym kliknięciem, co pozwala firmom skrócić czas odzyskiwania do minimum.
Dzięki funkcji Odzyskiwanie lokacji można przeprowadzać zautomatyzowane testy bezprzerwowe odzyskiwania awaryjnego. W ten sposób można upewnić się, że pliki procedury odzyskiwania lokacji są prawidłowe, odzwierciedlają wszystkie ostatnie zmiany, które miały miejsce w infrastrukturze IT, oraz że nie ma żadnych słabych punktów, zanim nastąpi rzeczywista awaria.

