Failover vs. Failback: Die wichtigsten Unterschiede bei der Disaster Recovery

& In der modernen Welt kann jedes Unternehmen mal von Datenkorruption und Störungen geschäftskritischer Abläufe leiden. Doch selbst eine kurze Unterbrechung der Dienste kann das Vertrauen der Kunden untergraben und letztendlich zu erheblichen Verlusten führen. Unternehmen, insbesondere solche, die ihre Dienste auf VMs betreiben, müssen einen VM-Disaster-Recovery-Plan (DR) erstellen , um eine hohe Verfügbarkeit und Geschäftskontinuität zu gewährleisten. Dieser Blogbeitrag beschreibt die Rolle von Failover und Failback im DR-Prozess und erläutert, wie Sie diese Strategien zum Schutz Ihres Unternehmens einsetzen können.

Ensure Availability with NAKIVO

Ensure Availability with NAKIVO

Meet strict requirements for service availability in virtual infrastructures. Achieve uptime objectives with robust DR orchestration and automation features.

Was ist VM-Disaster Recovery?

VM-Disaster Recovery ist der Prozess der Wiederherstellung Ihrer Unternehmensinfrastruktur in einen normalen Zustand nach einem Notfall. Eine Katastrophe kann jedes Ereignis sein, das den Betrieb eines Unternehmens gefährdet, einschließlich natürlicher und vom Menschen verursachter Gefahren. Im Wesentlichen zielt die VM-Disaster Recovery auf die Wiederherstellung der virtualisierten Umgebung eines Unternehmens ab. Das ultimative Ziel jedes DR-Prozesses ist es, den Geschäftsbetrieb fast sofort wieder aufzunehmen und die wichtigsten Daten zu sichern, um die Geschäftskontinuität zu gewährleisten.

DR-Maßnahmen werden in drei Arten unterteilt. Präventive Maßnahmen sollen das Eintreten eines Ereignisses verhindern. Korrektive Maßnahmen zielen darauf ab, ein System im Katastrophenfall zu reparieren. Detektive Maßnahmen dienen dazu, mögliche Risiken zu identifizieren und zu mindern.

Unterschied zwischen Failover und Failback

Katastrophenszenarien treten fast immer unerwartet ein. Bei einem DR-Ereignis ist es entscheidend, die virtuellisierte Infrastruktur Ihres Unternehmens so schnell wie möglich wiederherzustellen, bevor erhebliche Schäden entstehen. Failover und Failback können dazu beitragen, dass Ihr Unternehmen auch dann weiterhin ordnungsgemäß funktioniert, wenn der Produktionsstandort von einer Katastrophe betroffen ist.

Was ist Failover?

Failover ist der Prozess der Übertragung geschäftskritischer Workloads vom primären Produktionszentrum und des Wiederherstellens des Systems an einem externen Standort. Das Hauptziel von Failover ist es, die negativen Auswirkungen einer Katastrophe oder einer Dienstunterbrechung auf Geschäftsdienste und Kunden zu mindern. Wenn ein Software- oder Hardwarefehler auftritt, können Sie eine betroffene VM schnell wiederherstellen, indem Sie einen Failover auf ihre Replikate durchführen.

Failover mithilfe von VM-Replikaten

Während des Failovers wird eine VM-Replik an einem Remote-Standort eingeschaltet, um die ursprüngliche VM am Produktionsstandort zu ersetzen. Sie können ein Failover zum neuesten Wiederherstellungspunkt durchführen, der im Wesentlichen eine VM zu einem bestimmten Zeitpunkt darstellt. Durch möglichst häufige Ausführung von Replikationsaufträgen können Sie mehrere Wiederherstellungspunkte erstellen, wodurch im Katastrophenfall ein minimaler Datenverlust gewährleistet ist. Das Failover auf eine Replik ist eine kostengünstige Lösung, die sich für Disaster Recovery bei Hardware- oder Softwarefehlern eignet.

Failover-Clustering

Ein Failover-Cluster ist eine Gruppe unabhängiger Computer, die zusammenarbeiten, um eine hohe Verfügbarkeit von Anwendungen und Diensten zu gewährleisten. Ein Failover-Cluster besteht aus zwei oder mehr miteinander verbundenen Servern (oder Knoten), auf denen VMs ausgeführt werden, und einem gemeinsamen Speicher, in dem VM-Dateien gespeichert sind. Wenn einer der Server ausfällt, werden diese VMs auf einem anderen Server wiederhergestellt. Ein Failover-Cluster schützt VMs nur vor Hardwareausfällen. Failover-Clustering ist kostspieliger als Failover zu Replikaten. Es sorgt jedoch für nahezu null Ausfallzeiten, da die VMs bei einem Ausfall automatisch am sekundären Standort hochgefahren werden.

Was ist Failback?

Nachdem Sie Ihren primären Standort nach einem Ausfall wiederhergestellt und alle damit verbundenen Probleme behoben haben, können Sie den Geschäftsbetrieb wieder auf die Quelle übertragen.

Failback hilft dabei, die ursprüngliche VM auf dem Quellhost (oder an einem neuen Standort Ihrer Wahl) wiederherzustellen und Workloads von der VM-Replik auf die ursprüngliche VM zurückzuverlagern. Seit dem Failover können jedoch einige Änderungen an der VM-Replik vorgenommen worden sein. Daher müssen die ursprüngliche VM und die VM-Replik vor der Durchführung des Failbacks synchronisiert werden, damit keine wichtigen Informationen verloren gehen. Beim Failback werden nur die geänderten Daten an das ursprüngliche System zurückgesendet.

Der Failover- und Failback-Prozess als Teil der Disaster Recovery

Während eines Disaster Recovery-Ereignisses werden Failover- und Failback-Vorgänge initiiert. Der Prozess wird wie folgt durchgeführt:

  1. Die Quelle der VM am Produktionsstandort wird auf den DR-Standort repliziert. Die Daten auf den virtuellen Festplatten der VM-Replik sind identisch mit den Daten auf der virtuellen Festplatte der Quelle-VM zum Zeitpunkt der Replikation. Im Falle einer Katastrophe (oder wenn eine Katastrophe zu erwarten ist) wird ein Failover zur VM-Replik initiiert.
  2. Während des Failovers werden die System-Workloads auf den DR-Standort übertragen. Im Laufe des Betriebs können jedoch einige Änderungen in der Replik-VM auftreten. Es ist wichtig, diese Daten zu speichern, da das ursprüngliche System offline ist und keine der vorgenommenen Änderungen registriert. Daher werden alle Änderungen nur auf die virtuelle Festplatte der VM-Replik geschrieben.
  3. Sobald die negativen Folgen einer Katastrophe behoben sind (oder die mögliche Bedrohung vorüber ist), kann der primäre Standort wie gewohnt funktionieren. Somit wird der Failback-Vorgang ausgeführt: Alle Workloads werden vom DR-Standort zurück an den Produktionsstandort gesendet und die aktualisierten Daten werden von der Quelle empfangen. Die ursprüngliche VM und das VM-Replikat werden synchronisiert.

Best Practices für Failover und Failback bei der VM-Disaster Recovery

  • Stellen Sie die Einhaltung von Vorschriften sicher. Einige Organisationen arbeiten mit sehr sensiblen und vertraulichen Daten und müssen daher Vorschriften wie HIPAA oder PCI DSS einhalten. Wenn dies auf Sie zutrifft, müssen Sie überprüfen, ob Ihre DR-Strategien für Failover und Failback den geltenden Sicherheitsstandards entsprechen.
  • Überprüfen Sie die Lizenzierung. Überprüfen Sie Ihre Software-Dokumentation und stellen Sie fest, ob es Lizenzbeschränkungen in Ihren Anwendungen gibt. Wenn ja, müssen Sie alle Probleme im Voraus beheben und sicherstellen, dass alle Anforderungen erfüllt sind.
  • Definieren Sie den Umfang Ihres DR-Plans. Der Umfang eines VM-DR-Plans legt fest, welche Systeme geschützt werden sollen, und identifiziert die erwarteten Ergebnisse sowie mögliche Einschränkungen. Stellen Sie sicher, dass Ihre virtuelle Umgebung über ausreichende technische Kapazitäten verfügt, um alle Aspekte Ihres Plans abzudecken.
  • Wählen Sie eine zuverlässige Lösung für die Datensicherheit. Die Installation einer ordnungsgemäß lizenzierten Lösung für die Datensicherheit in Ihrer virtuellen Umgebung ist für eine effiziente Leistung und nahtlose Integration von entscheidender Bedeutung. Für die DR-Planung müssen Sie festlegen, wie lange das Produkt benötigt, um Ihre virtuelle Infrastruktur wiederherzustellen und alle Vorgänge am Produktionsstandort wieder aufzunehmen.
  • Legen Sie fest, wer für Failover und Failback verantwortlich ist. Das Management sollte die Mitglieder eines Teams für die Wiederherstellung benennen und jedem Teammitglied bestimmte Aufgaben zuweisen. Legen Sie fest, wer für die Überwachung der Failover- und Failback-Vorgänge verantwortlich ist, um Verwirrung in einem tatsächlichen Szenario der Wiederherstellung zu vermeiden, wenn es darauf ankommt.
  • Schulen Sie die IT-Mitarbeiter in Failover- und Failback-Vorgängen. Stellen Sie im Anschluss an den vorherigen Punkt sicher, dass Ihre IT-Mitarbeiter über die erforderlichen Kenntnisse und Qualifikationen verfügen, um Failover- und Failback-Vorgänge durchzuführen. Die verantwortlichen Mitarbeiter sollten auf alle Eventualitäten vorbereitet sein und über fundierte Kenntnisse der Abläufe verfügen, um sich entsprechend anpassen und auftretende Probleme lösen zu können.
  • Überprüfen Sie die Service Level Agreements (SLAs). Ein Service Level Agreement ist ein Vertrag zwischen einem Dienstleister und seinen Kunden, in dem die Anforderungen und Servicestandards festgelegt sind, die der Anbieter erfüllen muss. Stellen Sie daher sicher, dass Ihre SLAs auf dem neuesten Stand sind und dass ihre Gültigkeit sich auch auf die DR-Umgebung erstreckt.
  • Definieren Sie RTOs und RPOs. A Wiederherstellungszeit-Ziel RTO (Wiederherstellungszeit-Ziel) ist der Zeitraum, innerhalb dessen der Geschäftsbetrieb nach einer Katastrophe wiederhergestellt sein muss, um erhebliche Schäden und kritische Verluste zu vermeiden. Die Ziele der Wiederherstellungspunkte (RPO) bezeichnen die Datenmenge (gemessen in Zeit), die verloren gehen kann, ohne Ihrem Unternehmen inakzeptablen Schaden zuzufügen. Ein RPO ist im Wesentlichen der früheste Zeitpunkt, zu dem Ihre VMs im Falle einer Katastrophe zurückgesetzt werden könnten. Ihre RTOs und RPOs sollten in erster Linie auf der Grundlage der Prioritäten Ihres Unternehmens im Katastrophenfall festgelegt werden. Die Erhöhung der Häufigkeit von Backup- und Replikationsaufträgen kann zwar zeitaufwändig und ressourcenintensiv sein, verbessert jedoch Ihre RPOs erheblich. Kürzere RTOs sollten den Komponenten mit der höchsten Priorität zugewiesen werden, die zuerst wiederhergestellt werden sollten. Beachten Sie, dass RTOs und RPOs für Anwendungen und VMs separat festgelegt werden sollten.
  • Erwägen Sie die Möglichkeit, Ihren DR-Standort in einen permanenten Standort umzuwandeln. Ihr Unternehmen könnte von einer großen Katastrophe betroffen sein, die eine Wiederherstellung Ihres primären Rechenzentrums unmöglich macht. Erwägen Sie daher die Möglichkeit, Ihren DR-Standort in einen permanenten Standort umzuwandeln, damit Sie im Voraus auf ein Ereignis dieser Größenordnung vorbereitet sind. Dies ist natürlich eine kostspielige Lösung, die erhebliche Ressourcen verbraucht und mit hohen Kosten für Ausrüstung, Software und Einrichtungen verbunden ist. Es kann von Vorteil sein, zu überlegen, was zu tun wäre, auch wenn Sie den Plan nicht sofort umsetzen.
  • Testen Sie Failover-Vorgänge. Durch das Testen Ihrer Failover-Prozedur können Sie überprüfen, ob Ihre virtuelle Infrastruktur an Ihrem DR-Standort ordnungsgemäß wiederhergestellt werden kann, und überprüfen, ob Ihre vorinstallierten Anwendungen auch dann erfolgreich ausgeführt werden können, wenn Ihr Produktionsstandort ausgefallen ist.
  • Testen Sie Failback-Vorgänge. Auf diese Weise können Sie sicherstellen, dass der Betrieb Ihres Unternehmens erfolgreich von dem DR-Standort zum ursprünglichen Standort wiederhergestellt werden kann.
  • Testen Sie Ihren DR-Plan vollständig. Es lohnt sich auch, den gesamten DR-Plan zu testen, da dadurch Schwachstellen im Plan durch die Simulation eines DR-Ereignisses identifiziert werden können. Auf diese Weise können Sie die DR-Strategien Ihres Unternehmens verbessern und anpassen, die Sie anwenden. Ein fehlerhafter und veralteter DR-Plan kann die Geschäftskontinuität Ihres Unternehmens erheblich beeinträchtigen.

Failover und Failback in NAKIVO Backup & Replication

NAKIVO Backup & Replication bietet eine exklusive Standortwiederherstellung Funktionalität, mit der Sie automatisierte Wiederherstellungs-Workflows (oder Aufträge) beliebiger Komplexität erstellen können. Standortwiederherstellung (SR)-Workflows umfassen benutzerdefinierte Aktionssequenzen wie Failover, Failback, Starten/Stoppen von VMs, Ausführen/Beenden von Aufträgen, Anfügen/Trennen von Repositorys usw. Diese Aktionen können in beliebiger Reihenfolge angeordnet werden, um den DR-Prozess vollständig zu automatisieren und zu orchestrieren. Darüber hinaus können Sie Ihre SR-Jobs jederzeit einfach ändern, ergänzen oder testen, ohne die Produktionsumgebung zu stören. So können selbst die komplexesten DR-Pläne mithilfe von SR-Workflows erstellt, getestet und dann reibungslos implementiert werden.

Failover in der Disaster Recovery

Die Failover-Aktion ist ein integraler Bestandteil der meisten SR-Workflows. Eine Standortwiederherstellung mit Failover kann nur durchgeführt werden, wenn Sie zuvor Replikate der zu schützenden Quell-VMs erstellt haben; diese werden im Katastrophenfall als Ziele für das Failover verwendet. Die Arbeitslast wird von der Quelle am betroffenen Produktionsstandort auf ein Replikat am DR-Standort übertragen.

NAKIVO Backup & Replication bietet drei Arten von Failover:

  • Geplantes Failover wird zum präventiven Schutz Ihrer Systeme verwendet, wenn eine potenzielle Bedrohung besteht oder eine Katastrophe zu erwarten ist. Wenn Sie über Wettergefahren informiert wurden oder wenn in der Region ein Stromausfall geplant ist, können Sie ein geplantes Failover einleiten. In diesem Fall synchronisiert die Lösung die Daten zwischen der Quelle und ihren Replikaten, bevor die Workloads auf die Replikate übertragen werden, sodass Datenverluste vollständig verhindert werden.
  • Test-Failover hilft Ihnen festzustellen, ob Ihre Failover-Strategien funktionsfähig sind und ob Sie sich im Falle eines DR-Ereignisses darauf verlassen können. Der Failover-Test wird ähnlich wie ein geplanter Failover durchgeführt, mit dem Unterschied, dass alle im Testmodus vorgenommenen Änderungen sofort rückgängig gemacht werden, um keine Störungen in der primären Umgebung zu verursachen. Darüber hinaus können Sie testen, ob Ihr Workflow im Falle eines DR-Ereignisses ausreichend schnell läuft. NAKIVO Backup & Replikation & Replikation ermöglicht es Ihnen, eine RTO für Ihren Auftrag zur Standortwiederherstellung festzulegen. Wenn der Auftrag länger als die festgelegte Zeit dauert, gilt der Test als fehlgeschlagen. Ein Test-/Ausführungsbericht wird per E-Mail versendet, den Sie überprüfen können, um Mängel in Ihrem DR-Plan zu identifizieren und zu beheben.
  • Notfall-Failover wird sofort ausgeführt, nachdem Ihre Produktionsstandort von einer Katastrophe betroffen ist und die Quelle-VM nicht mehr erreichbar ist. Mit NAKIVO Backup & Replikation können Sie die Arbeitslast mit nur einem Klick vom primären Standort zum DR-Standort verschieben. Auf diese Weise wird eine minimale Ausfallzeit garantiert, auch wenn einige Daten verloren gehen können.

Erneuter Schutz von VMs am DR-Standort

Nach dem Failover sollten Sie sicherstellen, dass die an Ihrem DR-Standort ausgeführten VM-Replikate geschützt sind. VM-Replikate können ebenfalls beschädigt werden, und wenn keine weiteren Kopien vorhanden sind, ist eine sofortige Wiederherstellung unmöglich.

NAKIVO Backup & Replication sorgt jedoch dafür, dass Ihre virtuelle Infrastruktur nach einem DR-Ereignis erneut geschützt ist. Replizieren Sie einfach die auf Ihrem DR-Standort ausgeführten VMs an einen anderen Standort. So können Sie bei unerwarteten Ereignissen problemlos auf Ihr neues VM-Replikat ausweichen. Sie können Ihre SR-Workflows so konfigurieren, dass die Replikation der auf dem DR-Standort ausgeführten VMs automatisch gestartet wird, sobald der Failover abgeschlossen ist, wodurch ein hohes Maß an Schutz gewährleistet ist.

Failback in der Disaster Recovery

Ein Failback kann nur durchgeführt werden, nachdem ein Failover in einem SR-Workflow stattgefunden hat. Nach einiger Zeit, wenn Ihr primärer Standort wieder gesichert ist, können Sie den Betrieb auf der ursprünglichen Quelle wieder aufnehmen. Zu diesem Zweck können Sie von einem VM-Replikat, das die ursprüngliche VM ersetzt hat, ein Failback auf diese VM durchführen. Wenn die VM-Workloads nicht zurück an den primären Produktionsstandort übertragen werden können (z. B. weil er nicht wiederhergestellt werden kann), können sie an einen anderen neuen Standort Ihrer Wahl übertragen werden, der eine längerfristige Lösung als der DR-Standort darstellt.

Ein Failback kann im Produktionsmodus oder im Testmodus durchgeführt werden.

  • Failback im Testmodus soll feststellen, ob der SR-Auftrag erfolgreich ausgeführt werden kann, ohne dass während des eigentlichen Failback-Prozesses Probleme auftreten. In diesem Fall wird die inkrementelle oder vollständige Replikation von dem Replikat der VM zur Quelle nur einmal durchgeführt, was für Testzwecke ausreichend ist. Stellen Sie sicher, dass die IP-Adresse und die Netzwerkeinstellungen korrekt sind. Die Quell-VM und die VM-Replik werden synchronisiert, um Datenverluste zu vermeiden, und anschließend wird die Quell-VM eingeschaltet. Beachten Sie, dass alle während des Failback-Prozesses an Ihren VMs vorgenommenen Änderungen nach Abschluss des Tests verworfen werden und Ihre virtuelle Umgebung in den Zustand vor dem Failback zurückversetzt wird. Im Testmodus kann ein Auftrag für die Standortwiederherstellung entweder auf Anfrage oder nach Plan ausgeführt werden.
  • Failback im Produktionsmodus wird durchgeführt, wenn Sie Ihre Produktionsumgebung nach einem DR-Failover wiederherstellen möchten. Im Produktionsmodus kann ein Standortwiederherstellungs-Auftrag nur bei Bedarf ausgeführt werden. Das Failback im Produktionsmodus erfolgt im Wesentlichen nach denselben Schritten wie das Failback im Testmodus. Die Replikation von der VM-Replik zur Quell-VM wird jedoch zweimal durchgeführt, um sicherzustellen, dass dabei keine Daten verloren gehen. Nach Abschluss der Replikation wird die ursprüngliche Quell-VM (am Produktionsstandort) eingeschaltet und die VM-Replik am DR-Standort ausgeschaltet. (Beachten Sie, dass dieser letzte Schritt – das Ausschalten der DR-VM-Replikate – nur im Produktionsmodus erfolgt.

Fazit

Wenn Sie die Technologie hinter Failover und Failback verstehen und in Ihren VM-Disaster Recovery-Plan integrieren, können Sie Ihre virtuelle Umgebung vor unerwarteten Ereignissen schützen. Failover stellt sicher, dass geschäftskritische Daten gesichert und alle Workloads schnell an einen DR-Standort übertragen werden. Mit Failback können Sie mit wenigen Klicks vom DR-Standort zurück zu Ihrem Produktionsstandort wechseln. Zusammen tragen diese Vorgänge dazu bei, Datenverluste zu minimieren und Ausfallzeiten zu reduzieren.

Try NAKIVO Backup & Replication

Try NAKIVO Backup & Replication

Get a free trial to explore all the solution’s data protection capabilities. 15 days for free. Zero feature or capacity limitations. No credit card required.

Empfohlene Artikel