Che cos’è un failover? Casi d’uso del clustering e della replica

<> & La disponibilità delle VM è essenziale per garantire la continuità operativa. Quando i servizi in esecuzione su VM business-critical e mission-critical diventano indisponibili, le aziende possono subire perdite economiche e compromettere la fiducia dei clienti. Per ripristinare immediatamente la disponibilità delle VM dopo un guasto, è necessario utilizzare tecniche di failover appropriate.

Il failover su una replica della VM può essere parte integrante del ripristino di emergenza per ripristinare i dati e le operazioni con un’interruzione minima dei flussi di lavoro regolari. Il processo di failover delle VM dovrebbe essere descritto nel piano di continuità operativa e di ripristino di emergenza (BCDR). Esaminiamo più dettagliatamente i tipi di failover delle VM e i casi d’uso.

Ensure Availability with NAKIVO

Ensure Availability with NAKIVO

Meet strict requirements for service availability in virtual infrastructures. Achieve uptime objectives with robust DR orchestration and automation features.

Che cos’è un failover?

Il failover è il processo di ripristino di una VM su un sistema secondario (e talvolta in una ubicazione secondaria) a seguito di un guasto del sistema primario. Il sistema secondario contiene tutti i dati necessari per mantenere le operazioni aziendali. In questo contesto, un sistema può essere un server, un database, una VM, ecc.

Negli ambienti virtuali, esistono due metodi di failover comuni:

Il failover richiede meno tempo per ripristinare i carichi di lavoro rispetto al ripristino da un backup e, di conseguenza, è possibile ottenere un obiettivo di tempo di ripristino (RTO) inferiore. Tuttavia, l’utilizzo di replica delle VM o il clustering non elimina la necessità di creare backup delle VM. Un backup (solitamente compresso) è utile quando è necessario ripristinare i dati dal vecchio punto di ripristino.

Esaminiamo la terminologia di base del failover delle VM per il ripristino di emergenza basato sulla replica.

Glossario del failover

  • Guasto: Qualsiasi problema hardware o software causato da un crash del sistema, un’interruzione di corrente, problemi di rete, un attacco ransomware, ecc. che rende il sistema non disponibile.
  • Sistema primario: Il sistema che esegue operazioni live nell’ambiente di produzione.
  • Sistema secondario: Il sistema di stand-by ridondante, che viene aggiornato regolarmente con copie del sistema primario. Il sistema secondario può essere ospitato on-premise o in una ubicazione remota.
  • Replica: Il processo essenziale per prepararsi al failover della VM. La replica crea una copia esatta, ovvero una replica, della VM primaria per un determinato momento.
  • Failback della VM: Il failback è il processo di ritorno al sistema primario dalla VM replica dopo la risoluzione dell’incidente.

Tipi di failover

Esistono tre tipi di failover:

  • A Il failover pianificato viene utilizzato per le migrazioni programmate delle carghe di lavoro da un sistema/sito a un altro. I casi d’uso includono l’esecuzione di manutenzione sul sistema primario, lavori elettrici eseguiti nel sito di produzione e scenari di emergenza previsti. Ad esempio, un avviso meteo relativo a un tornado potrebbe essere obbligatorio per garantire la disponibilità.
  • Un failover non pianificato è un failover eseguito quando si verifica un guasto imprevisto che causa l’offline di una VM critica o dell’intero sito primario. Il guasto può essere causato da una serie di disastri naturali, incidenti (un’interruzione di corrente), un attacco malware o qualsiasi altro incidente. Per un failover non pianificato, gli host e le repliche devono essere preparati in anticipo.
  • Un test failover, come suggerisce il nome, viene utilizzato a scopo di test. Gli scenari di test possono includere la simulazione di scenari di failover non pianificati per garantire che
    • sia possibile soddisfare gli RTO e gli RPO
    • tutto funzioni correttamente e possa essere eseguito senza problemi quando necessario
    • tutto il personale coinvolto nel ripristino di emergenza comprenda i propri ruoli e responsabilità

La sequenza di failover

Durante il failover di una VM, la sequenza di azioni di failover e l’ordine di avvio delle VM sono essenziali per garantire il ripristino corretto dei flussi di lavoro. Devono essere definiti nella fase di sviluppo del piano di ripristino di emergenza della vostra organizzazione . La sequenza deve tenere conto delle dipendenze tra i diversi servizi in esecuzione su VM diverse.

Ad esempio, l’autenticazione per alcuni servizi e applicazioni in esecuzione su VM potrebbe utilizzare Active Directory, in esecuzione su un’altra VM. Un server di database potrebbe essere in esecuzione sulla prima VM, un server di applicazioni sulla seconda e il server web sulla terza.

La VM con Active Directory Server deve essere avviata per prima. Successivamente è possibile avviare le VM con servizi che utilizzano Active Directory per l’autenticazione. La VM con il server di database deve essere avviata prima della VM con il server delle applicazioni, poiché il server delle applicazioni si connette al database. Una volta avviate le VM con il server di database e il server delle applicazioni, è possibile avviare la VM con il server web.

Principali soluzioni di failover

Le principali soluzioni utilizzate negli ambienti virtuali sono:

  • failover clustering
  • failover utilizzando repliche VM

Consideriamo ciascuna di esse.

Soluzione 1. Clustering di failover

Un cluster di failover è un gruppo di almeno due server o nodi configurati per assumere i carichi di lavoro quando un nodo è inattivo o non disponibile. Il clustering è una soluzione automatizzata di livello aziendale che può essere utilizzata per le VM più importanti e critiche per l’azienda. Microsoft Hyper-V offre un cluster di failover composto da diversi host Hyper-V. L’equivalente di VMware è un cluster ad alta disponibilità, composto da host VMware ESXi.

Nel primo diagramma riportato di seguito è possibile vedere un cluster in cui entrambi gli host (chiamati anche nodi) funzionano correttamente. Le VM sono in esecuzione sugli host e i file delle VM si trovano su uno storage condiviso accessibile da entrambi gli host.

Before VM failover - all components of the cluster work fine

Quando uno degli host si arresta, la proprietà della connessione alla VM (che era in esecuzione sul nodo offline) viene trasferita a un altro nodo ancora online. Questo è il processo di failover. Una VM ad alta disponibilità potrebbe richiedere un riavvio.

VM failover - VMs are migrating to the second host within a cluster after failure of the first host

Requisiti per il clustering di failover

Per creare un cluster di failover è necessario soddisfare i seguenti requisiti:

  • Archiviazione condivisa collegata agli host con una rete dedicata ad alta velocità con bassa latenza. È necessario utilizzare un file system clusterizzato per garantire che più host possano accedere contemporaneamente ai dati presenti nell’archivio.
  • Gli host su cui sono in esecuzione le VM devono avere lo stesso hardware o, almeno, hardware della stessa famiglia. I processori devono supportare gli stessi set di istruzioni per garantire la compatibilità delle VM e il loro corretto funzionamento dopo la migrazione da un host all’altro durante il failover.
  • Una rete ridondante ad alta velocità con bassa latenza. Dovrebbero esserci più reti cluster separate, ovvero un cluster deve avere reti diverse per l’archiviazione, la gestione, la migrazione delle VM, la connessione tra gli host, ecc.

Casi d’uso

I cluster di failover vengono utilizzati per ripristinare le VM in caso di guasto del server, garantendo un’elevata disponibilità per le VM critiche. Se uno degli host (chiamati nodi) all’interno di un cluster si guasta, le VM in esecuzione sull’host guasto vengono migrate (failover) su altri host funzionanti. A seconda delle impostazioni, le VM sottoposte a failover possono essere migrate nuovamente sull’host su cui erano in esecuzione prima dell’incidente, una volta risolto il guasto.

Vantaggi

Un cluster di failover offre vantaggi che garantiscono una protezione efficace:

  • Un cluster di failover fornisce il failover automatico delle VM. Non è necessario avviare manualmente le VM che hanno subito un guasto su altri host.
  • Al momento del failover, la perdita di dati è pressoché nulla. Il tempo di inattività è solitamente limitato al tempo necessario per caricare la VM, il sistema operativo (OS) e il software in esecuzione sulla VM.
  • La La funzione di tolleranza ai guasti inclusa nel cluster VMware High Availability garantisce il failover delle VM senza tempi di inattività e senza perdita di dati.

Svantaggi

Un cluster di failover non protegge da:

  • Guasti software delle VM. Bug software o virus possono causare un crash del sistema in una VM.
  • Cancellazione accidentale di file all’interno della VM.
  • Guasto dello storage condiviso. Il cluster non funziona se lo storage condiviso non funziona. Lo storage condiviso è un componente fondamentale del cluster; i dischi virtuali che appartengono alle VM all’interno di un cluster sono memorizzati sullo storage condiviso.
  • Un disastro che rende inutilizzabile l’intero sito fisico.

Per ulteriori informazioni su cosa sia un cluster di failover, leggere la guida completa sul clustering VMware.

Soluzione 2. Failover tramite repliche VM

Il failover VM basato su repliche VM può essere eseguito da applicazioni specializzate, in grado di replicare le VM e avviare le repliche quando richiesto dall’amministratore. Oltre al software di protezione dei dati, sono necessari host ESXi o Hyper-V (a seconda dell’ambiente) che siano stati preparati in anticipo per eseguire le repliche delle VM in caso di guasto delle VM di origine.

Nel diagramma sottostante sono visibili due host collegati tra loro tramite la rete. Le VM utilizzano i dischi degli host. Le VM di origine sono in esecuzione sul primo host, mentre le repliche delle VM, che sono copie esatte delle VM di origine in un determinato momento, hanno la loro ubicazione sul secondo host in stato di spegnimento.

Powered off VM replicas are residing on the second host while the source VMs are running on the first host

Quando un host si spegne, anche le VM in esecuzione su quell’host diventano irraggiungibili. Le repliche delle VM che si trovano su un altro host vengono quindi accese dall’amministratore.

VM failover - the VM replicas are powered on after a failure of the first host on which the source VMs were running

Requisiti per la replica delle VM

I requisiti di base per la replica delle VM sono due o più host e una soluzione di replica. Una VM di origine in esecuzione sul primo host viene replicata sul secondo host. La replica della VM si trova sul secondo host.

Casi d’uso

Il failover tramite repliche di VM può essere utilizzato in caso di guasti hardware o software. I guasti degli host ESXi o Hyper-V sono un esempio di guasto hardware. Esempi di guasti software possono essere aggiornamenti non riusciti, bug software, attacchi di virus o cancellazione accidentale di file da parte di un utente.

Vantaggi

Il vantaggio principale del failover delle VM su una replica è la possibilità di eseguire il failover su un sito remoto. Quando viene creata una replica di una VM, i dati copiati da una VM di origine possono essere trasmessi tramite una connessione di rete (con larghezza di banda limitata) a un sito remoto. Il sito remoto potrebbe trovarsi in un ufficio vicino o dall’altra parte del mondo. La replica della VM può anche trovarsi nel sito di produzione principale.

Svantaggi

Elenco degli svantaggi di un failover che utilizza repliche VM:

  • C’è un breve periodo di inattività tra un guasto e l’avvio della replica sul secondo host.
  • Il failover deve essere avviato manualmente.
  • I dati scritti dall’ultima replica possono andare persi durante un failover non pianificato. La replica delle VM spesso non è un processo in tempo reale (sincrono), poiché la replica sincrona comporta un carico significativo sulle risorse. La replica viene solitamente eseguita a intervalli di tempo regolari a seconda delle impostazioni scelte.
  • Le impostazioni di rete delle VM devono (spesso) essere modificate al momento del failover su un altro sito. Le reti delle VM del sito remoto potrebbero differire da quelle del sito primario. Pertanto, anche gli indirizzi IP potrebbero essere diversi e devono essere controllati e modificati insieme alle altre impostazioni di rete durante il failover.

Failover delle VM basato su clustering o replica

Failover con clustering Failover utilizzando una replica
Scopo Alta disponibilità Ripristino di emergenza
Protezione contro Solo guasti hardware Guasti hardware e software
Amministrazione Avviato automaticamente Avviato manualmente
Durata del tempo di inattività (RTO) Il failover è più veloce, quindi il tempo di inattività della VM è breve (RTO breve) Il failover richiede più tempo, quindi il tempo di inattività della VM è più lungo
Requisiti Requisiti aggiuntivi Requisiti ridotti
Prezzo della soluzione Le soluzioni di clustering sono solitamente più costose Le soluzioni di replica sono più convenienti
RPO Perdita di dati quasi nulla (RPO molto basso) La perdita di dati dipende dalla frequenza di replica

Uso combinato di cluster e repliche per il failover delle VM

Le soluzioni di failover con cluster e replica sono talvolta considerate alternative, ma possono essere utilizzate in modo complementare. Vediamo alcuni esempi di come l’uso di entrambe le soluzioni di failover possa aiutare a proteggere le VM da guasti a livello di server e di sito.

  • Esempio 1: È possibile replicare le VM in esecuzione all’interno di un cluster su un host in un sito remoto. Inoltre, è possibile replicare le VM in esecuzione all’interno di un cluster su un altro cluster. Pertanto, se un host si guasta, il cluster di failover mantiene tali VM online. Se l’intero sito subisce un’interruzione, è possibile eseguire il failover sulle repliche delle VM archiviate in un sito remoto.
  • Esempio 2: Un virus danneggia i file all’interno di alcune VM. Un cluster di failover non è in grado di proteggere da tali guasti. Tuttavia, se si dispone di repliche di macchine virtuali con più punti di ripristino, è possibile ripristinare ciascuna macchina virtuale a un punto temporale precedente al danneggiamento o alla cancellazione dei file.

Utilizzo della soluzione NAKIVO per il failover automatizzato delle VM VMware alla replica

NAKIVO Backup & Replication & Replication è una soluzione di backup e di ripristino di emergenza in grado di proteggere le VM in esecuzione all’interno di un cluster, replicare le VM, eseguire il failover alle repliche e effettuare l’orchestrazione di sequenze di ripristino di emergenza complesse. I cluster e gli host ESXi o Hyper-V autonomi sono supportati come punti di origine e destinazione per la replica. La soluzione traccia automaticamente l’host su cui risiede una VM in modo da poterla replicare. Ciò è utile perché le VM possono migrare da un host all’altro all’interno di un cluster dopo eventi di failover o di bilanciamento del carico (un cluster è solitamente configurato in combinazione con il bilanciamento del carico). Ecco perché il software utilizzato per replicare una VM da un cluster deve essere in grado di tracciare l’host su cui risiede la VM.

La soluzione NAKIVO può modificare automaticamente le impostazioni di rete della VM al momento del failover; è sufficiente utilizzare le funzioni di mapping di rete e Re-IP durante la configurazione di un processo di replica o failover.

Consideriamo un esempio di Failover automatizzato della VM (con mapping di rete e ridefinizione dell’IP) in NAKIVO Backup & Replication & >Configurazione della replica necessaria per il failover della VM

Nella dashboard dei lavori, fare clic su Creare > processo di replica VMware vSphere se si dispone di un ambiente virtuale VMware. Si noti che è possibile creare un processo di replica per una VM Microsoft Hyper-V o un’istanza di Amazon EC2 allo stesso modo.

Creating a new VMware vSphere replication job to get ready for VM failover

Viene avviata la procedura guidata del processo di replica.

  1. Selezionare le VM che si desidera replicare. In questo esempio, verrà replicata la VM Server2019 che esegue Windows Server 2019 come sistema operativo guest. Fare clic su Avanti.Selecting a source VM to replicate – this VM will be used for VM failover
  1. Selezionare un host di destinazione su cui eseguire la replica della VM (10.10.10.90 nel nostro caso). Selezionare l’archivio dati montato sull’host selezionato per il posizionamento dei file della VM. Fare clic su Avanti.Selecting a destination host and datastore for a VM replica
  1. È possibile impostare le opzioni di mapping di rete e ridefinizione IP durante la configurazione di un processo di replica o di failover. In questa procedura guidata, il mapping di rete e il re-IP verranno configurati in un secondo momento, durante la configurazione del lavoro di failover. Pertanto, è possibile saltare questo passaggio per il momento e fare semplicemente clic su Avanti.VM Network configuration for the VM replica
  1. La configurazione Re-IP verrà spiegata durante la configurazione del processo di failover della VM in questa procedura guidata. Fare clic su Avanti.Re-IP settings can be configured during a VM replication job
  1. Seleziona le impostazioni di pianificazione. Fai clic su Avanti quando hai finito.Scheduling settings for a replication job
    grandfather-father-son criterio di conservazione. Fai clic su Avanti.Retention settings – how many recovery points must be preserved
  1. Selezionare le opzioni del lavoro di replica e fare clic su Termina ed esegui . Oppure il pulsante Finish & . Attendere mentre viene creata la replica.Configuring VM replication job options

Configurazione del failover della VM

Ora che è stata creata una replica della VM, è possibile eseguire il failover della VM su questa replica.

Nella pagina iniziale della dashboard, fare clic su Ripristina > Ripristino completo VMware (failover della replica della VM). Si apre la procedura guidata Nuova procedura guidata di failover .

Starting VM failover to replica

  1. Nel riquadro sinistro, selezionare la replica della VM da utilizzare per il failover. In questa procedura guidata, viene selezionata la replica Server2019-replica , appena creata. Nel riquadro destro, selezionare un punto di ripristino. Il punto di ripristino più recente è selezionato per impostazione predefinita nella soluzione. Fare clic su Avanti.Selecting the VM replicas and recovery points to perform VM failover
  1. Mapping di rete consente di modificare la rete a cui è connessa la VM. Gli host ESXi di origine e di destinazione potrebbero avere impostazioni dello switch virtuale diverse. Poiché una replica VM è una copia esatta della VM di origine, le reti virtuali a cui è connessa la VM di origine vengono conservate nella replica VM.

    In genere, è necessario controllare le impostazioni di rete di una replica VM e modificare manualmente la rete. NAKIVO Backup & Replication & Replication può mappare automaticamente la rete di origine a una rete di destinazione. È sufficiente impostare la mappatura di rete durante la configurazione del processo di replica o failover.

    • Per abilitare la mappatura di rete, selezionare la casella di controllo. Se è stata precedentemente creata una regola di mappatura di rete, è possibile fare clic su Aggiungi mapping esistente. Se non sono presenti regole di mapping di rete, fare clic su Crea nuovo mapping.Configuration of Network Mapping while configuring a VM failover job
    • Per creare una nuova regola di mapping di rete, selezionare la rete di origine e la rete di destinazione. La rete di origine è la rete a cui è connessa la VM di origine. La rete di destinazione (target) è la rete a cui deve essere connessa la replica della VM.

      Nota: Il nome della rete della VM non è uguale all’indirizzo IP o all’indirizzo di rete.

      Fare clic su Salva per salvare la regola di mapping di rete, quindi fare clic su Avanti per procedere con la configurazione.Creating a network mapping rule

    1. La funzione ridefinisci IP consente di modificare le impostazioni IP della replica VM. Può essere utilizzata per indirizzi IP statici. Selezionare la casella di controllo Abilita ridefinizione IP se si desidera abilitare questa opzione, quindi creare una regola di ridefinizione IP o aggiungere una regola esistente. Fare clic su Crea nuova regola se non sono state create regole in precedenza. Viene visualizzato un menu a comparsa.
    • Le impostazioni della VM di origine sono l’indirizzo IP e la maschera di rete che devono essere modificati.
    • Le impostazioni di destinazione sono quelle da applicare alla replica della VM quando si verifica il failover.In questo esempio, il carattere [*] copre l’ultimo ottetto. Il carattere [*] indica qualsiasi numero compreso tra 1 e 254. Se gli indirizzi IP di origine sono, ad esempio, 10.10.10.1, 10.10.10.96 e 10.10.10.222, gli indirizzi di destinazione sarebbero rispettivamente 192.168.10.1, 192.168.10.96 e 192.168.10.222. L’ultimo ottetto dell’indirizzo IP viene conservato.

      Fare clic su Salvare per salvare la regola di ridefinizione IP e procedere.

      Creating a Re-IP rule for VM failover

      Dopo aver aggiunto le regole di ridefinizione IP, la schermata dovrebbe apparire così:The Re-IP rule has been added

      Ora seleziona le VM a cui applicare le regole di ridefinizione IP. Il lavoro di failover in questo esempio contiene solo una replica VM, quindi seleziona una casella di controllo.

      Quindi seleziona le credenziali per ciascuna VM. Fare clic su Gestisci credenziali > Aggiungi credenziali per aggiungere nuove credenziali. Le credenziali aggiunte possono essere selezionate dall’elenco a discesa.

      Nota: Le credenziali sono necessarie affinché NAKIVO Backup & Replication possa accedere alle impostazioni di rete del sistema operativo all’interno della VM e applicare lo script che modifica tali impostazioni. VMware Tools deve essere installato sulle VM VMware vSphere, mentre Hyper-V Integration Services deve essere installato sulle VM Microsoft Hyper-V.

      Dopo aver configurato tutte queste impostazioni, fare clic su Avanti.Selecting credentials for the VM to which the Re-IP rules must be applied during VM failover

    1. Ora, configura le opzioni del lavoro di failover della VM. Puoi selezionare la casella di controllo Spegni le VM di origine . Potrebbe essere utile per evitare un conflitto di indirizzi IP se sia le VM di origine che quelle di replica utilizzano la stessa rete o hanno gli stessi indirizzi IP. Dopo aver configurato tutte le opzioni, fare clic su Termina & Run.VM failover job options
      Attendere il completamento del processo di failover della VM.A VM Failover job has been completed successfully
      Ora è possibile verificare che la replica della VM sia in esecuzione. Andare su Configurazione > Inventario e fare clic sul pulsante Aggiorna tutto . Dopo l’aggiornamento, è possibile vedere che la VM Server2019-replica è già in esecuzione sull’host ESXi di destinazione. Da questa pagina (la pagina Inventory ) è anche possibile gestire le credenziali, le regole di mapping di rete e le regole di ridefinizione IP..Checking the failed over VM in the inventory

    Conclusione

    Il failover delle VM è utile per scenari di ripristino di emergenza con molte VM o per il ripristino anche di una sola VM, al fine di garantire la continuità operativa e l’alta disponibilità. Tuttavia, è importante comprendere che qualsiasi piano di ripristino di emergenza dovrebbe essere accompagnato da una solida strategia di backup per una protezione dei dati più affidabile ed efficiente.

    Considerate l’utilizzo di NAKIVO Backup & Replication, una soluzione di protezione delle VM veloce, affidabile e conveniente, per proteggere le VM utilizzando il metodo di failover alla replica. La soluzione supporta anche il backup e il ripristino granulare per ambienti virtuali, fisici, cloud e SaaS da un’interfaccia web centralizzata.

    Try NAKIVO Backup & Replication

    Try NAKIVO Backup & Replication

    Get a free trial to explore all the solution’s data protection capabilities. 15 days for free. Zero feature or capacity limitations. No credit card required.

Le persone leggono anche