Test di ripristino di emergenza e perché la tua azienda ne ha bisogno
Per quanto affidabili siano oggi l’hardware e il software, le macchine sono ancora vulnerabili a guasti per diversi motivi. Quando si verificano dei crash, i sistemi possono andare offline e i dati possono diventare indisponibili per lunghi periodi di tempo. E anche quando i sistemi vengono riportati online, a volte è impossibile ripristinare i dati, che vanno irrimediabilmente persi. Il modo più affidabile per mitigare questi rischi è mettere in atto un piano completo di ripristino di emergenza (DR).
Un piano di ripristino di emergenza è un insieme di procedure che devono essere intraprese per ripristinare i dati e i carichi di lavoro entro limiti di tempo prestabiliti. Questa checklist dettagliata per il ripristino di emergenza include meccanismi messi in atto in anticipo per prepararsi a diversi scenari di disastro.
Le statistiche mostrano che il 95% delle aziende in tutto il mondo investe risorse considerevoli nella pianificazione del peggiore degli scenari, compreso il Ripristino di emergenza. Tuttavia, solo il 78% di esse utilizza test di Ripristino di emergenza per verificare che il proprio piano soddisfi effettivamente gli obiettivi. Continua a leggere per scoprire cosa sono i test di ripristino di emergenza e come sviluppare una strategia di test di ripristino di emergenza per la tua organizzazione, al fine di garantire la disponibilità del sistema e la continuità operativa in caso di incidenti.
Cosa sono i test di ripristino di emergenza?
I test di ripristino di emergenza consistono nella verifica delle fasi del piano di ripristino di emergenza per garantire che il piano possa essere implementato con successo e che le applicazioni e i dati critici possano essere ripristinati dopo un’interruzione. Il test del piano di ripristino di emergenza mira a garantire che le operazioni aziendali e i servizi critici possano essere mantenuti durante e dopo un incidente.
Il test di ripristino di emergenza nella sua forma più completa prevede la simulazione di un guasto IT o di qualsiasi altro tipo di interruzione dell’attività per valutare il piano di ripristino di emergenza in atto. Gli obiettivi principali del test di ripristino di emergenza sono verificare se un’organizzazione è in grado di soddisfare gli obiettivi di tempo di ripristino (RTO) e gli obiettivi di punto di ripristino (RPO) stabiliti nel piano di ripristino di emergenza. È necessario comprendere gli RPO rispetto agli RTO e impostarli per ogni applicazione e VM. Il test di ripristino di emergenza fornisce anche informazioni sul comportamento del sistema nel caso in cui una parte dell’infrastruttura diventi indisponibile. Queste informazioni possono aiutare a perfezionare il piano di ripristino di emergenza dell’organizzazione e a correggere eventuali punti deboli prima che si verifichi un’interruzione reale.
È importante ricordare che un piano di test di ripristino di emergenza non dovrebbe limitarsi alle componenti tecniche del piano di ripristino di emergenza. È altrettanto importante verificare che ogni dipendente coinvolto nel ripristino di emergenza comprenda il proprio ruolo e abbia accesso alle risorse necessarie per svolgere il proprio lavoro durante un’interruzione.
I test del piano di ripristino di emergenza dovrebbero essere condotti regolarmente, preferibilmente più volte all’anno. Gli ambienti IT cambiano regolarmente con la dismissione di software, l’introduzione di nuove applicazioni o la sostituzione di hardware, il che a sua volta richiede le opportune modifiche al piano di ripristino di emergenza. Il processo di test del ripristino di emergenza può essere parte delle routine di manutenzione e della formazione del personale.
Perché è importante testare il ripristino di emergenza
Il rischio di non testare un piano di ripristino di emergenza è la perdita di dati e l’impossibilità di accedere ai sistemi. È possibile assicurare la propria azienda contro le perdite, ma nessuna polizza assicurativa può sostituire i dati persi a seguito di un incidente o le ripercussioni di un periodo di inattività prolungato su un’azienda. L’unico modo per garantire realmente l’operatività e la disponibilità è creare un piano di Ripristino di emergenza ed eseguire test regolari. Se non siete ancora convinti della necessità di testare il piano di Ripristino di emergenza, ecco un elenco di ciò che i test di Ripristino di emergenza vi aiutano a ottenere prima che si verifichi un incidente:
- Rileva lacune o difetti in un piano di Ripristino di emergenza
- Assicurarsi di avere la giusta sequenza di azioni durante il ripristino
- Verifica che gli obiettivi di ripristino siano realistici e possano essere raggiunti
- Ridurre al minimo la perdita di dati
- Eseguire le azioni del team DR e assicurarsi che ogni membro comprenda il proprio ruolo
- Introdurre aggiornamenti e correzioni prima che sia troppo tardi
Componenti di un processo di test di ripristino di emergenza
Un test di ripristino di emergenza dovrebbe essere pianificato in modo da garantire risultati e contribuire a migliorare la preparazione al ripristino di emergenza. Ciò significa che gli obiettivi del test di ripristino di emergenza devono essere chiari e che è necessario disporre di un calendario specifico che indichi la frequenza dei test, i criteri di successo, la valutazione dei risultati e le misure da adottare per colmare le lacune e risolvere eventuali problemi di ripristino di emergenza. Esaminiamo questi componenti in modo più dettagliato.
Definizione dell’ambito del test di ripristino di emergenza
L’ambito del test di ripristino di emergenza comprende una serie di ipotesi e aspettative che devono essere soddisfatte durante il processo di test. La definizione dell’ambito del test dovrebbe includere:
- Identificazione dei sistemi e delle funzioni che saranno inclusi nel test di ripristino di emergenza
- Definizione del tipo di processo di ripristino di emergenza che sarà testato: ripristino completo delle macchine dai backup, failover a un sito di ripristino di emergenza, ecc.
- Stabilire in anticipo eccezioni e limitazioni, poiché alcuni componenti del piano di DR potrebbero non essere eseguiti come previsto
- Specificare i reparti e il personale coinvolti nel processo di test del DR
- Definizione degli scenari che saranno testati: guasto del sito primario, attacco ransomware, perdita di connessione, guasto del server/database, ecc.
Revisione del piano di ripristino di emergenza
Prima di eseguire il test, è necessario rivedere il piano di ripristino di emergenza. Il test di ripristino di emergenza deve essere condotto in modo organizzato, concentrandosi sui criteri e sulle pratiche dell’organizzazione. Pertanto, il team di ripristino di emergenza dovrebbe incontrare la gestione per rivedere il piano di ripristino di emergenza esistente e determinare eventuali modifiche o aggiornamenti da implementare in base allo stato attuale dell’azienda. Questi includono fattori quali l’introduzione di nuovi prodotti hardware o software, l’espansione dell’attività, i tagli al budget, il turnover del personale, ecc.
Frequenza dei test di ripristino di emergenza
Poiché gli attuali ambienti IT sono altamente dinamici, determinare la frequenza di revisione è fondamentale per mantenere costantemente aggiornato il piano di ripristino di emergenza. Alcune organizzazioni rivedono e aggiornano i propri piani di DR una volta all’anno. Tuttavia, la strategia più efficiente consiste nell’aggiornare (e ripetere i test) il piano di DR ogni volta che i componenti mission-critical dell’organizzazione subiscono modifiche. Sebbene i test di ripristino di emergenza possano rivelarsi dispendiosi in termini di tempo e costi, è opportuno creare un programma di test basato sulle esigenze aziendali e sulle risorse disponibili, tenendo conto dell’ambito dei processi di ripristino di emergenza.
Criteri di successo dei test
È necessario definire i criteri che determinano il successo o il fallimento dei test di ripristino di emergenza delle VM. Idealmente, i test di ripristino di emergenza delle VM possono essere considerati superati quando un piano di ripristino di emergenza si dimostra valido e fattibile.
Tuttavia, i test di ripristino di emergenza possono essere considerati riusciti anche quando un piano di ripristino di emergenza non ha superato il test. Questo scenario consente di identificare i difetti di un piano di ripristino di emergenza prima di un disastro reale e di risolverli nella successiva iterazione del piano. Essenzialmente, i criteri di successo del test sono definiti sulla base di aspettative predeterminate, che dovrebbero essere chiaramente espresse nel piano di test di ripristino di emergenza per evitare qualsiasi confusione.
Valutazione dei risultati del test
I risultati di un processo di test di ripristino di emergenza delle VM forniscono una panoramica generale delle strategie di ripristino di emergenza attualmente utilizzate nell’azienda. Il team di ripristino può valutare i risultati del test e proporre miglioramenti o adeguamenti al piano di ripristino di emergenza sulla base dei problemi individuati.
Nel valutare i risultati dei test di DR è opportuno considerare anche i seguenti parametri:
- Quanto tempo è trascorso prima che le attività mission-critical fossero ripristinate
- Quanto è stato eseguito correttamente ogni passaggio del piano (se si sono verificati errori e ritardi
- Quante operazioni sono state completate con successo durante il processo di test del DR
È necessario apportare modifiche e aggiornamenti e testarli per migliorare il piano di DR. L’obiettivo è fornire un processo di ripristino più efficace e gestibile.
Revisione post-test del piano di DR
Dopo aver eseguito un piano di ripristino di emergenza in modalità di test, è consigliabile rivedere nuovamente il piano di ripristino di emergenza. Durante il processo di test del ripristino di emergenza è necessario registrare i punti di forza e di debolezza, nonché eventuali risultati imprevisti, e misurarne l’impatto sulla continuità operativa. Ciò può migliorare significativamente le strategie di ripristino di emergenza e aumentare le prestazioni complessive. Le misure da adottare per colmare le lacune e risolvere i guasti devono essere descritte in dettagli e aggiunte alla versione avanti del piano di ripristino di emergenza.
Fattori da considerare prima di testare il piano di ripristino di emergenza
- Numero di persone nel team di ripristino di emergenza: Il team di ripristino di emergenza dovrebbe essere composto da almeno due persone, in modo da evitare il problema del “singolo punto di errore”. Con più membri nel team, se una persona non è raggiungibile durante un disastro, si può stare tranquilli che c’è un sostituto con le conoscenze obbligatorie e l’accesso al sito DR.
- Ora del giorno scelta per il test di ripristino di emergenza: Generalmente, il test di ripristino di emergenza viene eseguito al di fuori dell’orario di lavoro, poiché il processo richiede molto tempo e potrebbe interrompere le operazioni aziendali o influire sulle prestazioni complessive. Tuttavia, i risultati di questi test potrebbero non essere indicativi di come funzionerebbe il piano di ripristino di emergenza in condizioni di lavoro reali. Testare i componenti di un piano di ripristino di emergenza VM in modo isolato durante l’orario di lavoro potrebbe essere la soluzione ideale. Ciò contribuisce a ridurre il rischio di sovraccarico del sistema che i test completi comportano.
- Cambiamenti nel team o nell’infrastruttura IT: Prima di testare il piano di ripristino di emergenza, considerate i vari fattori che potrebbero renderlo incompleto e obsoleto. Come accennato in precedenza, questi fattori possono includere nuovi componenti dell’infrastruttura, cambiamenti nel personale e altro ancora. Tenete informato il team del ripristino di emergenza sui nuovi cambiamenti nell’ambiente e inviate brevi promemoria per comunicare al personale gli ultimi aggiornamenti.
Metodi di test per il ripristino di emergenza
In questa sezione trattiamo i quattro metodi di test per il ripristino di emergenza più comuni. Valutateli attentamente prima di decidere quale sia l’approccio più adatto alla vostra organizzazione o se sia possibile utilizzare una combinazione di questi approcci.
Test con checklist
Un test con checklist di un piano di ripristino di emergenza comporta la revisione dell’elenco dei requisiti e delle condizioni che devono essere soddisfatti. Questa revisione è un ottimo punto di partenza in quanto è l’opzione più semplice e comporta l’analisi del piano attuale e l’esame di ogni punto al fine di individuare le parti obsolete o mancanti. Ciò significa verificare, ad esempio, che il sito di backup sia di dimensioni sufficienti, che il team di ripristino sia informato degli ultimi aggiornamenti, che la soluzione di protezione dei dati sia in funzione, ecc.
Utilizzando questo metodo di test DR, il team di ripristino può esaminare rapidamente il piano DR, assicurarsi che ogni componente sia al suo posto e identificare eventuali componenti mancanti nella strategia DR. Questa procedura può essere eseguita in tempi minimi e senza un coinvolgimento massiccio del personale.
Test di DR guidato
Lo scopo di questa strategia è quello di esaminare verbalmente ogni fase di un piano di ripristino di emergenza delle VM e identificare eventuali problemi e carenze. In questo caso, tutti i membri del team di ripristino partecipano alla revisione e alla discussione del piano di ripristino di emergenza, formulando raccomandazioni.
È essenziale garantire che tutti abbiano una solida comprensione del piano e siano consapevoli delle proprie responsabilità durante un evento di DR. Questo metodo prevede solo una discussione verbale del processo di DR. Gli aspetti tecnologici del piano di DR non vengono effettivamente testati o approvati nel walkthrough testing.
Tabletop/simulation DR testing
Per un test tabletop, l’organizzazione esamina uno scenario di disastro simulato per identificare se un piano di DR è adeguato e se gli obiettivi definiti possono essere raggiunti. Questo metodo di test DR può essere considerato un’estensione del walkthrough test. A tutti i membri del team vengono presentati vari scenari di catastrofe, che vengono esaminati discutendo come agirebbero in tali circostanze. Ciò consente di testare la preparazione del personale in un contesto più realistico e di verificare se il piano di ripristino di emergenza è in grado di affrontare problemi imprevisti.
- Simulazione teorica. Il team DR conduce una simulazione passo dopo passo del piano, come se si fosse verificato un vero disastro. Questo metodo di test per il ripristino di emergenza aiuta a identificare potenziali punti ciechi e problemi nascosti.
- Simulazione di scenario. Questo metodo prevede l’esecuzione del piano di ripristino di emergenza in un ambiente di test senza interrompere il flusso di lavoro di produzione. La simulazione viene eseguita in base a scenari di ripristino specifici.
- Simulazione completa di ripristino di emergenza. Questo metodo di test DR è simile alla simulazione descritta sopra, ma questa volta lo scenario include il guasto totale delle operazioni nel sito principale. Il metodo prevede il tentativo di un ripristino completo in una ubicazione offsite.
Test parallelo
Il test parallelo consente di verificare la funzionalità dei sistemi di ripristino per determinare se sono in grado di eseguire le operazioni aziendali e garantire i processi critici. I sistemi primari non sono inclusi nel processo di test del ripristino di emergenza, poiché si prevede che supportino l’intero carico di lavoro di produzione. Si tratta di un modo sicuro e che non causa interruzioni per testare i sistemi tecnici.
Test con interruzione completa
Un test di DR con interruzione completa fornisce una verifica approfondita del piano di DR delle VM. In questo caso, il sito di DR assume l’intero carico di lavoro di produzione e il sito primario viene chiuso. L’obiettivo è quello di ripristinare il più rapidamente possibile utilizzando il piano aziendale di ripristino di emergenza. L’esecuzione di un test di interruzione completa deve essere ben ponderata, poiché può interrompere le normali operazioni ed è piuttosto costosa.
Ogni processo di ripristino deve essere documentato. Identificate tutti i problemi e le preoccupazioni durante l’esecuzione del test di ripristino di emergenza, in modo da poterli affrontare in seguito. Le azioni del team di ripristino devono essere osservate attentamente per individuare eventuali lacune nel piano di ripristino di emergenza della VM. Il test di interruzione completa è anche un metodo di test di ripristino di emergenza appropriato per verificare se gli obiettivi di ripristino di emergenza sono accettabili e raggiungibili.
Si potrebbe prendere in considerazione l’idea di eseguire il test di interruzione completa senza avvisare in anticipo il personale. Ciò consente di valutare con maggiore precisione il grado di preparazione del team in caso di disastro.
Suggerimenti utili per i test di ripristino di emergenza
Il test di un piano di ripristino di emergenza è un’attività importante che a volte può sembrare opprimente. I seguenti consigli per i test di DR possono aiutarti a risparmiare tempo e ridurre lo stress:
- Dopo aver installato qualsiasi nuovo prodotto hardware o software, testalo immediatamente per verificarne la funzionalità e l’integrità. Questo vi aiuterà anche a individuare l’RTO del prodotto e a capire come potrebbe funzionare durante le procedure di DR.
- Eseguite un’analisi dei rischi (RA) e un’analisi dell’impatto sul business (BIA) prima di progettare il vostro piano di DR. Rivedi costantemente i risultati di queste analisi e, se vengono apportate modifiche, valuta come dovrebbero riflettersi nella tua strategia di DR.
- I test devono essere eseguiti in circostanze il più possibile simili a uno scenario di DR. Simulando uno scenario di disastro reale, è possibile verificare le prestazioni dei dipendenti nel svolgere i propri compiti in circostanze di DR. Ciò contribuisce anche a ridurre lo stress tra il personale, poiché i dipendenti si abituano maggiormente ai vari scenari di DR e imparano cosa ci si aspetta da loro.
- Invitare osservatori indipendenti a esaminare il piano di DR e effettuare il monitoraggio del processo di test. Questo approccio garantisce che i dipendenti non prendano scorciatoie per completare rapidamente i test. Inoltre, gli osservatori indipendenti possono aiutare a riscrivere e migliorare il piano di DR, spesso individuando problemi che non sono visibili a chi lavora all’interno dell’organizzazione.
- Preparate un elenco completo di tutte le applicazioni presenti nella vostra infrastruttura. Questo elenco dovrebbe includere i dettagli di ciascuna applicazione, le loro configurazioni, i dettagli di contatto dei proprietari delle applicazioni e i dettagli del contratto/licenza.
- Nelle fasi iniziali, i test di DR dovrebbero essere condotti in parti e dopo l’orario di lavoro, in modo da non sovraccaricare il sistema. Dopo aver individuato eventuali carenze e migliorato il piano di conseguenza, è possibile prendere in considerazione l’esecuzione di ulteriori test completi durante l’orario di lavoro.
Ripristino di emergenza con NAKIVO Backup & Replication
NAKIVO Backup & Replication è una soluzione affidabile per il backup e il Ripristino di emergenza. La soluzione consente di automatizzare i processi di backup, replica e ripristino di emergenza, garantendo al contempo l’integrità dei dati su varie piattaforme (fisiche, virtuali o cloud). La soluzione NAKIVO include funzionalità di replica VM, failover VM, failback e Site Recovery per il ripristino di emergenza. Inoltre, è possibile testare una sequenza di ripristino di emergenza per assicurarsi che tutto sia configurato correttamente.
Esecuzione di lavori di ripristino dell’ambiente in modalità di test
NAKIVO Backup & Replication consente di eseguire lavori di ripristino dell’ambiente in modalità di test per verificare se tutti i componenti del sistema possono essere facilmente ripristinati durante un evento di ripristino di emergenza e se gli obiettivi di ripristino stabiliti possono essere raggiunti. Questo test non interrompe i carichi di lavoro di produzione. Un lavoro di ripristino dell’ambiente in modalità di test può essere pianificato ed eseguito on demand.
La seguente procedura guidata spiega come eseguire manualmente un lavoro di ripristino dell’ambiente in modalità di test. Si noti che è necessario prima configurare un lavoro di ripristino dell’ambiente.
- Nella Lavori dashboard, selezionare un lavoro di ripristino dell’ambiente e quindi fare clic sul pulsante Esegui lavoro . Il menu a discesa offre due opzioni. Fare clic su Testare il lavoro di ripristino dell’ambiente .
- Nella finestra di dialogo che si apre, è possibile configurare le metriche RTO. Definire il tempo massimo consentito per il completamento del lavoro di ripristino dell’ambiente. Se l’esecuzione del test supera il valore RTO immesso, il test viene considerato non superato. È anche possibile disabilitare questa opzione.
- Infine, fare clic su Test per eseguire il lavoro.
Opzioni per la pianificazione dei test
È inoltre possibile configurare le opzioni di pianificazione dei test durante la configurazione di un lavoro di ripristino dell’ambiente. Queste opzioni funzionano quando si esegue questo lavoro in modalità di test.
Rapporto e-mail
Con questa opzione abilitata, i destinatari selezionati ricevono un rapporto di test ogni volta che il lavoro viene completato. È necessario configurare le impostazioni di notifiche per e-mail nella scheda 5. Opzioni prima di fare clic su Fine.
È anche possibile scaricare un report come file PDF o CSV direttamente da un browser web. Basta fare clic con il pulsante destro del mouse su un lavoro di ripristino dell’ambiente e selezionare Report sul lavoro di ripristino dell’ambiente.



