Procedure consigliate per il ripristino di emergenza AWS
Qualsiasi attività che possa influire negativamente sulla continuità operativa di un’azienda in termini di carichi di lavoro on-premise o cloud può essere definita un disastro. È fondamentale che un’azienda investa tempo e risorse nell’identificazione di tutti i possibili rischi e nella definizione di piani per prevenirli o, almeno, agire di conseguenza per mitigarne l’impatto negativo.
La creazione di un piano di ripristino di emergenza completo per l’infrastruttura on-premise e cloud AWS è una questione di massima priorità. In questo post del blog trattiamo le procedure consigliate per la pianificazione del ripristino di emergenza AWS per entrambi i casi d’uso, con particolare attenzione ai carichi di lavoro AWS.
Vantaggi dell’utilizzo di AWS per il ripristino di emergenza
La piattaforma Amazon Web Services (AWS) offre un’ampia gamma di servizi, tra cui storage di database, potenza di calcolo, distribuzione di contenuti e altre funzioni distintive. AWS può anche essere utilizzato per ripristinare rapidamente le operazioni aziendali in esecuzione su VM e istanze di EC2 in caso di disastro. AWS consente di creare repliche e configurare il ripristino di emergenza sia per gli ambienti on-premise che per quelli cloud. La conservazione dei dati critici per l’azienda nel cloud AWS elimina anche la necessità di un sistema di storage fisico secondario, che generalmente comporta costi significativi.
Infatti, i dati di backup e replica possono essere archiviati in più regioni AWS in tutto il mondo, in modo sicuro e affidabile. Come parte della sua funzionalità di ripristino di emergenza, AWS consente di eseguire e testare una soluzione DR di terze parti per verificare eventuali carenze (eseguire test di ripristino di emergenza AWS). Quindi, è possibile utilizzare i modelli AWS CloudFormation per definire le pratiche di ripristino di emergenza più efficienti e salvarle in un Amazon Virtual Private Cloud per un ulteriore utilizzo.
Scenari di ripristino di emergenza AWS
Amazon offre quattro strategie di ripristino di emergenza AWS. La scelta dipende dalle esigenze e dal budget della vostra organizzazione. Sono possibili varie combinazioni per soddisfare le esigenze specifiche di qualsiasi infrastruttura virtuale.
- Backup e ripristino. I dati critici possono essere sottoposti a backup e inviati a un’ubicazione offsite, come Amazon S3 storage, dove sono ben protetti e possono essere ripristinati rapidamente in caso di necessità. L’interfaccia utente web di Amazon S3 lo rende accessibile da qualsiasi luogo. È possibile copiare i dati direttamente su Amazon S3 o creare backup e archiviarli nel cloud. Questo è uno degli scenari di ripristino di emergenza più diffusi in AWS.
- Pilot light. Questo scenario di ripristino di emergenza consente di disporre di una versione ridotta di un ambiente virtuale nel cloud, mantenendolo sempre attivo e aggiornato. È possibile ripristinare e avviare rapidamente i componenti più critici dell’infrastruttura basata su AWS. Vengono utilizzati servizi quali Amazon Machine Images (AMI) e Amazon EBS snapshot. Il metodo pilot light è più conveniente rispetto alla strategia di backup e ripristino AWS DR, poiché riduce significativamente il tempo impiegato per il ripristino.
- Warm standby. In questo scenario di ripristino di emergenza, una versione ridotta dell’infrastruttura di produzione è sempre in esecuzione nel cloud. Durante un evento di DR, può essere rapidamente scalata per ridurre al minimo i tempi di inattività e ripristinare le operazioni e i carichi di lavoro critici.
- Distribuzione multisito (“hot standby”). Questo metodo comporta la replica dei dati critici per l’azienda e dei componenti principali dell’infrastruttura e la loro distribuzione su diverse ubicazioni on-premise o cloud. Tutti questi siti sono attivi e condividono il traffico e i carichi di lavoro. Se un disastro colpisce una delle ubicazioni, si dispone comunque di un sistema intatto pronto a funzionare in modalità di produzione completa. Per eseguire questo processo viene utilizzato Amazon EC2 Auto Scaling. Con l’hot standby si ottengono un Obiettivo di tempo di ripristino (RTO) e un Obiettivo di punto di ripristino (RPO) minimi. Se decidete di utilizzare l’hot standby tra gli scenari di ripristino di emergenza di AWS, ricordate che l’esecuzione simultanea di più sistemi virtuali può essere piuttosto costosa.
Nel contesto del ripristino di emergenza vanno menzionate anche le seguenti funzioni:
- Replica. Per garantire un’elevata disponibilità, è possibile implementare la replica interregionale se le carghe di lavoro primarie si trovano nel cloud AWS. In questo caso, i dati critici e i componenti di sistema vengono replicati in qualsiasi altra regione AWS scelta dall’utente. Se vengono apportate modifiche al database primario, i dati possono essere aggiornati istantaneamente (replica sincrona) o con un leggero ritardo (replica asincrona). Questi due tipi di replica soddisfano esigenze aziendali diverse.
- Failback. Durante il processo di DR, il carico di lavoro dell’istanza interessata viene spostato al sito di destinazione e l’istanza replica viene accesa (failover). Una volta ripristinato il sito primario, è possibile ripristinare l’istanza originale. Per salvare tutte le modifiche ai dati eseguite nell’istanza DR dal failover, è necessario invertire il flusso di replica dei dati verso il sito primario (failback).
- Più regioni AWS. Ogni regione AWS è un’area separata e indipendente destinata all’archiviazione di istanze o dati. Per un ripristino di emergenza efficace, è possibile scegliere di archiviare i dati in due o più regioni AWS, in modo da mitigare l’impatto di disastri su scala estremamente ampia.
Procedure consigliate per il ripristino di emergenza AWS
Di seguito sono riportate le procedure consigliate per il ripristino di emergenza AWS, da tenere a mente quando si crea un piano di ripristino di emergenza AWS per il proprio ambiente.
- Test di ripristino di emergenza AWS. Dopo aver installato una soluzione di ripristino di emergenza, è necessario testarla. I test possono essere eseguiti on demand o pianificati. È possibile eseguire i “test di gioco”, ovvero un modo per testare le applicazioni e le istanze al fine di verificare se il piano di DR funziona come previsto e se è possibile rispettare gli RTO. A tal fine, è possibile utilizzare AWS CloudFormation per distribuire ambienti completi su Amazon EC2. È possibile creare un modello di risorse che consente di modellare e gestire i componenti dell’infrastruttura nel proprio ambiente cloud. I test periodici verificano che tutti i componenti DR siano correttamente pianificati e organizzati e che gli RTO e gli RPO possano essere rispettati quando necessario.
- Monitoraggio e avvisi. Per evitare che un eventuale disastro distrugga l’infrastruttura, è necessario identificare rapidamente i potenziali problemi. Puoi monitorare regolarmente il flusso di lavoro del tuo sistema e verificarne l’integrità. Ciò ti consente di rilevare rapidamente minacce emergenti come problemi di connettività, guasti del server o arresto delle applicazioni. Amazon CloudWatch valuta le prestazioni delle risorse AWS. È possibile impostare allarmi e notifiche per avvisare l’utente quando determinati parametri raggiungono un livello critico.
- Backup e replica regolari. Prima che si verifichi un disastro, è fondamentale preparare il sistema ed eseguire regolarmente operazioni di backup e replica. In questo modo, si avrà un buon obiettivo per il failover. Dopo il passaggio all’ambiente DR, è necessario continuare a eseguire regolarmente lavori di backup e replica. L’archiviazione di questi backup e repliche in ubicazioni remote separate consente di evitare il rischio di avere un singolo punto di errore. AWS può eseguire regolarmente test di ripristino di emergenza per verificare lo stato dell’infrastruttura DR.
- Utilizzo di strumenti e tecniche AWS. Per garantire l’adozione delle procedure consigliate per il ripristino di emergenza di AWS, è necessario adottare gruppi di ripristino o stack di applicazioni. In questo modo, è possibile organizzare correttamente il ripristino dell’infrastruttura: ad esempio, le applicazioni business-critical dovrebbero essere ripristinate per prime, poiché hanno la massima priorità.
Servizi di ripristino di emergenza AWS
A tal fine, AWS fornisce vari servizi:
- AWS Elastic Disaster Recovery è un servizio per la replica dei dati e il ripristino delle applicazioni on-premise e nel cloud. È possibile avviare il ripristino delle istanze AWS nel cloud per ripristinare le applicazioni su tali istanze.
- AWS Import/Export consente l’accesso a dispositivi di storage portatili per il trasferimento di dati e applicazioni business-critical da e verso AWS. Grazie alla rete interna ad alta velocità di Amazon, anche grandi quantità di dati possono essere inviate rapidamente e in modo sicuro alla destinazione desiderata.
- Amazon Elastic Cloud Compute (Amazon EC2) consente di utilizzare risorse di elaborazione e di creare un data center virtuale completo nel cloud AWS su richiesta. Le istanze di EC2 possono essere create in pochi minuti e mantengono il controllo completo per l’intero periodo di ripristino di emergenza.
- Amazon Simple Storage Service (Amazon S3) è progettato per archiviare e recuperare i dati con la massima priorità. Questo servizio conserva i componenti critici per l’azienda su più dispositivi distribuiti in diverse strutture, garantendo così il massimo livello di disponibilità. AWS assicura un’ulteriore protezione attraverso la gestione delle identità e degli accessi (IAM), le politiche dei bucket, l’autenticazione a più fattori (MFA) e il controllo delle versioni degli oggetti.
- Amazon Elastic Block Store (Amazon EBS) è uno storage a livello di blocco per i dati utilizzati con le istanze di Amazon EC2 nel cloud. I dati vengono archiviati sulla base di snapshot che vengono poi inviati ad Amazon S3, garantendo così un’archiviazione affidabile e a lungo termine dei dati.
- Amazon Relational Database Service (Amazon RDS) aiuta a configurare e gestire un database relazionale nel cloud AWS. Si tratta di una soluzione economica e flessibile per eseguire diverse attività di amministrazione del database.
- Amazon Connessione diretta consente di configurare una connessione dedicata tra una rete on-premise e il cloud AWS. Questo ti aiuta a proteggere e accelerare le connessioni di rete senza incorrere in costi elevati.
- Accesso sicuro. Quando si lavora con dati privati e/o critici per l’azienda, fornire un alto livello di sicurezza è fondamentale per le organizzazioni di qualsiasi dimensione. A tal fine, è possibile applicare AWS Identity and Access Management (IAM), che garantisce un accesso sicuro alle risorse nel proprio ambiente DR. Con IAM, è possibile creare criteri di sicurezza basati sui ruoli e sugli utenti che controllano l’accesso degli utenti ai dati critici.
- Automazione. L’automazione del ripristino di emergenza è un aspetto importante delle procedure consigliate AWS DR. Durante un evento di ripristino di emergenza, è essenziale avere il pieno controllo sui server basati su AWS e sui server on-premise. Tuttavia, spesso è fisicamente impossibile supervisionare manualmente il ripristino di ogni singola applicazione e istanza. Per una gestione efficace, è obbligatorio l’utilizzo dell’orchestrazione e dell’automazione dei processi di ripristino di emergenza. A tal fine sono disponibili numerosi servizi di gestione Amazon:
- Una serie di funzioni incluse in AWS CloudFormation consente di fornire servizi di infrastruttura in modo automatizzato.
- AWS OpsWorks aiuta ad automatizzare la configurazione, l’implementazione e la gestione dei server nelle istanze di Amazon EC2, nonché negli ambienti on-premise.
- Autoscaling può aumentare o diminuire le istanze per soddisfare le richieste in base ai parametri specificati in AWS CloudWatch. Ciò è estremamente utile durante un evento di ripristino di emergenza. La soluzione può offrire una scalabilità automatica per gestire l’aumento del carico di lavoro sui server e ridimensionarsi una volta che i processi dell’infrastruttura di produzione sono stati ripristinati al loro stato normale.
- Licenze. L’installazione di applicazioni con licenza corretta nel proprio ambiente AWS è fondamentale per garantire prestazioni efficienti. AWS offre vari tipi di licenze, come “Licenza inclusa” e “Porta la tua licenza”, per soddisfare le specifiche esigenze aziendali. Si noti che anche la soluzione di protezione dei dati deve essere dotata di licenza per integrazione perfetta con AWS.
Soluzione di ripristino di emergenza AWS di NAKIVO
Amazon EC2 è un cloud altamente affidabile e sicuro. Tuttavia, esistono numerose minacce che possono compromettere le prestazioni delle istanze di EC2 e compromettere la continuità operativa. Una soluzione integrata dedicata al backup e al ripristino di emergenza come NAKIVO Backup & Replication può garantire la massima affidabilità e il raggiungimento degli obiettivi di ripristino. & Replication La soluzione NAKIVO è in grado di proteggere il vostro ambiente cloud con il backup delle istanze di Amazon EC2 e la replica delle istanze di Amazon EC2, consentendovi di seguire le procedure consigliate per il ripristino di emergenza di AWS. Le funzionalità DR della soluzione includono failover automatizzato, failback, Site Recovery per l’orchestrazione di sequenze di ripristino di emergenza di qualsiasi complessità e test di ripristino di emergenza.
Il prodotto consente di creare e gestire repliche delle istanze di EC2 originali e di archiviarle in una destinazione a scelta. Le repliche delle istanze rimangono in uno stato di spegnimento nel sito DR e possono essere facilmente accese durante un evento DR quando è necessario un ripristino istantaneo. Pertanto, non vengono sostenuti costi aggiuntivi per mantenere costantemente in standby le repliche delle istanze.