RTO vs RPO: comprendere le differenze fondamentali per il DR
& & Le organizzazioni fanno sempre più affidamento sui backup per proteggere i propri dati e garantire la continuità operativa in caso di disastri. Tuttavia, si stima che oltre il 72% delle aziende non sia in grado di soddisfare le proprie aspettative di ripristino IT relative agli obiettivi di punto di ripristino (RPO) e agli obiettivi di tempo di ripristino (RTO).
Per aiutarti a creare un piano di ripristino efficiente, è essenziale sviluppare una comprensione completa di RTO e RPO e imparare a conoscerne le differenze. Questo post spiega tutto ciò che devi sapere su questi due parametri per una strategia di ripristino di emergenza affidabile. Continua a leggere per rilevare come ottenere RPO e RTO più rigorosi per ridurre al minimo la perdita di dati e riprendere le normali operazioni aziendali il più rapidamente possibile dopo un disastro.
Che cos’è l’Obiettivo di tempo di ripristino (RTO)?
L’obiettivo di tempo di ripristino (RTO) si riferisce al tempo massimo di inattività che un’organizzazione può tollerare a seguito di un evento dirompente. In altre parole, l’RTO è il tempo che intercorre tra il verificarsi di un disastro e il ripristino dei carichi di lavoro critici interessati.
Il calcolo dell’RTO dipende generalmente dal piano di ripristino di emergenza , dalle risorse disponibili e dal budget. Quando l’infrastruttura IT non è disponibile, è necessario del tempo per identificare i motivi del guasto e adottare le azioni necessarie per risolvere il problema. Tuttavia, è necessario predisporre misure di ripristino di emergenza per garantire che i sistemi e i carichi di lavoro critici siano accessibili e disponibili mentre si risolve il problema di produzione. L’RTO è il tempo che intercorre tra il guasto e la disponibilità dei sistemi tramite backup o replica dei carichi di lavoro.
Che cos’è l’RPO?
L’obiettivo di punto di ripristino (RPO) rappresenta la quantità massima di dati che un’organizzazione può sopportare di perdere in caso di disastro senza conseguenze critiche. Questa metrica è misurata in ore/minuti dall’ultimo processo di backup/replica. Utilizzala per determinare la frequenza con cui è necessario creare backup e repliche dei dati per ridurre la perdita di dati a seguito di un evento dirompente.
In una situazione ideale, un processo di backup o replica viene completato appena prima che la macchina originale si guasti. Tuttavia, questo è raro nella vita reale, quindi c’è un intervallo tra il momento in cui è stato creato l’ultimo backup riuscito e il momento in cui la macchina originale si guasta. Durante questo periodo, la VM stava eseguendo operazioni e memorizzando dati, e molto probabilmente questi dati andranno persi.
Cosa sono RTO e RPO nel Ripristino di emergenza
L’obiettivo finale della protezione dei dati è chiaro: volete essere sicuri che i dati critici non vadano persi se qualcosa va storto e che possiate soddisfare gli SLA della vostra organizzazione in termini di uptime e disponibilità. Tuttavia, è piuttosto costoso replicare in tempo reale tutte le modifiche apportate all’ambiente virtuale in un sito di ripristino di emergenza (DR). Per questo motivo è necessario accettare l’idea che in caso di interruzione si perderanno alcuni dati e i servizi IT subiranno un’interruzione. Il vostro compito è quindi quello di ridurre al minimo tali perdite e interruzioni.
Illustriamo i concetti di RPO e RTO in un semplice diagramma:
Il diagramma mostra uno scenario comune: una VM si blocca per qualche motivo. La linea gialla rappresenta l’RPO, ovvero il tempo trascorso tra l’ultimo backup e l’interruzione. La linea arancione è l’RTO e riflette il tempo necessario per ripristinare la VM.
Differenze tra RTO e RPO
Per capire come determinare l’RTO e l’RPO, è necessario esaminare le loro differenze e il loro ruolo nel processo di DR.
Valutazione
- RTO si riferisce principalmente al periodo di tempo entro il quale si prevede che le operazioni aziendali riprendano durante un disastro. I punti da considerare sono:
- Valutate le esigenze e le priorità della vostra organizzazione, poiché sono specifiche per ciascuna organizzazione.
- Considerate quali applicazioni sono più critiche per i servizi e le applicazioni fondamentali per la sopravvivenza dell’organizzazione, nonché quali potrebbero essere le ripercussioni in caso di guasto di tali applicazioni.
- Determinate l’ordine in cui ciascun sistema/applicazione deve essere ripristinato al fine di garantire un ripristino di emergenza efficace con perdite minime dovute al tempo di inattività.
- RPO si concentra maggiormente sulla quantità di dati che possono essere persi durante il tempo di inattività senza causare gravi danni ai profitti di un’organizzazione. I punti da considerare sono:
- Identificare la frequenza di backup/replica e la quantità di dati che potrebbero andare persi tra l’ultimo backup della VM e un disastro effettivo.
- Considerare la quantità di dati che la vostra organizzazione può permettersi di perdere per ogni tipo di carico di lavoro.
Costi
La differenza principale tra RTO e RPO è che il primo tiene conto di tutti gli aspetti della struttura aziendale e del processo di DR nel suo complesso, mentre il secondo considera solo la criticità dei dati e delle applicazioni per la continuità operativa. Pertanto, soddisfare i valori RTO potrebbe essere un compito impegnativo e costoso per garantire un ripristino rapido. Allo stesso modo, avere RPO più piccoli significa che è necessario eseguire più backup e creare punti di ripristino aggiuntivi che possono aumentare i costi di storage.
Automazione
- Come RPO è incentrato sui dati e sulla resilienza del sistema alle perdite, si consiglia di eseguire backup frequenti dei dati. Molte soluzioni di backup moderne consentono di eseguire backup automatici VM, il che significa che le strategie di backup possono essere personalizzate in modo da soddisfare in modo efficiente gli obiettivi RPO, con un input minimo da parte vostra.
- Il raggiungimento di RTO è un processo più complesso da gestire, poiché tiene conto di tutti i processi aziendali e dei componenti di sistema che devono essere ripristinati durante un evento di DR. Detto questo, si consiglia di automatizzare e effettuare l’orchestrazione dell’intero processo di DR da inizio a termine per garantire il raggiungimento degli obiettivi RTO.
Facilità di calcolo
- Il RPO è facile da calcolare, poiché copre solo un aspetto del processo di ripristino: i dati.
- RTO considera tutti gli aspetti della vostra organizzazione, compresa l’importanza dei vostri dati e servizi, il costo dei tempi di inattività, gli investimenti nelle attività di DR, ecc. Nel calcolare l’RTO, è necessario tenere conto dei diversi tipi di carichi di lavoro e applicazioni, poiché possono avere processi di ripristino diversi. È consigliabile calcolare l’RTO sulla base di un piano di continuità operativa, che delinea i possibili rischi e minacce aziendali e descrive le misure da adottare per riprendere le operazioni aziendali.
Per definire l’ RTO applicabile ai diversi carichi di lavoro della vostra organizzazione, rispondete alla seguente domanda:
Per quanto tempo una specifica applicazione/sistema/macchina può rimanere inattiva senza avere un impatto significativo sulle operazioni principali della vostra organizzazione?
Dopo aver risposto a questa domanda per diverse macchine, valutate se i risultati attesi possono soddisfare le vostre attuali esigenze aziendali. In caso contrario, pensa a come potresti migliorare il tuo backup e le strategie di DR al fine di mantenere i dati di backup il più aggiornati possibile.
Come ottenere RPO e RTO più rigorosi con NAKIVO
NAKIVO Backup & Replication ti consentono di creare backup di VM e macchine fisiche con maggiore frequenza, migliorando l’RPO. È sufficiente pianificare backup regolari con un intervallo non superiore al proprio obiettivo.
La soluzione aiuta anche a ridurre l’RTO con il ripristino istantaneo delle VM e la funzionalità di replica per VMware vSphere, Microsoft Hyper-V e Amazon EC2. Integrate i vostri servizi di monitoraggio della rete e avviate un processo di ripristino immediatamente dopo che una VM diventa non disponibile. È inoltre possibile creare repliche offsite (copie esatte) delle VM critiche. Se la VM originale non funziona, le repliche vengono avviate automaticamente. Se la manutenzione delle repliche richiede più risorse di quelle che potete permettervi, potete scegliere la funzione di avvio istantaneo della VM da un backup.
Per ottenere RTO più rigorosi, NAKIVO Backup & Replication ha introdotto la funzionalità di orchestrazione Ripristino dell’ambiente. Automatizza completamente il failover e il failback delle VM per diversi scenari di DR ed esegui test che non causano interruzioni per garantire il ripristino entro i tempi previsti.
