Basculement et restauration automatique : principales différences en matière de reprise après sinistre

& Dans le monde moderne, toute entreprise peut être confrontée à tout moment à la corruption de données et à la perturbation d’opérations critiques. Cependant, même une brève interruption des services peut nuire à la confiance des clients et entraîner à terme des pertes importantes. Les entreprises, en particulier celles qui exploitent leurs services sur des VMs, doivent créer un plan de reprise après sinistre (DR) pour les VMs afin de garantir une haute disponibilité et la continuité des activités. Cet article de blog décrit le rôle du basculement et de la restauration automatique dans le processus de reprise après sinistre et explique comment vous pouvez utiliser ces stratégies pour protéger votre entreprise.

Ensure Availability with NAKIVO

Ensure Availability with NAKIVO

Meet strict requirements for service availability in virtual infrastructures. Achieve uptime objectives with robust DR orchestration and automation features.

Qu’est-ce que la reprise après sinistre des machines virtuelles ?

La reprise après sinistre des machines virtuelles est le processus qui consiste à restaurer l’infrastructure de votre entreprise à son état normal après un sinistre. Une catastrophe peut désigner tout événement mettant en péril les opérations d’une organisation, qu’il s’agisse d’un risque naturel ou d’origine humaine. Essentiellement, la reprise après sinistre des machines virtuelles vise à restaurer l’environnement virtualisé d’une organisation. L’objectif ultime de tout processus de reprise après sinistre est de reprendre presque instantanément les opérations commerciales et de garantir la sécurité des données les plus critiques afin d’assurer la continuité des activités.

Les mesures de reprise après sinistre se divisent en trois types. Les mesures préventives visent à empêcher qu’un événement ne se produise. Les mesures correctives visent à réparer un système en cas de sinistre. Les mesures de détection sont utilisées pour identifier les risques potentiels et les atténuer.

Différence entre le basculement et la restauration automatique

Les scénarios de catastrophe surviennent presque toujours de manière inattendue. En cas de reprise après sinistre, il est essentiel de restaurer l’infrastructure virtualisée de votre entreprise dès que possible, avant que des dommages importants ne soient causés. Basculement et restauration automatique peuvent vous aider à garantir le bon fonctionnement de votre entreprise, même si le site de production est touché par une catastrophe.

Qu’est-ce que le basculement ?

Le basculement est le processus qui consiste à transférer les charges de travail critiques du centre de production principal et à réaliser la récupération du système sur un emplacement distant. L’objectif principal du basculement est d’atténuer l’impact négatif d’une catastrophe ou d’une interruption de service sur les services commerciaux et les clients. En cas de panne logicielle ou matérielle, vous pouvez rapidement réaliser la récupération d’une machine virtuelle affectée en basculant vers sa réplica.

Basculement à l’aide de réplicas de machines virtuelles

Pendant le basculement, une réplique de machine virtuelle sur un site distant est mise sous tension pour remplacer la machine virtuelle d’origine sur le site de production. Vous pouvez basculer vers le dernier point de récupération, qui représente essentiellement une machine virtuelle à un moment donné. L’exécution de tâches de réplication aussi fréquemment que possible vous permet de créer plusieurs points de récupération, ce qui garantit une perte minimale de données en cas de sinistre. Le basculement vers une réplique est une solution rentable qui convient à la reprise après sinistre en cas de panne matérielle ou logicielle.

Clustering de basculement

Un cluster de basculement représente un groupe d’ordinateurs indépendants qui fonctionnent ensemble pour garantir la haute disponibilité des applications et des services. Un cluster de basculement se compose d’au moins deux serveurs (ou nœuds) interconnectés, sur lesquels s’exécutent des VMs, et d’un stockage partagé, où sont conservés les fichiers des VMs. Si l’un des serveurs tombe en panne, ces VMs sont restaurées sur un autre serveur. Un cluster de basculement protège les VMs uniquement contre les pannes matérielles. Le clustering de basculement est plus coûteux que le basculement vers des réplicas. Cependant, il offre un temps d’arrêt quasi nul, car les VMs sont automatiquement mises sous tension sur le site secondaire en cas de sinistre.

Qu’est-ce que la restauration automatique ?

Une fois que vous avez réalisé la récupération de votre site principal après un sinistre et résolu tous les problèmes associés, vous pouvez transférer les opérations commerciales vers la VM source.

La restauration automatique permet de récupérer la machine virtuelle d’origine sur l’hôte source (ou à un nouvel emplacement de votre choix) et de renvoyer les Workloads de la réplique de la machine virtuelle vers la machine virtuelle d’origine. Cependant, certaines modifications peuvent avoir été apportées à la réplique de la machine virtuelle depuis le basculement. La machine virtuelle d’origine et la réplique de la machine virtuelle doivent donc être synchronisées avant d’effectuer la restauration automatique afin qu’aucune information critique ne soit perdue. Lors de la restauration automatique, seules les données modifiées sont renvoyées vers le système d’origine.

Le processus de basculement et de restauration automatique dans le cadre de la reprise après sinistre

Lors d’un événement de reprise après sinistre, les opérations de basculement et de restauration automatique sont lancées. Le processus se déroule comme suit :

  1. La machine virtuelle source du site de production est répliquée sur le site de reprise après sinistre. Les données sur les disques virtuels de la réplique de la VM sont identiques aux données sur le disque virtuel de la VM source au moment de la réplication. En cas de sinistre (ou si un sinistre est anticipé), le basculement vers la réplique de la VM est lancé.
  2. Pendant le basculement, les Workloads du système sont transférés vers le site de reprise après sinistre. Cependant, certains changements peuvent survenir dans la réplique de la VM à mesure que les opérations se poursuivent. Il est important de sauvegarder ces données, car le système d’origine est hors ligne et n’enregistre aucune des modifications apportées. Ainsi, toutes les modifications sont écrites uniquement sur le disque virtuel de la réplique de la VM.
  3. Une fois que les conséquences négatives d’une catastrophe ont été corrigées (ou que la menace potentielle est passée), le site principal peut fonctionner comme d’habitude. Ainsi, l’opération de restauration automatique est exécutée ; toutes les charges de travail sont renvoyées du site de reprise après sinistre vers le site de production et les données mises à jour sont reçues par la VM source. La VM d’origine et la réplique de la VM sont alors synchronisées.

Bonnes pratiques pour le basculement et la restauration automatique dans la reprise après sinistre des machines virtuelles

  • Assurez la conformité aux réglementations. Certaines organisations traitent des données très sensibles et confidentielles et sont donc tenues de se conformer à des réglementations telles que HIPAA ou PCI DSS. Si tel est votre cas, vous devez vérifier si vos stratégies de reprise après basculement et de restauration automatique répondent aux normes de sécurité applicables.
  • Vérifiez les licences. Consultez la documentation de vos logiciels et déterminez s’il existe des restrictions de licence dans vos piles d’applications. Si tel est le cas, vous devez régler tout problème à l’avance et vous assurer que toutes les conditions à remplir sont satisfaites.
  • Définissez la portée de votre plan de reprise après sinistre. La portée d’un plan de reprise après sinistre pour les machines virtuelles détermine les systèmes à protéger et identifie les résultats attendus ainsi que les éventuelles restrictions. Assurez-vous que votre environnement virtuel dispose d’une capacité technique suffisante pour couvrir tous les aspects de votre plan.
  • Choisissez une solution de protection des données fiable. L’installation d’une solution de protection des données sous licence appropriée dans votre environnement virtuel est essentielle pour garantir des performances efficaces et une intégration transparente. À des fins de planification de la reprise après sinistre, vous devez déterminer le temps nécessaire au produit pour réaliser la récupération de votre infrastructure virtuelle et effectuer la restauration automatique de toutes les opérations sur le site de production.
  • Décidez qui est responsable du basculement et de la restauration automatique. La gestion doit désigner les membres d’une équipe de récupération et attribuer des responsabilités spécifiques à chaque membre de l’équipe. Déterminez qui est responsable de la surveillance des opérations de basculement et de restauration automatique afin d’éviter toute confusion dans un scénario de récupération réel lorsque cela compte.
  • Formez le personnel informatique aux opérations de basculement et de restauration automatique. Dans la continuité du point précédent, assurez-vous que votre personnel informatique dispose des connaissances et des qualifications nécessaires pour effectuer les opérations de basculement et de restauration automatique. Les employés responsables doivent être parfaitement préparés au cas où quelque chose ne se passerait pas comme prévu ; ils doivent avoir une solide compréhension des opérations afin de pouvoir s’adapter en conséquence et faire face à tout problème qui pourrait survenir.
  • Vérifiez les accords de niveau de service (SLA). Un accord de niveau de service est un contrat entre un fournisseur de services et ses clients qui définit les conditions à remplir et les normes de service que le fournisseur doit respecter. Assurez-vous donc que vos SLA sont à jour et que leur applicabilité s’étend à l’environnement de reprise après sinistre.
  • Définir RTO et RPO. A Objectifs de temps de récupération (<) > (RTO) est la période pendant laquelle les opérations commerciales doivent être rétablies après une catastrophe afin d’éviter des dommages importants et des pertes critiques. L’objectif de point de récupération (RPO) désigne la quantité de données (mesurée en temps) qui peut être perdue sans causer de préjudice inacceptable à votre entreprise. Un RPO correspond essentiellement au point le plus éloigné dans le temps auquel vos VMs pourraient être restaurées en cas de sinistre. Vos RTO et RPO doivent être établis principalement en fonction des priorités de votre organisation en cas de sinistre. Bien que l’augmentation de la fréquence des tâches de sauvegarde et de réplication puisse être une tâche longue et gourmande en ressources, elle améliore considérablement vos RPO. Des RTO plus courts doivent être attribués aux composants les plus prioritaires, qui doivent faire l’objet d’une récupération en premier. Notez que les RTO et les RPO doivent être définis séparément pour les applications et les VMs.
  • Envisagez la possibilité de transformer votre site de reprise après sinistre en site permanent. Votre entreprise pourrait être touchée par une catastrophe majeure qui rendrait impossible la restauration de votre centre de données principal. Envisagez donc la possibilité de transformer votre site de reprise après sinistre en site permanent, afin d’être prêt à faire face à un événement de cette ampleur. Il s’agit évidemment d’une solution coûteuse qui consomme d’importantes ressources et implique des coûts élevés en matière d’équipement, de logiciels et d’installations. Il peut être utile d’examiner les mesures à prendre, même si vous ne mettez pas immédiatement ce plan à exécution.
  • Testez les opérations de basculement. En testant votre procédure de basculement, vous pouvez vérifier si votre infrastructure virtuelle peut être correctement réalisée lors de la récupération sur votre site de reprise après sinistre et si vos applications préinstallées peuvent fonctionner correctement même lorsque votre site de production est hors service.
  • Testez les opérations de restauration automatique. De cette manière, vous pouvez vous assurer que les opérations de votre entreprise peuvent être rétablies avec succès from le site de reprise après sinistre vers le site d’origine.
  • Testez votre plan de reprise après sinistre dans son intégralité. Il est également utile de tester l’ensemble du plan de reprise après sinistre, car cela permet d’identifier les faiblesses du plan en simulant un événement de reprise après sinistre. Vous pouvez ainsi améliorer et adapter les stratégies de reprise après sinistre mises en œuvre par votre organisation. Un plan de reprise après sinistre défaillant et obsolète peut considérablement perturber la continuité des activités de votre organisation.

Basculement et restauration automatique dans NAKIVO Backup & Replication

NAKIVO Backup & Replication offre une fonctionnalité exclusive Reprise après sinistre qui vous permet de créer des workflows (ou tâches) de récupération automatisés, quelle que soit leur complexité. Les workflows de reprise après sinistre (SR) impliquent des séquences d’actions personnalisées, telles que le basculement, la reprise, le démarrage/l’arrêt de machines virtuelles, l’exécution/l’arrêt de tâches, l’attachement/le détachement de référentiels, etc. Ces actions peuvent être organisées dans n’importe quel ordre pour une automatisation et une orchestration totales du processus de reprise après sinistre. De plus, vous pouvez facilement modifier, compléter ou tester vos tâches SR à tout moment sans perturber l’environnement de production. Ainsi, même le plan de reprise après sinistre le plus sophistiqué peut être élaboré, testé, puis mis en œuvre sans heurts à l’aide des workflows SR.

Basculement dans la reprise après sinistre

L’action de basculement fait partie intégrante de la plupart des workflows SR. La reprise du site impliquant un basculement ne peut être exécutée que si vous avez préalablement créé des réplicas des VMs sources que vous souhaitez protéger ; celles-ci sont utilisées comme cibles pour le basculement en cas de sinistre. La charge de travail est transférée de la machine virtuelle source du site de production affecté vers une réplique de machine virtuelle sur le site de reprise après sinistre.

NAKIVO Backup & Replication propose trois types de basculement :

  • Le basculement planifié est utilisé pour la protection préventive de vos systèmes en cas de menace potentielle ou si une catastrophe est prévue. Si vous avez été informé de risques météorologiques ou si une coupure de courant est planifiée dans la région, vous pouvez lancer un basculement planifié. Dans ce cas, la solution synchronise les données entre la machine virtuelle source et sa réplique avant de transférer la charge de travail vers la réplique, ce qui permet d’éviter toute perte de données.
  • Test de basculement vous aide à déterminer si vos stratégies de basculement sont fonctionnelles et si elles sont fiables en cas d’événement de reprise après sinistre. Le test de basculement s’effectue de la même manière que le basculement planifié, à l’exception que toutes les modifications apportées en mode test sont immédiatement annulées afin de ne causer aucune perturbation dans l’environnement principal. De plus, vous pouvez tester si votre flux de travail s’exécute suffisamment rapidement en cas de reprise après sinistre. NAKIVO Backup & Replication & Replication vous permet de définir un RTO pour votre tâche de reprise après sinistre. Si la tâche prend plus de temps que le délai défini pour s’exécuter, le test est considéré comme échoué. Un rapport de test/exécution est envoyé par e-mail, que vous pouvez examiner pour identifier les lacunes de votre plan de reprise après sinistre et les résoudre.
  • Le basculement d’urgence est exécuté immédiatement après qu’un sinistre a frappé votre site de production et que la machine virtuelle source n’est plus accessible. Avec NAKIVO Backup & Replication & , vous pouvez déplacer la charge de travail du site principal vers le site de reprise après sinistre en un seul clic. Ainsi, le temps d’indisponibilité est réduit au minimum, même si certaines données peuvent être perdues.

Re-protection des VMs sur le site de reprise après sinistre

Une fois le basculement effectué, vous devez vous assurer que les réplicas de VMs exécutées sur votre site de reprise après sinistre sont protégées. Les répliques de machines virtuelles peuvent également être endommagées, et s’il n’y avait pas d’autres copies, il serait impossible de les récupérer immédiatement.

Cependant, NAKIVO Backup & Replication garantit que votre infrastructure virtuelle est à nouveau protégée après un événement de reprise après sinistre. Il suffit de répliquer les machines virtuelles exécutées sur votre site de reprise après sinistre vers un autre emplacement. Ainsi, vous pouvez facilement basculer vers votre nouvelle réplique de machine virtuelle si un événement imprévu se produit. Vous pouvez configurer vos workflows SR pour lancer automatiquement la réplication des VMs fonctionnant sur le site de reprise après sinistre dès que le basculement est terminé, garantissant ainsi un niveau de protection élevé.

Restauration automatique après sinistre dans la reprise après sinistre

La restauration automatique après sinistre ne peut être effectuée qu’après le basculement dans un workflow SR. Après un certain temps, lorsque votre site principal est de nouveau opérationnel, vous pouvez reprendre l’exécution des opérations sur la machine virtuelle source d’origine. À cette fin, vous pouvez effectuer une reprise sur cette machine virtuelle à partir d’une réplica de machine virtuelle qui a remplacé la machine virtuelle d’origine. Si les charges de travail de la machine virtuelle ne peuvent pas être transférées vers le site de production principal (par exemple, parce qu’elles ne peuvent pas être restaurées), elles peuvent être transférées vers tout autre nouvel emplacement de votre choix pour une solution à plus long terme que le site de reprise après sinistre.

La restauration automatique peut être exécutée en mode production ou en mode test.

  • La restauration automatique en mode test vise à déterminer si la tâche SR peut s’exécuter correctement, sans aucun problème pendant le processus de restauration automatique réel. Dans ce cas, la réplication incrémentielle ou complète de la réplique de la VM vers la VM source n’est effectuée qu’une seule fois, ce qui est suffisant à des fins de test. Assurez-vous que l’adresse IP et les paramètres réseau sont corrects. La VM source et la réplique de VM sont synchronisées afin d’éviter toute perte de données, puis la VM source est mise sous tension. Notez que toutes les modifications apportées à vos VMs pendant le processus de restauration automatique sont ignorées après le test et que votre environnement virtuel revient à son état antérieur à la restauration automatique. En mode test, une tâche de reprise après sinistre peut être exécutée sur demande ou selon un programme.
  • La restauration automatique en mode production est effectuée lorsque vous souhaitez récupérer votre environnement de production après un basculement DR. En mode production, une tâche de reprise après sinistre ne peut être exécutée qu’à la demande. La restauration automatique en mode production suit essentiellement les mêmes étapes que la restauration automatique en mode test. Cependant, la réplication de la réplique de la machine virtuelle vers la machine virtuelle source est effectuée deux fois afin de garantir qu’aucune donnée ne soit perdue au cours du processus. Une fois l’opération de réplication terminée, la machine virtuelle source d’origine (sur le site de production) est mise sous tension et la réplique de la machine virtuelle sur le site de reprise après sinistre est mise hors tension. (Notez que cette dernière étape, à savoir la mise hors tension des réplicas de VM de reprise après sinistre, ne se produit qu’en mode production.)

Conclusion

Comprendre la technologie qui sous-tend le basculement et la restauration automatique après sinistre et l’intégrer à votre plan de reprise après sinistre pour les machines virtuelles peut protéger votre environnement virtuel contre tout événement imprévu. Le basculement garantit la sécurité des données critiques et le transfert rapide de toutes les Workloads vers un site de reprise après sinistre. La restauration automatique vous permet de repasser du site de reprise après sinistre à votre site de production en quelques clics. Ensemble, ces opérations vous aident à minimiser les pertes de données et à réduire les temps d’arrêt.

Try NAKIVO Backup & Replication

Try NAKIVO Backup & Replication

Get a free trial to explore all the solution’s data protection capabilities. 15 days for free. Zero feature or capacity limitations. No credit card required.

Les gens qui ont consulté cet article ont également lu