Bonnes pratiques VMware en matière de reprise après sinistre
La reprise après sinistre est un processus qui comprend un ensemble de mesures visant à réaliser la récupération des composants d’une infrastructure après une panne. En outre, la reprise après sinistre vise à minimiser les effets négatifs pouvant être causés par une catastrophe et à assurer la continuité des activités. Afin de se préparer à différents types de catastrophes, les entreprises élaborent généralement un plan de reprise après sinistre qui doit faire partie intégrante d’un plan de continuité des activités.Les machines virtuelles sont les composants qui sont exposés à des risques en cas de catastrophe ; c’est la raison pour laquelle vous devez vous préparer à une catastrophe en élaborant un plan de reprise après sinistre. Cet article de blog explore les bonnes pratiques en matière de reprise après sinistre (DR) dans un environnement virtuel VMware.
Élaborer un plan de reprise après sinistre
Un plan de reprise après sinistre est un document structuré qui décrit un processus de reprise après sinistre sous la forme d’un ensemble d’actions à effectuer par les personnes appropriées dans une situation catastrophique. En outre, le document détermine les critères nécessaires au lancement du plan. Les catastrophes peuvent être causées par des facteurs naturels ou humains. Un plan de reprise après sinistre doit inclure différents scénarios de reprise pour différents types de catastrophes et d’incidents imprévus. Par exemple, un plan de reprise après sinistre peut décrire les mesures à prendre en cas d’attaque par ransomware, de panne de courant, de défaillance matérielle, de tremblement de terre, de typhon, etc. Un plan de reprise après sinistre peut être divisé en plusieurs sections : par exemple, la première section pourrait expliquer la récupération du réseau, la deuxième pourrait se concentrer sur la récupération du centre de données, tandis que la troisième expliquerait la récupération des machines virtuelles, etc.
Préparez votre site de reprise
Un site de reprise après sinistre est un lieu qui peut être utilisé par une entreprise pour rétablir son infrastructure et ses Workloads lorsque le site principal utilisé à des fins de production ne fonctionne plus. Les sites de reprise après sinistre peuvent être chauds, tièdes ou froids.
- Un site chaud est un site de reprise après sinistre entièrement fonctionnel, équipé de serveurs ESXi configurés, de stockage, de réplicas de machines virtuelles et de données utilisateur. Si le site principal tombe en panne après un sinistre, un site chaud est prêt à être utilisé immédiatement. Le déploiement d’un site chaud est coûteux, mais offre la possibilité d’une reprise la plus rapide possible.
- Un site tiède contient certains équipements tels que des équipements réseau, des serveurs passerelles, des hôtes ESXi, ainsi que du stockage, mais peut ne pas contenir de VMs ni de données utilisateur. Dans ce cas, les VMs doivent être récupérées à partir de sauvegardes, et les données utilisateur peuvent également devoir être copiées. Des équipements et logiciels supplémentaires peuvent être installés pendant le processus de reprise après sinistre. L’utilisation d’un site chaud est donc une solution de compromis qui nécessite des coûts moyens, mais offre un temps de reprise abordable.
- Un site froid est un site de reprise après sinistre qui ne dispose que d’une infrastructure de base. En cas de sinistre, les serveurs doivent être configurés, le stockage doit être déployé, les VMs doivent être réalisées et les données utilisateur peuvent devoir être extraites à partir des sauvegardes. L’utilisation de ce type de site de reprise après sinistre nécessite davantage d’efforts pour récupérer les VMs et les Workloads. Ce processus de récupération prend beaucoup de temps, mais le coût d’un site froid est le plus bas par rapport aux autres types de sites.
Création automatique de sauvegardes et de réplicas
Les sauvegardes et les réplicas de machines virtuelles sont les composants les plus importants de la reprise après sinistre dans un environnement virtuel VMware vSphere. La sauvegarde comprend une copie des données de la machine virtuelle, qui est stockée dans un endroit sûr. Les données sauvegardées peuvent être compressées et nécessitent du temps pour être effectuées. Une réplique de VM est une copie identique de la VM source qui réside sur un hôte ESXi, est prête à démarrer en cas de besoin et est utilisée pendant le basculement. Évitez de sauvegarder manuellement les VMs trop souvent, car certaines modifications importantes peuvent être manquées et perdues en cas de sinistre. Utilisez un logiciel de protection des données des VMs au niveau de l’hôte qui peut créer automatiquement des sauvegardes et des réplicas de VMs en planifiant un calendrier.
Utilisez les fonctionnalités de clustering VMware
VMware fournit des fonctionnalités de clustering telles que le cluster Distributed Resource Scheduler (DRS), le cluster High Availability (HA) et la tolérance aux pannes (disponible pour les VMs dans un cluster HA). Un cluster HA vous aide à minimiser les temps d’arrêt des VMs, tandis que la tolérance aux pannes (FT) vous permet d’éviter les temps d’arrêt des VMs en cas de panne matérielle. Sachez que les fonctionnalités de clustering ne remplacent pas la sauvegarde et la réplication. La haute disponibilité avec tolérance aux pannes et la sauvegarde avec réplication se complètent mutuellement. Le fait est que la haute disponibilité et la tolérance aux pannes ne peuvent pas protéger les données contre la corruption, la suppression de fichiers à l’intérieur des VMs, les mises à jour du logiciel infructueuses ou d’autres défaillances logicielles, etc.
Utilisez l’ordre de récupération approprié pour les VMs
Les VMs doivent être récupérées dans l’ordre approprié. Imaginez que vous disposiez de plusieurs VMs avec différentes applications qui dépendent les unes des autres. L’exemple classique est celui d’une VM avec un contrôleur de domaine Active Directory, une VM avec un serveur de base de données et une VM avec un serveur web. Les VMs doivent être démarrées dans l’ordre suivant :
- La VM avec le contrôleur de domaine doit être démarrée en premier.
- La VM avec un serveur de base de données démarre lorsque la VM avec le contrôleur de domaine est en cours d’exécution, car un serveur de base de données utilise le contrôleur de domaine pour l’authentification des utilisateurs.
- La machine virtuelle avec un serveur Web démarre lorsque la machine virtuelle avec un serveur de base de données est en cours d’exécution, car le serveur Web utilise la base de données pour fonctionner correctement dans ce cas.
Si vous disposez d’une machine virtuelle avec un serveur de messagerie MS Exchange, celle-ci doit démarrer après la machine virtuelle avec contrôleur de domaine, car MS Exchange est intégré à Active Directory pour l’authentification des utilisateurs.
Utilisez une configuration réseau appropriée pour les machines virtuelles
Un site de production et un site de reprise après sinistre peuvent avoir des réseaux différents pour la connexion des machines virtuelles. Les adaptateurs réseau virtuels des machines virtuelles sont connectés aux ports des commutateurs virtuels (vSwitches). Les groupes de ports représentent différents réseaux avec des noms de réseau et les adresses appropriées. Si vous effectuez la récupération d’une machine virtuelle sur un site de reprise après sinistre, mais que la machine virtuelle est configurée pour se connecter au réseau d’un site de production (qui diffère du réseau utilisé pour les machines virtuelles sur un site de reprise après sinistre), la connexion réseau de la machine virtuelle ne peut pas être établie. Dans ce cas, n’oubliez pas de modifier les paramètres réseau des machines virtuelles lors de la récupération sur le site de reprise après sinistre.
Préparez le stockage de votre machine virtuelle
Il doit y avoir suffisamment d’espace libre dans le stockage utilisé sur un site de reprise après sinistre pour stocker les machines virtuelles. Il s’agit de la première condition à remplir, qui est également la plus importante. Le stockage doit également offrir des performances suffisantes, sinon les services critiques pour l’entreprise qui s’exécutent sur les VMs risquent de ralentir. Si un stockage en réseau tel que NAS (Network Attached Storage) ou SAN (Storage Area Network) est utilisé, la vitesse du réseau doit être suffisamment rapide pour y faire face. Le réseau de stockage d’un site de reprise après sinistre doit être un réseau dédié, séparé des autres réseaux.
Testez régulièrement votre plan de reprise après sinistre
Un plan de reprise après sinistre peut sembler satisfaisant sur le papier, mais il peut s’avérer inutile en cas de sinistre s’il n’a pas été testé au préalable. Veillez donc à tester régulièrement votre plan de reprise après sinistre. Les tests vous permettent de vérifier si le plan de reprise après sinistre est réalisable et si les RTO et RPO peuvent être respectés. Les tests vous permettent également de détecter les inconvénients du plan de reprise après sinistre et, par conséquent, d’apporter des ajustements pour y remédier. Testez régulièrement votre plan de reprise après sinistre afin de vous assurer que votre environnement virtuel vSphere peut faire l’objet d’une opération de récupération. L’infrastructure peut évoluer avec le temps et, après des changements, un plan de reprise après sinistre qui était récemment opérationnel peut ne plus répondre aux conditions à remplir. Par exemple, certaines VMs peuvent être ajoutées, les adresses IP peuvent être modifiées, les applications peuvent être migrées d’une VM à une autre, etc. Des tests réguliers vous permettent de détecter les parties du plan qui doivent être mises à jour après des modifications de l’infrastructure, afin de maintenir le plan de reprise après sinistre dans un état efficace.
Trouvez la solution de reprise après sinistre adaptée
Une fois votre plan de reprise après sinistre établi, trouvez la solution de reprise après sinistre qui répond le mieux à vos besoins. Si vous utilisez VMware vSphere, la solution doit prendre en charge la sauvegarde/réplication des machines virtuelles au niveau de l’hôte, la restauration rapide à partir d’une sauvegarde, le basculement vers une réplique de machine virtuelle, la récupération complète de la machine virtuelle et la récupération d’objets individuels. Essayez de choisir une solution adaptée avec les fonctionnalités appropriées, qui vous permettra de tester et de mettre à jour régulièrement votre plan de reprise après sinistre.
NAKIVO Backup & Réplication pour VMware Reprise après sinistre
NAKIVO Backup & Réplication est une solution de protection des données VM rapide, fiable et abordable qui peut protéger vos VMs VMware. Entre autres, ce produit permet d’effectuer des sauvegardes et des réplications de machines virtuelles au niveau de l’hôte, des restaurations d’objets individuels, des restaurations instantanées de machines virtuelles et des basculements vers une réplique de machine virtuelle. Aucun agent ne doit être installé sur les machines virtuelles, car l’API VMware vStorage pour la protection des données est utilisée. De plus, NAKIVO Backup & Replication inclut une nouvelle fonctionnalité de reprise après sinistre, grâce à laquelle vous pouvez effectuer la reprise après sinistre de sites entiers avec (et pas seulement) des machines virtuelles VMware.
Présentation de la reprise après sinistre
Reprise après sinistre est une fonctionnalité puissante qui vous aide à réaliser la récupération de vos VMs d’un site à un autre en cas de sinistre. Cette fonctionnalité peut également être utilisée pour la migration planifiée de VMs entre sites. Vous pouvez créer des workflows de récupération automatisés et les exécuter pour un basculement planifié ou d’urgence, ainsi qu’à des fins de test.
Fonctionnalités de Reprise après sinistre
Reprise après sinistre vous permet d’automatiser et d’orchestrer un processus de reprise après sinistre des machines virtuelles. Cette fonctionnalité comprend un ensemble d’actions et de conditions que vous pouvez combiner dans un workflow de reprise après sinistre (tâche) en fonction de votre plan de reprise après sinistre. Ces actions sont les suivantes :
- Basculement des VMs. Vous pouvez basculer vers une réplique de machine virtuelle (la réplique de machine virtuelle doit être créée avant d’effectuer l’action de basculement).
- VMs de restauration automatique. Vous pouvez transférer les Workloads d’une réplique de machine virtuelle stockée sur un site de reprise après sinistre vers une machine virtuelle source stockée sur un site de production.
- Démarrer des VMs. Vous pouvez démarrer une ou plusieurs VMs.
- Arrêter les VMs. Vous pouvez arrêter une ou plusieurs VMs.
- Exécuter des tâches. Vous pouvez exécuter des tâches (sauvegarde, réplication, démarrage instantané de machines virtuelles, etc.) créées dans votre instance NAKIVO Backup & Replication.
- Arrêter les tâches. Vous pouvez arrêter les tâches en cours d’exécution.
- Exécuter le script. Vous pouvez exécuter un script sur une machine avec l’instance de NAKIVO Backup & Replication & , sur une machine Windows distante, une machine Linux distante, une machine virtuelle VMware, une machine virtuelle Hyper-V ou une instance EC2.
- Joindre le référentiel. Vous pouvez joindre un référentiel de sauvegarde.
- Détacher le référentiel. Vous pouvez détacher le référentiel de sauvegarde déjà joint.
- Envoyer des e-mails. Vous pouvez envoyer une adresse e-mail après l’action appropriée, par exemple, si le basculement de la machine virtuelle s’est déroulé avec succès.
- Warten. Vous pouvez attendre un certain temps avant de passer à l’action suivante.
- Vérifier l’état. Vous pouvez vérifier les conditions suivantes avant de passer à l’action suivante : si une ressource existe, si une ressource est en cours d’exécution et si l’adresse IP/le nom d’hôte est accessible.
Vous pouvez utiliser de manière flexible les actions répertoriées pour créer différentes tâches de reprise après sinistre pour différents cas d’utilisation et scénarios. Cliquez sur le bouton Exécuter la tâche et toutes les actions seront lancées automatiquement dans l’ordre défini. Les tâches de reprise après sinistre peuvent être exécutées manuellement en mode production et en mode test, mais lorsque vous configurez vos tâches de reprise après sinistre pour qu’elles s’exécutent automatiquement en tant que tâches planifiées, elles s’exécutent en mode test.
Avantages de la reprise après sinistre
La reprise après sinistre est une fonctionnalité puissante, pratique et intuitive. Cette fonctionnalité peut simplifier la reprise après sinistre pour les environnements virtuels VMware vSphere, tout en vous permettant de réduire vos efforts et vos investissements en matière de continuité des activités.Pour résumer les avantages de la Reprise après sinistre :
- Il vous aide à mettre en œuvre vos plans de reprise après sinistre complexes dans le cadre de votre stratégie de reprise après sinistre.
- Il automatise le processus de reprise après sinistre.
- Il réduit le temps consacré à la reprise après sinistre. (Vous bénéficiez ainsi d’un temps d’arrêt réduit, de moins d’interruptions de service et d’une réduction des coûts.)
- Les tâches de reprise après sinistre peuvent être testées automatiquement afin de vérifier si votre plan de reprise après sinistre est à jour et si les objectifs RPO et RTO peuvent être atteints.
- La reprise après sinistre n’est pas une fonctionnalité autonome, mais est intégrée à la solution puissante et universelle de protection des données VM, où elle peut être gérée à partir d’un seul écran.
- Elle bénéficie d’une politique de prix abordable. Vous n’avez pas besoin d’acheter une licence distincte pour utiliser la reprise après sinistre si vous disposez déjà d’une licence pour l’édition appropriée de NAKIVO Backup & Replication & Replication.
Conclusion
La reprise après sinistre d’un environnement virtuel VMware vSphere est un processus important pour assurer la continuité des activités. Les bonnes pratiques en matière de reprise après sinistre VMware comprennent la création d’un plan de reprise après sinistre, ainsi que la création automatique de réplicas de machines virtuelles nécessaires au basculement des machines virtuelles. Il est recommandé d’utiliser la sauvegarde et la réplication des machines virtuelles en plus des fonctionnalités de clustering vSphere. Définissez l’ordre de récupération de vos machines virtuelles, préparez votre site de reprise après sinistre (y compris les composants réseau et de stockage), veillez à tester régulièrement votre plan de reprise après sinistre et utilisez une solution de protection des données adaptée qui prend en charge la sauvegarde, la réplication et la récupération des machines virtuelles au niveau de l’hôte. NAKIVO Backup & Replication est une solution universelle de protection des données des machines virtuelles qui prend en charge les machines virtuelles VMware. Reprise après sinistre est une nouvelle fonctionnalité puissante incluse dans NAKIVO Backup & Replication depuis la version 8.0. Site Recovery vous permet de mettre en œuvre votre plan de reprise après sinistre en créant des tâches de reprise de site automatisées. Cette fonctionnalité utile vous aide à orchestrer et à automatiser un processus de reprise après sinistre, à récupérer rapidement les données des machines virtuelles et à garantir un niveau élevé de protection des données. Téléchargez NAKIVO Backup & Replication avec Site Recovery et essayez le produit dans votre environnement VMware vSphere.