Liste de contrôle du plan de continuité des activités
Une perturbation ou une catastrophe peut survenir quand vous vous y attendez le moins. En fait, 80 % des responsables de centres de données ont connu une panne au cours des trois dernières années. Qu’il s’agisse d’une cyberattaque, d’une infection par un ransomware, d’une erreur humaine ou d’une catastrophe naturelle, une interruption prolongée peut avoir un impact néfaste sur les activités de votre organisation.
Disposer d’un plan de continuité des activités (PCA) solide dans le cadre de votre stratégie de gestion des risques vous permet de maintenir ou de rétablir rapidement les fonctions critiques en cas de perturbation. Un PCA protège également l’infrastructure de l’entreprise et sert de cadre à suivre pour réagir de manière appropriée à un incident.
Cet article répertorie les éléments essentiels de la liste de contrôle du plan de continuité des activités. Poursuivez votre lecture pour découvrir les meilleures mesures à prendre pour reprendre vos activités avec succès et un minimum de répercussions.
Pourquoi vous avez besoin d’un plan de continuité des activités
Un plan de continuité des activités (PCA) détermine comment une organisation peut continuer à fournir des produits et des services lors de perturbations imprévues. Le PCA est une stratégie détaillée qui aide à atténuer l’impact d’une catastrophe sur les activités quotidiennes tout en maintenant l’environnement de production en état de fonctionnement.
Un PCA complet doit traiter toutes les menaces potentielles qui pourraient mettre en danger vos employés, vos ressources et vos opérations, qu’il s’agisse d’une panne de courant, d’une infection par un logiciel malveillant ou d’une catastrophe naturelle. Cela est particulièrement important, car tous ces événements peuvent entraîner des temps d’arrêt, qui à leur tour entraînent des pertes financières, une atteinte à la réputation ou une fermeture définitive.
L’objectif principal du plan de continuité des activités est d’assurer la préparation aux situations d’urgence en activant votre équipe d’intervention pour qu’elle suive méthodiquement les étapes nécessaires avant, pendant et après un scénario perturbateur. Les entreprises qui ne disposent pas de cette liste de contrôle peuvent avoir du mal à maintenir leurs processus opérationnels normaux et risquent de perdre des données, des systèmes ou des clients, souvent de manière irréversible.
Le plan de continuité des activités en 7 étapes
La liste de contrôle en 7 étapes vous aide à formuler un cadre général de priorités sur lequel vous pouvez vous appuyer pour créer un plan de continuité des activités adapté à votre organisation. Vous pouvez y inclure toutes les procédures nécessaires au maintien des opérations commerciales en cas de crise. Gardez à l’esprit que les détails exacts varient d’une entreprise à l’autre en fonction de différents aspects tels que la taille de l’entreprise, le secteur d’activité et le type de menaces.
Le plan de continuité des activités standard comprend généralement les étapes suivantes :
- Créer une équipe d’intervention en cas de catastrophe
- Identifier les services essentiels à l’entreprise
- Réaliser une évaluation des risques et une analyse d’impact sur l’activité
- Élaborer un plan de récupération
- Définissez des objectifs de récupération et désignez un site de récupération après sinistre
- Assurez-vous que toutes les charges de travail critiques pour l’entreprise sont protégées
- Testez et mettez à jour votre plan de continuité des activités
Examinons de plus près chacune de ces étapes afin de comprendre pourquoi elles constituent des éléments importants de toute liste de contrôle du PCA.
1. Créer une équipe d’intervention en cas de catastrophe
La première étape dans l’élaboration d’un plan de continuité des activités consiste à constituer l’équipe chargée de maintenir le fonctionnement de l’entreprise en cas d’urgence. L’équipe PCN doit comprendre des membres de chaque service impliqué dans les opérations quotidiennes et un responsable désigné pour diriger les efforts de planification de la continuité des activités.
Lorsque vous identifiez les membres clés de l’équipe BCP, vous devez dresser une liste exhaustive des catastrophes qui représentent la plus grande menace pour votre organisation afin de pouvoir recruter les personnes adéquates. Différents types d’urgences, telles que les pannes informatiques, les coupures de courant ou les dommages matériels, nécessitent des membres du personnel possédant des connaissances et une expertise spécifiques pour les gérer correctement et rapidement.
Créez un tableau pour consigner les informations nécessaires sur les membres de l’équipe d’intervention afin de pouvoir les contacter facilement en cas de besoin. Votre tableau peut inclure le nom, le poste, le rôle au sein de l’équipe d’intervention et les coordonnées. N’oubliez pas que vous devez désigner au moins un remplaçant pour chaque rôle au sein de l’équipe. Cela vous permettra d’éviter les goulots d’étranglement au cas où les délégués principaux ne pourraient pas s’acquitter de leurs responsabilités.
2. Identifiez les services essentiels à l’activité
L’un des principaux objectifs du plan de continuité des activités est de vous aider à identifier les processus, les équipements et les ressources qui sont essentiels au fonctionnement de votre organisation. Il s’agit des fonctions et services infrastructurels importants autour desquels vous devez élaborer votre PCA.
Ces services et éléments infrastructurels clés comprennent très probablement :
- Systèmes d’alimentation électrique et générateurs
- Appareils de télécommunication – WAN, LAN, téléphones, ordinateurs
- Systèmes informatiques et serveurs
- Infrastructure et installations du bâtiment
- Équipements spécialisés ou fournitures essentielles à l’activité
Il est essentiel de rétablir ces éléments dès que possible en cas de perturbation afin de reprendre vos activités et de protéger vos actifs.
3. Réalisez une évaluation des risques et une analyse d’impact sur les activités
Après avoir identifié les services clés de l’entreprise, vous devez réaliser une évaluation de l’impact des risques afin de découvrir les vulnérabilités associées aux systèmes, activités et ressources essentiels. L’évaluation des risques estime la probabilité de chaque menace et reflète la probabilité de survenue d’une catastrophe.
L’ analyse d’impact sur les activités (BIA), généralement menée parallèlement à l’évaluation des risques, vous permet d’évaluer la criticité et la gravité de l’impact sur vos opérations commerciales. L’objectif principal de la BIA est d’analyser les coûts financiers et opérationnels que vous devriez supporter si le risque se concrétisait. Elle vous aide à déterminer le niveau de tolérance des processus et des dépendances importants, tels que les clients et les partenaires, si des fonctions commerciales clés sont dégradées, perturbées ou complètement interrompues.
Voici un tableau simplifié que vous pouvez utiliser comme modèle pour commencer à rédiger votre propre analyse :
| Processus métier | Catégorie d’impact | Gravité | Temps d’indisponibilité maximal tolérable (MTD) | Coûts estimés | Dépendances |
Il convient de noter que les organisations disposant de plusieurs emplacements doivent effectuer une évaluation des risques et une analyse d’impact sur les activités distinctes pour chaque emplacement. Si ces emplacements sont géographiquement éloignés, les défis et les risques peuvent être différents. Un plan de continuité des activités solide tient également compte des relations et des dépendances entre les différents emplacements.
4. Élaborez un plan de récupération
Une fois les étapes précédentes terminées, il est temps de créer un plan de récupération qui s’articule autour de la restauration de vos opérations après une catastrophe. La continuité des activités et la reprise après sinistre vont de pair, d’autant plus que le plan de récupération après sinistre (DR) est un élément essentiel du plan de continuité des activités. Pour obtenir des modèles plus détaillés de reprise après sinistre, téléchargez gratuitement notre White Paper Manuel et modèles de reprise après sinistre.
Le plan de reprise après sinistre décrit les étapes techniques que vous devez suivre pour restaurer vos services essentiels dès que possible. N’oubliez pas que le plan de reprise ne se limite pas aux données, car il doit également inclure les machines, les Workloads et les processus.
Votre plan de récupération peut s’appuyer, entre autres, sur les stratégies suivantes :
- Procédures commerciales alternatives – par exemple, des solutions manuelles pour les processus mécanisés ou automatisés jusqu’à ce que les systèmes soient à nouveau sauvergardés
- Un site secondaire ou alternatif pour reprendre les opérations commerciales
- Basculement du réseau et des serveurs au niveau du site
- Récupération des sauvegardes hors site des données critiques pour l’entreprise
- Ressources « de secours » ou en veille, qui peuvent être mises en service immédiatement en cas de défaillance des composants principaux
La vidéo ci-dessous explique comment effectuer une reprise après sinistre complète à l’aide de NAKIVO Backup & Replication.
5. Définir les objectifs de temps de récupération et désigner un site de reprise après sinistre
L’objectif de temps de récupération (RTO) détermine le temps d’indisponibilité du système informatique qu’une entreprise peut raisonnablement tolérer avant que les processus ou les services ne soient rétablis. Les objectifs de point de récupération (RPO) définissent la quantité de perte de données qu’une entreprise peut tolérer. Le RTO et le RPO sont deux indicateurs importants dans tout plan de continuité des activités.
Il est essentiel de désigner un site de reprise après sinistre (DR) pour le basculement du réseau/des données, car il fournit un substitut immédiat en cas de mise hors ligne de votre site de production principal. En outre, cela vous aide à garantir que vos objectifs de récupération sont atteints.
L’installation de reprise après sinistre située dans un autre emplacement géographique sert de copie « en veille active » de vos ressources, telles que les machines virtuelles (VMs). En cas de panne à l’échelle du site qui met hors service votre réseau de production, le trafic peut être basculé vers l’emplacement de reprise après sinistre. Les VMs « en veille active » deviennent essentiellement des Workloads de production, rétablissant les opérations commerciales et assurant efficacement la continuité des activités.
Vous pouvez utiliser des solutions avancées de protection des données tierces pour répliquer les VMs de production vers un site de reprise après sinistre hors site et définir l’intervalle de réplication en fonction de votre RPO. La machine virtuelle répliquée est une copie exacte de la machine d’origine et peut être utilisée dans un processus de basculement automatisé lors de la mise en œuvre de votre plan de reprise après sinistre.
6. Assurez-vous que toutes les charges de travail critiques pour l’entreprise sont protégées
L’impact d’une catastrophe peut être considérablement atténué en protégeant correctement vos données critiques. Renforcez la résilience de vos sauvegardes en appliquant la règle 3-2-1 : disposez d’au moins 3 sauvegardes sur 2 types de supports de stockage différents, avec au moins 1 copie stockée hors site.
Effectuez la sauvegarde des données de votre entreprise en suivant la méthodologie de sauvegarde 3-2-1 afin d’obtenir les RPO et RTO les plus courts possibles. Cela vous permet également de vous assurer que la catastrophe qui a affecté votre réseau de production n’aura pas d’impact sur vos données de sauvegarde.
7. Testez et mettez à jour votre plan de continuité des activités
Une fois votre plan de continuité des activités terminé, il doit être soumis à des tests rigoureux. La meilleure façon de procéder est de former vos employés afin de vous assurer qu’ils comprennent parfaitement leurs rôles et leurs responsabilités. Vous ne pouvez garantir votre préparation aux situations d’urgence sans organiser régulièrement des formations et des exercices. Plus important encore, en mettant en place des simulations complètes, vous pouvez identifier et corriger les faiblesses de votre plan.
Veillez à mettre en œuvre toutes les procédures afin de reproduire le déroulement d’un scénario de catastrophe réel. Il est préférable de réaliser ce type de tests tous les trimestres afin que les membres clés de l’équipe restent familiarisés avec le processus. De plus, les changements apportés à votre infrastructure, votre environnement, vos protocoles, vos Workloads et/ou votre personnel peuvent compliquer le plan. Ces éventuels problèmes ne sont souvent découverts qu’au cours de simulations complètes.
Les simulations doivent être observées par un observateur indépendant qui peut prendre note de toutes les vulnérabilités. Chaque simulation doit être suivie d’un débriefing, après quoi vous pouvez rédiger un rapport documentant les faiblesses constatées et les mises à jour proposées. Les rapports, ainsi que le plan de continuité des activités mis à jour, doivent être partagés avec tous les membres de l’équipe.
Liste de contrôle du plan de continuité des activités
Voici une liste de contrôle simplifiée du PCA qui vous permet de passer en revue les étapes nécessaires pour garantir la préparation aux situations d’urgence.
Créer une équipe d’intervention en cas de catastrophe
- Nommer un responsable senior du PCA
- Créer un comité de continuité des activités
- Choisir les membres de l’équipe d’intervention
- Définir les rôles et les responsabilités
- Choisir des délégués suppléants pour chaque membre de l’équipe
- Établir une communication claire entre tous les membres
Identifier les services essentiels à l’entreprise
- Cartographier tous les systèmes d’alimentation électrique
- Identifier les appareils de télécommunication
- Identifier les systèmes informatiques et les serveurs
- Identifier les installations et les équipements spécialisés
- Identifier l’interdépendance entre les services
- Vérifier les services d’urgence
Réaliser une évaluation des risques et une analyse d’impact sur les activités
- Identifier les menaces et les vulnérabilités
- Établir la tolérance au risque
- Déterminer les processus opérationnels critiques
- Calculer le temps d’indisponibilité maximal tolérable pour chaque service
- Analyser l’impact financier, juridique, réglementaire et sur la clientèle
- Identifier l’interdépendance entre les fonctions commerciales critiques
Élaborer un plan de récupération
- Créer votre plan de continuité des opérations (COOP)
- Rédiger des solutions de contournement manuelles pour les processus automatisés
- Se préparer au basculement du réseau et du serveur au niveau du site
- Testez la récupération des sauvegardes hors site des données critiques
- Assurez-vous que les ressources de secours sont disponibles
Définissez les objectifs de récupération et désignez un site de reprise après sinistre
- Désigner un site secondaire pour reprendre les opérations commerciales
- Définir des objectifs de point de récupération (RPO)
- Définir des objectifs de temps de récupération (RTO)
- Gérer les processus de reprise après sinistre
Protéger les données critiques pour l’entreprise
- Effectuer des sauvegardes des données critiques pour l’entreprise
- Stocker les données sur des périphériques de stockage sur site et hors site
- Stocker des sauvegardes isolées
- Activer l’immuabilité pour des sauvegardes spécifiques
Tester et mettre à jour votre plan de continuité des activités
- Effectuez des tests annuels, semestriels et trimestriels
- Réalisez des simulations complètes du PCA chaque année
- Créez un processus d’audit
- Identifiez les vulnérabilités et mettez à jour le plan
- Former vos employés
Conclusion
Une liste de contrôle du plan de continuité des activités est essentielle pour garantir la continuité des services pendant la période de récupération des Workloads affectés à la suite d’un événement perturbateur. Les organisations qui ne parviennent pas à créer un PCA risquent de subir des temps d’arrêt importants et des pertes de données qui peuvent causer des dommages financiers et réputationnels irréparables.
Cette liste de contrôle fournit le cadre d’un plan de continuité des activités efficace qui peut vous aider à faire face aux pires scénarios. N’oubliez pas qu’un PCA ne peut être complet sans une solution avancée de protection des données telle que NAKIVO Backup & Replication. La solution NAKIVO comprend tous les outils dont vous avez besoin pour effectuer des processus de sauvegarde et de restauration, automatiser les workflows de reprise après sinistre et effectuer des tests de reprise après sinistre non perturbateurs afin de garantir la réalisation de vos objectifs de récupération.