Bonnes pratiques en matière de surveillance informatique

Dans les petites entreprises disposant de peu de serveurs et de postes de travail, les administrateurs système peuvent généralement identifier rapidement les problèmes qui surviennent sans avoir recours à des outils spéciaux. À mesure qu’une entreprise se développe, le nombre de serveurs et d’autres périphériques réseau augmente également. Et si un problème survient, l’administrateur système doit toujours être en mesure de l’identifier rapidement afin d’éviter des conséquences graves.

La recherche manuelle d’un problème dans une infrastructure de taille moyenne ou grande peut s’avérer compliquée et fastidieuse. Heureusement, la surveillance automatisée des infrastructures informatiques est aujourd’hui largement disponible pour aider les administrateurs à identifier le type et la source des problèmes le plus rapidement possible. Ces outils aident également les administrateurs à prévenir de manière proactive les problèmes et les goulots d’étranglement avant qu’ils ne se produisent, en surveillant l’allocation des ressources et la consommation en temps réel.

Cet article de blog explique ce qu’est la surveillance informatique, pourquoi utiliser des outils de surveillance pour les serveurs et autres périphériques réseau, et quelles sont les bonnes pratiques à suivre.

Proactive Monitoring for VMware Infrastructures from NAKIVO

Proactive Monitoring for VMware Infrastructures from NAKIVO

Monitor VMware vSphere key metrics to enhance capacity planning and resolve bottlenecks before they become an issue.

Qu’est-ce que la surveillance informatique ?

La surveillance informatique consiste à suivre les mesures matérielles et logicielles dans un environnement physique ou virtuel afin d’améliorer l’efficacité et d’optimiser les processus. Pour ce faire, on collecte et analyse les données relatives à la disponibilité, aux performances et à l’utilisation des ressources des matériels et applications critiques.

Une infrastructure informatique est le cadre sous-jacent qui permet aux entreprises de fournir des services, d’effectuer des transactions, de fournir des informations, d’interagir avec les clients, etc. Cette infrastructure est composée de centres de données, d’applications et de logiciels, de Réseaux et de matériel tel que des serveurs, des routeurs, etc.

Types et méthodes de surveillance informatique

Examinons les deux principales approches de la surveillance informatique de l’infrastructure informatique.

  • La surveillance basée sur des agents peut être effectuée par l’intermédiaire d’un logiciel client-serveur en installant des agents sur chaque machine surveillée. Ce type d’outils de surveillance informatique nécessite l’installation du composant serveur du logiciel de surveillance du système sur un serveur ou une machine virtuelle. Le logiciel serveur enregistre les données collectées dans une base de données et fournit une interface web permettant aux administrateurs et aux utilisateurs de configurer le logiciel de surveillance du système et de surveiller l’infrastructure informatique.Un agent est le composant du logiciel de surveillance informatique qui est installé sur la machine cible à partir de laquelle les données doivent être collectées. L’agent interagit avec le serveur via le réseau et envoie les données collectées au serveur de surveillance. L’agent doit prendre en charge plusieurs systèmes d’exploitation afin de mieux couvrir l’infrastructure informatique.
  • La surveillance sans agent peut être effectuée à l’aide d’un logiciel côté serveur et de protocoles réseau pris en charge, sans installer d’agents logiciels de surveillance sur chaque machine surveillée. Elle peut être utilisée pour différentes plateformes, ce qui est particulièrement utile si vous ne pouvez pas installer l’agent de surveillance (par exemple, sur un commutateur ou un routeur).

Les logiciels de surveillance informatique peuvent vérifier la disponibilité des services sur un hôte distant à l’aide des protocoles ICMP, SSH, FTP, HTTP et DNS sans qu’un agent de surveillance soit installé sur l’hôte distant. Le logiciel de surveillance de serveur tente d’accéder à l’hôte de destination via le protocole défini et, en fonction de la réponse du serveur, détermine le statut du service requis.

Deux des protocoles utilisés sont :

  • Le protocole SNMP (Simple Network Management Protocol) a été spécialement développé pour les tâches de surveillance sans installation d’agents de surveillance sur les hôtes distants. L’hôte distant doit exécuter le service SNMP approprié pour assurer la prise en charge de la collecte de données via SNMP à partir de cet hôte surveillé. Le protocole SNMP fonctionne sur la couche application du modèle OSI, et la dernière version est SNMPv3. Le protocole SNMP est généralement pris en charge dans les commutateurs, les routeurs, les points d’accès, les pare-feu, les imprimantes réseau et autres appliances connectées au réseau. Chaque identifiant d’objet est associé au paramètre approprié, tel que les octets reçus, les octets transmis, la température du processeur, le niveau de toner dans la cartouche d’imprimante, etc. Les identifiants d’objet sont numérotés selon une structure hiérarchique (arborescente). Par exemple, 1.3.6.1.4.1.343.2.19.1.2.10.206.1.1.16 est l’identifiant du capteur de température du matériel Intel.

    Notez qu’un agent SNMP n’est pas la même chose qu’un agent de surveillance d’un logiciel de surveillance du système.

  • Windows Management Instrumentation (WMI) est un protocole réseau propriétaire de Microsoft développé pour surveiller les systèmes Windows sans installer d’agents. L’outil de surveillance envoie une requête WMI à un hôte surveillé, puis lit les données renvoyées.

Surveillance informatique pour les systèmes virtualisés

La surveillance des VMs et des conteneurs présente des fonctionnalités propres qui doivent être prises en compte pour obtenir les résultats souhaités.

Surveillance des Virtuelles Maschinen. Pour les Virtuelles Maschinen, utilisez des solutions logicielles de surveillance sans agent utilisant les API VMware pour suivre les performances et l’efficacité des hôtes VMware ESXi, des serveurs vCenter et des Virtuelles Maschinen. Les métriques de surveillance comprennent l’utilisation du processeur, de la mémoire, du stockage et du réseau. Cette approche vous permet d’éviter les frais généraux par rapport à la méthode où des agents de surveillance sont installés sur les machines virtuelles.

Surveillance des conteneurs est délicate par rapport à la surveillance des serveurs traditionnels et des machines virtuelles. En effet, les conteneurs sont provisionnés/détruits rapidement et partagent des ressources, ce qui rend difficile la mesure des ressources consommées par un hôte. Le déploiement de N agents dans N conteneurs n’est pas rationnel. Tout comme les VMs, les conteneurs peuvent être surveillés via des API spéciales.

L’API Docker stats est un mécanisme natif fourni avec les conteneurs Docker pour les surveiller. L’idée principale de la surveillance des conteneurs est de surveiller les applications conteneurisées de l’architecture microservice s’exécutant dans des conteneurs.

Surveillance informatique : composants

Explorons les différents composants qui peuvent être suivis avec Surveillance informatique pour en savoir plus. Cette classification des composants surveillés est conditionnelle, car ils peuvent se recouper.

  • Surveillance du matériel pour la température du processeur, la température du disque dur, le statut S.M.A.R.T. du disque dur, les données sur la durée de vie de la batterie, la tension, etc. mémoire libre, espace disque, activité du disque et utilisation des fichiers swap.
  • Surveillance du réseau pour les débits de transfert de données sur différentes interfaces réseau, le nombre d’utilisateurs connectés (utile pour les connexions VPN), les connexions réseau, les pare-feu, les connexions TCP et UDP (pour détecter les logiciels malveillants), etc. Cela peut vous aider à détecter une surcharge du réseau, une faible vitesse de transfert de données et des tentatives non autorisées d’accès au réseau.
  • Surveillance des applications pour vérifier les journaux des applications, y compris les journaux du système d’exploitation, détecter les codes d’erreur et afficher les informations agrégées dans l’interface web ou envoyer des notifications aux administrateurs. La surveillance des applications peut inclure la consommation de processeur et de mémoire par une application.
  • Surveillance de la sécurité pour détecter les problèmes de sécurité et traiter les vulnérabilités logicielles, les ports ouverts et les autorisations indésirables, qui peuvent être utilisés pour lancer des attaques dans votre environnement.
  • Surveillance des activités critiques pour détecter les tentatives de connexion non autorisées à un système, les modifications de fichiers, etc. La surveillance des fichiers et des dossiers vous aide à détecter les activités inhabituelles causées par le ransomware et à réagir rapidement pour éviter toute perte de données.
  • Surveillance de la disponibilité pour détecter si un hôte a été mis hors tension même si personne ne l’a remarqué (par exemple, un serveur a été redémarré pendant la nuit, en dehors des heures de travail, après l’installation de mises à jour automatiques ou après une coupure de courant). Plus l’hôte fonctionne correctement sans redémarrage, plus le système est fiable et stable.

Bonnes pratiques pour la surveillance informatique de l’infrastructure

Pour optimiser l’efficacité de la surveillance informatique, suivez ces bonnes pratiques en matière de surveillance informatique de l’infrastructure. En comprenant clairement comment mettre en œuvre la surveillance informatique, vous pouvez atténuer les risques de temps d’arrêt et réagir plus efficacement aux problèmes avant que les utilisateurs ne ressentent l’impact négatif des services et applications défaillants.

Choisissez la solution de surveillance adaptée

Pour choisir la solution de surveillance adaptée aux besoins de votre organisation, déterminez les composants de votre infrastructure informatique qui doivent être surveillés. Pour ce faire, classez le matériel, les systèmes et les applications en fonction de leur importance pour les opérations commerciales.

Vous pouvez ensuite définir votre stratégie de surveillance et sélectionner le logiciel de surveillance informatique le plus adapté. Votre stratégie inclura le matériel et les logiciels à surveiller, les métriques à surveiller, le niveau de surveillance et la manière de réagir en cas de problème. En fonction de ces paramètres, sélectionnez le logiciel de surveillance qui répond à vos conditions à remplir.

Si vous devez surveiller des machines virtuelles VMware sur des hôtes VMware ESXi, sélectionnez une solution qui accède aux machines virtuelles au niveau de l’hyperviseur plutôt que d’installer des agents sur le système d’exploitation invité. Un logiciel de surveillance d’entreprise universel combinera des agents pour surveiller les machines physiques et des API de virtualisation pour surveiller les hôtes hyperviseurs et les machines virtuelles. Ce type de logiciel de surveillance peut utiliser des protocoles tels que SNMP pour surveiller les périphériques réseau et autres équipements, et utiliser des API spéciales pour surveiller les éléments dans les clouds AWS et Azure.

Recueillez les métriques pertinentes

Les bonnes pratiques en matière de surveillance informatique recommandent des approches permettant d’obtenir toujours des informations pertinentes :

  • Définissez les métriques que vous devez surveiller pour les machines physiques, les Virtuelles Maschinen, les applications, les Réseaux et les différentes appliances.
  • Vérifiez régulièrement vos métriques de performance et les journaux surveillés.
  • Vérifiez de manière périodique les indicateurs surveillés et apportez des modifications à la surveillance informatique si nécessaire.

Configurez l’accès aux tableaux de bord appropriés

Les logiciels de surveillance informatique collectent généralement des données et affichent les informations dans une vue optimisée dans l’interface Web. Une interface Web contient généralement des tableaux de bord avec des informations visualisées. Un administrateur système et les utilisateurs autorisés peuvent ouvrir l’interface Web et consulter des informations récapitulatives, des graphiques, des statistiques et d’autres données pour l’ensemble de l’infrastructure et pour des serveurs, des appliances et des applications particuliers.

Définissez qui doit pouvoir afficher les données de surveillance. Accordez aux utilisateurs l’accès uniquement à ce dont ils ont besoin pour exercer leurs responsabilités, en suivant le principe du moindre privilège. Configurez des tableaux de bord personnalisés pour différents groupes d’utilisateurs, par exemple :

  • Les programmeurs peuvent surveiller les serveurs de bases de données, les serveurs d’applications, les serveurs web et les clusters Kubernetes qu’ils utilisent.
  • Les testeurs peuvent surveiller les serveurs et les VMs utilisés pour les tests.
  • Les administrateurs système peuvent surveiller tous les éléments.
  • Les responsables commerciaux peuvent avoir besoin d’afficher des informations sur le système CRM.

Configurer des alertes/notifications automatisées

Les administrateurs et les utilisateurs peuvent consulter les données de surveillance à la demande dans les tableaux de bord fournis. Il s’agit d’une option utile, mais comment être informé immédiatement du problème ? Les administrateurs ne peuvent pas passer toute la journée à surveiller les statistiques. C’est pourquoi la plupart des outils de surveillance informatique permettent aux administrateurs de configurer des notifications automatiques envoyées par e-mail, Skype, SMS, etc. Les administrateurs peuvent configurer des déclencheurs basés sur des événements spécifiques pour envoyer des notifications à la destination choisie.

Les alertes peuvent être classées par ordre de priorité : les alertes les plus critiques doivent être envoyées avec un délai minimal, tandis que les autres alertes peuvent être envoyées avec un délai de quelques minutes. Par exemple, si un hôte se déconnecte, un message de notification est envoyé dans les deux minutes à un groupe de messagerie électronique ou à un groupe Skype dont les membres sont des administrateurs, des utilisateurs avancés et des chefs d’équipe. Si un serveur est à nouveau en ligne, le message de notification approprié est envoyé au groupe. Vous pouvez également définir des alertes pour l’espace disque insuffisant, la surcharge du processeur et la mémoire insuffisante sur les serveurs. Si le périphérique réseau dispose de la fonctionnalité appropriée, vous pouvez même configurer des notifications concernant le faible niveau de toner dans une cartouche de l’imprimante réseau. Cela peut être utile si les utilisateurs impriment toujours des pages importantes et que vous souhaitez éviter d’oublier de vérifier si les cartouches sont pleines dans l’inventaire.

Les bonnes pratiques en matière de surveillance de l’infrastructure recommandent de configurer l’envoi de notifications automatiques uniquement pour les paramètres nécessaires. Si vous configurez l’envoi de notifications pour tous les problèmes, il sera difficile de traiter les informations reçues.

Définissez le seuil pour les notifications

Configurez les seuils pour afficher et envoyer des notifications. Si vous configurez le système pour envoyer immédiatement les notifications, vous risquez de recevoir de nombreux messages d’alerte en cas de pics de performances du processeur de courte durée, de périodes brèves de « réseau inaccessible » causées par une surcharge du serveur, etc. Configurez un seuil adéquat pour réagir à temps et minimiser le flux de notifications. Une configuration correcte du seuil réduit la probabilité de déclenchement de faux positifs.

Lorsque vous configurez un logiciel de surveillance du système, définissez des intervalles adéquats pour collecter les données et générer des rapports. Si l’intervalle de génération des rapports est trop court, les processus de génération des rapports et des graphiques dans les tableaux de bord peuvent interférer avec les processus principaux, et la charge du processeur augmente considérablement. Cela peut entraîner une surcharge et une défaillance du serveur de surveillance.

Marquer les priorités des notifications

Sans hiérarchisation des notifications, celles-ci s’affichent sous la forme d’un afflux de données non pertinentes. L’analyse de ces données pour trouver celles qui sont importantes prend du temps, n’est pas pratique et est inefficace. Configurer la solution de surveillance informatique pour n’afficher que ce dont vous avez besoin avec les priorités définies vous facilite la vie.

Différents problèmes peuvent survenir dans l’infrastructure informatique. Certains peuvent être critiques, d’autres non.

  • Exemples de problèmes critiques. Panne d’un serveur de contrôleur de domaine Active Directory, d’un serveur de base de données de production, d’un serveur ESXi exécutant des VMs critiques, statut S.M.A.R.T. défectueux d’un disque dur, espace disque insuffisant, température élevée du processeur, mémoire libre insuffisante, etc.
  • Exemples de problèmes modérés (priorité moyenne). Défaillance d’un serveur de test, d’une machine virtuelle de test, d’un outil de suivi des bogues, etc.
  • Exemples de problèmes légers (mineurs). Niveau de toner faible dans une imprimante, etc.

Les priorités peuvent varier d’une entreprise à l’autre, et vous devez les ajuster en fonction des conditions à remplir. Définissez la priorité pour différents types de problèmes s’il est possible de les afficher dans les tableaux de bord de surveillance et lors de l’envoi de notifications automatiques, par exemple :

  • [Critical] L’hôte 192.168.17.2 (DC01) est inaccessible depuis 5 minutes.
  • [Critical] La température du processeur est trop élevée (82 °C) sur l’hôte 192.168.17.89 (Ora12-prod).
  • [Critical] Espace disque insuffisant sur C: sur l’hôte 10.10.10.6 (FS-06).
  • [Moderate] La VM 10.10.10.35 (Oracle-test) sur l’hôte 192.168.17.22 (ESXi-22) est inaccessible depuis 5 minutes.
  • [Minor] Le niveau de toner est bas pour 192.168.17.8 (imprimante HP).

Les problèmes critiques sont urgents et les administrateurs doivent les résoudre dès que possible. Les problèmes mineurs peuvent attendre.

Testez le fonctionnement de la surveillance

Après avoir configuré un système de surveillance informatique, vous devez tester son fonctionnement et vérifier que les notifications sont envoyées correctement. N’attendez pas qu’une situation d’urgence réelle se présente et planifiez un test après avoir terminé la configuration. Après le test, vous devrez peut-être affiner votre système de surveillance informatique. Les tests vous permettent de vous assurer que la surveillance fonctionne comme prévu et de déterminer son efficacité.

Créez un plan d’action

Définissez la marche à suivre après avoir reçu des notifications en cas de problème. Vous devez disposer d’une solution rapide pour répondre aux problèmes critiques. Vous devez disposer d’un plan de reprise après sinistre et le suivre en cas de panne ou de perte de données afin d’assurer la continuité opérationnelle et la reprise après sinistre pour répondre aux RTO et RPOde votre organisation. Vous devez toujours disposer de sauvegardes prêtes à être utilisées pour la récupération des machines ou des données d’applications spécifiques.

Certains logiciels de surveillance sont dotés de fonctionnalités complètes de protection des données et de reprise après sinistre, comme la solution de surveillance informatique de NAKIVO. Les pannes de serveur et les pertes de données peuvent survenir dans tous les types d’environnements. La sauvegarde des données vous permet de protéger vos données, de les récupérer en cas de panne et de restaurer les charges de travail avec un fonctionnement normal en peu de temps. NAKIVO Backup & Replication est une solution universelle de protection des données qui prend en charge la sauvegarde des machines physiques Linux et Windows, des machines virtuelles VMware vSphere, des machines virtuelles Microsoft Hyper-V, Amazon EC2, Nutanix AHV et Microsoft 365.

1 Year of Free Data Protection: NAKIVO Backup & Replication

1 Year of Free Data Protection: NAKIVO Backup & Replication

Deploy in 2 minutes and protect virtual, cloud, physical and SaaS data. Backup, replication, instant recovery options.

Les gens qui ont consulté cet article ont également lu