Bewährte Best Practices für die Überwachung der IT-Infrastruktur
> <<> &
<>In kleinen Unternehmen mit wenigen Servern und Arbeitsstationen können Systemadministratoren auftretende Probleme in der Regel ohne spezielle Tools schnell identifizieren. Mit dem Wachstum eines Unternehmens steigt auch die Anzahl der Server und anderer Netzwerkgeräte. Und wenn etwas schief geht, muss ein Systemadministrator weiterhin in der Lage sein, das Problem schnell zu identifizieren, um schwerwiegende Probleme zu vermeiden.
Die manuelle Suche nach einem Problem in einer mittleren oder großen Infrastruktur kann kompliziert und zeitaufwändig sein. Glücklicherweise gibt es heute automatisierte IT-Infrastrukturüberwachung, die Administratoren dabei hilft, die Art und Ursache von Problemen so schnell wie möglich zu identifizieren. Diese Tools helfen Administratoren auch dabei, Probleme und Engpässe proaktiv zu verhindern, bevor sie auftreten, indem sie die Ressourcenzuweisung und den Echtzeitverbrauch überwachen.
In diesem Blogbeitrag wird erklärt, was IT-Infrastrukturüberwachung ist, warum Überwachungstools für Server und andere Netzwerkgeräte verwendet werden sollten und welche Best Practices zu befolgen sind.
Was ist IT-Infrastrukturüberwachung?
Infrastrukturüberwachung ist der Prozess der Verfolgung von Hardware- und Softwaremetriken in einer physischen oder virtuellen Umgebung, um die Effizienz zu verbessern und Prozesse zu optimieren. Dies geschieht durch die Erfassung und Analyse von Daten über die Verfügbarkeit, Leistung und Ressourcennutzung kritischer Hardware und Anwendungen.
Eine IT-Infrastruktur ist das zugrunde liegende Framework, das es Unternehmen ermöglicht, Dienstleistungen zu erbringen, Transaktionen durchzuführen, Informationen bereitzustellen, mit Kunden zu interagieren usw. Diese Infrastruktur besteht aus Rechenzentren, Anwendungen und Software, Netzwerken und Hardware wie Servern, Routern usw.
Arten und Methoden des IT Monitoring
Betrachten wir die beiden wichtigsten Ansätze für das IT Monitoring der IT-Infrastruktur.
- Agentbasierte Überwachung kann mithilfe von Client-Server-Software durchgeführt werden, indem Agenten auf jedem überwachten Rechner installiert werden. Diese Art von IT Monitoring erfordert die Installation der Serverkomponente der Systemüberwachungssoftware auf einem Server oder einer Virtuellen Maschine. Die Serversoftware speichert die gesammelten Daten in einer Datenbank und bietet eine Webschnittstelle, über die Administratoren und Benutzer die Systemüberwachungssoftware konfigurieren und die IT-Infrastruktur überwachen können.Ein Agent ist die Komponente des IT Monitoring, das auf dem Zielrechner installiert wird, von dem Daten gesammelt werden sollen. Der Agent kommuniziert über das Netzwerk mit dem Server und sendet die gesammelten Daten an den Überwachungsserver. Der Agent sollte mehrere Betriebssysteme unterstützen, um die IT-Infrastruktur besser abzudecken.
- Die agentenlose Überwachung kann mit serverseitiger Software und unterstützten Netzwerkprotokollen durchgeführt werden, ohne dass auf jedem überwachten Rechner Überwachungssoftware-Agenten installiert werden müssen. Sie kann für verschiedene Plattformen verwendet werden, was besonders nützlich ist, wenn Sie den Überwachungsagenten nicht installieren können (z. B. auf einem Switch oder Router).
IT Monitoring-Software kann die Verfügbarkeit von Diensten auf einem Remote-Host mithilfe der Protokolle ICMP, SSH, FTP, HTTP und DNS überprüfen, ohne dass ein Überwachungsagent auf dem Remote-Host installiert sein muss. Die Serverüberwachungssoftware versucht, über das definierte Protokoll auf den Zielhost zuzugreifen, und ermittelt anhand der Serverantwort den Status des benötigten Dienstes.
Zwei der verwendeten Protokolle sind:
- Simple Network Management Protocol (SNMP) wurde speziell für Überwachungsaufgaben entwickelt, ohne dass Überwachungsagenten auf Remote-Hosts installiert werden müssen. Der Remote-Host muss den entsprechenden SNMP-Dienst ausführen, um die Datenerfassung über SNMP von diesem überwachten Host zu unterstützen. SNMP arbeitet auf der Anwendungsschicht des OSI-Modells, und die neueste Version ist SNMPv3. Das SNMP-Protokoll wird in der Regel von Switches, Routern, Access Points, Firewalls, Netzwerkdruckern und anderen Geräten unterstützt, die mit dem Netzwerk verbunden sind. Jeder Objektbezeichner ist mit dem entsprechenden Parameter verknüpft, z. B. empfangene Bytes, gesendete Bytes, CPU-Temperatur, Tonerstand in der Druckerpatrone usw. Objektbezeichner werden anhand einer hierarchischen (baumartigen) Struktur nummeriert. Beispielsweise ist 1.3.6.1.4.1.343.2.19.1.2.10.206.1.1.16 der Bezeichner für den Temperatursensor von Intel-Hardware.
Beachten Sie, dass ein SNMP-Agent nicht mit einem Überwachungsagenten einer Systemüberwachungssoftware identisch ist.
- Windows Management Instrumentation (WMI) ist ein proprietäres Netzwerkprotokoll von Microsoft, das entwickelt wurde, um Windows-basierte Systeme ohne Installation von Agenten zu überwachen. Das Überwachungstool sendet eine WMI-Abfrage an einen überwachten Host und liest dann die zurückgegebenen Daten.
IT Monitoring für virtualisierte Systeme
Die Überwachung von VMs und Containern hat ihre eigenen Funktionen, die berücksichtigt werden sollten, um die gewünschten Ergebnisse zu erzielen.
VM-Überwachung. Verwenden Sie für virtuelle Maschinen agentenlose Überwachungssoftwarelösungen mit VMware-APIs, um die Leistung und Effizienz von VMware ESXi-Hosts, vCenter-Servern und virtuellen Maschinen zu verfolgen. Zu den Überwachungsmetriken gehören CPU, Speicher, Speicherplatz und Netzwerknutzung. Mit diesem Ansatz vermeiden Sie Overheads im Vergleich zu der Methode, bei der Überwachungsagenten auf VMs installiert werden.
Die Überwachung von Containern ist im Vergleich zur Überwachung herkömmlicher Server und Virtuelle Maschinenschwierig. Das liegt daran, dass Container schnell bereitgestellt/gelöscht werden und sich Ressourcen teilen, was es schwierig macht, die verbrauchten Ressourcen eines Hosts zu messen. Die Bereitstellung von N Agenten in N Containern ist nicht sinnvoll. Genau wie VMs können Container über spezielle APIs überwacht werden.
Die Docker-Statistik-API ist ein nativer Mechanismus, der mit Docker-Containern bereitgestellt wird, um diese zu überwachen. Die Hauptidee der Containerüberwachung besteht darin, containerisierte Anwendungen der Microservice-Architektur zu überwachen, die in Containern ausgeführt werden.
IT-Infrastrukturüberwachung: Komponenten
Sehen wir uns verschiedene Komponenten an, die mit IT-Infrastrukturüberwachung überwacht werden können, um mehr zu erfahren. Diese Klassifizierung der überwachten Komponenten ist bedingt, da sie sich überschneiden können.
- Hardwareüberwachung für CPU-Temperatur, HDD-Temperatur, HDD-S.M.A.R.T.-Status, Daten zur Akkulaufzeit, Spannung usw. Freier Speicher, Festplattenspeicher, Festplattenaktivität und Swap-Datei-Nutzung.
- Netzwerküberwachung für Datenübertragungsraten auf verschiedenen Netzwerkschnittstellen, die Anzahl der verbundenen Benutzer (nützlich für VPN-Verbindungen), Netzwerkverbindungen, Firewalls, TCP- und UDP-Verbindungen (zur Erkennung von Malware) usw. Dies kann Ihnen helfen, Netzwerküberlastungen, niedrige Datenübertragungsgeschwindigkeiten und unbefugte Zugriffsversuche auf das Netzwerk zu erkennen.
- Anwendungsüberwachung zum Überprüfen von Anwendungsprotokollen, einschließlich Betriebssystemprotokollen, zum Erkennen von Fehlercodes und zur Anzeige aggregierter Informationen in der Weboberfläche oder zum Senden von Benachrichtigungen an Administratoren. Die Anwendungsüberwachung kann den CPU- und Speicherverbrauch einer Anwendung umfassen.
- Sicherheitsüberwachung zum Erkennen von Problemen in der Sicherheit und zum Beheben von Software-Schwachstellen, offenen Ports und unerwünschten Berechtigungen, die für Angriffe auf Ihre Umgebung genutzt werden könnten.
- Überwachung kritischer Aktivitäten zur Erkennung unbefugter Anmeldeversuche an einem System, Änderungen an Dateien usw. Die Überwachung von Dateien und Ordnern hilft Ihnen, ungewöhnliche Aktivitäten durch Ransomware zu erkennen und schnell zu reagieren, um Datenverluste zu vermeiden.
- Überwachung der Betriebszeit um festzustellen, ob ein Host ausgeschaltet wurde, auch wenn dies niemand bemerkt hat (z. B. wenn ein Server nachts außerhalb der Arbeitszeiten nach der Installation automatischer Updates oder nach einem Stromausfall neu gestartet wurde). Je länger der Host ohne Neustart ordnungsgemäß funktioniert, desto zuverlässiger und stabiler ist das System.
Best Practices für die Überwachung der IT-Infrastruktur
Befolgen Sie diese Best Practices für die Infrastrukturüberwachung, um eine maximale Überwachungseffizienz zu erzielen. Mit einem klaren Verständnis der Implementierung des IT Monitoring können Sie Ausfallrisiken mindern und effektiver auf Probleme reagieren, bevor Benutzer die negativen Auswirkungen ausgefallener Dienste und Anwendungen spüren.
Wählen Sie die richtige Überwachungslösung
Um die richtige Überwachungslösung für die Anforderungen Ihres Unternehmens auszuwählen, bestimmen Sie, welche Komponenten in Ihrer IT-Infrastruktur überwacht werden müssen. Kategorisieren Sie dazu Hardware, Systeme und Anwendungen danach, wie wichtig sie für den Geschäftsbetrieb sind.
Anschließend können Sie Ihre Überwachungsstrategie festlegen und die optimale Software für die Überwachung Ihrer IT-Infrastruktur auswählen. Ihre Strategie umfasst die zu überwachende Hardware und Software, die zu überwachenden Metriken, die Überwachungstiefe und die Vorgehensweise bei auftretenden Problemen. Wählen Sie anhand dieser Parameter die Überwachungssoftware aus, die Ihren Anforderungen entspricht.
Wenn Sie VMware-VMs auf ESXi-Hosts überwachen müssen, wählen Sie eine Lösung, die auf VM-Ebene auf Hypervisoren zugreift, anstatt Agenten auf dem Gastbetriebssystem zu installieren. Eine universelle Unternehmensüberwachungssoftware kombiniert Agenten zur Überwachung physischer Maschinen und Virtualisierungs-APIs zur Überwachung von ESXi-Hosts und VMs. Eine solche Überwachungssoftware kann Protokolle wie SNMP zur Überwachung von Netzwerkgeräten und anderen Geräten verwenden und spezielle APIs zur Überwachung von Elementen in den AWS- und Azure-Clouds einsetzen.
Sammeln Sie relevante Metriken
Best Practices für IT Monitoring empfehlen Ansätze, um immer relevante Informationen zu erhalten:
- Definieren Sie, welche Metriken Sie für physische Maschinen, Virtuelle Maschinen, Anwendungen, Netzwerke und verschiedene Geräte überwachen müssen.
- Überprüfen Sie periodisch Ihre Kennzahlen zur Leistung und überwachten Protokolle.
- Überprüfen Sie periodisch Ihre überwachten Kennzahlen und nehmen Sie gegebenenfalls Änderungen am IT Monitoring der Infrastruktur vor.
Konfigurieren Sie den Zugriff auf die richtigen Dashboards
IT Monitoring-Software sammelt in der Regel Daten und zeigt Informationen in einer optimierten Anzeige in der Weboberfläche an. Eine Weboberfläche enthält in der Regel Dashboards mit gesammelten visualisierten Informationen. Ein Systemadministrator und autorisierte Benutzer können die Weboberfläche öffnen und zusammenfassende Informationen, Grafiken, Statistiken und andere Daten für die gesamte Infrastruktur und bestimmte Server, Geräte und Anwendungen überprüfen.
Legen Sie fest, wer die Überwachungsdaten ansehen darf. Gewähren Sie Benutzern nur Zugriff auf die Überwachung der Daten, die sie zur Erfüllung ihrer Aufgaben benötigen, und befolgen Sie dabei das Prinzip der geringsten Privilegien. Konfigurieren Sie benutzerdefinierte Dashboards für verschiedene Gruppen von Benutzern, zum Beispiel:
- Programmierer können Datenbankserver, Anwendungsserver, Webserver und die von ihnen verwendeten Kubernetes-Cluster überwachen.
- Tester können Server und VMs überwachen, die für Tests verwendet werden.
- Systemadministratoren können alle Elemente überwachen.
- Vertriebsleiter müssen möglicherweise Informationen über das CRM-System ansehen.
Automatische Warnmeldungen/Benachrichtigungen konfigurieren
Administratoren und Benutzer können die Überwachungsdaten bei Bedarf in den bereitgestellten Dashboards ansehen. Dies ist eine nützliche Option, aber wie können Sie sofort über das Problem informiert werden? Administratoren können nicht den ganzen Tag damit verbringen, Statistiken zu überwachen. Aus diesem Grund ermöglichen die meisten IT-Überwachungstools Administratoren die Konfiguration automatischer Benachrichtigungen, die per E-Mail, Skype, SMS usw. versendet werden. Administratoren können Trigger basierend auf bestimmten Ereignissen konfigurieren, um Benachrichtigungen an das gewählte Ziel zu senden.
Warnmeldungen können priorisiert werden: Die kritischsten Warnmeldungen sollten mit minimaler Verzögerung versendet werden, während andere Warnmeldungen mit einer Verzögerung von einigen Minuten versendet werden können. Wenn beispielsweise ein Host offline geht, wird innerhalb von zwei Minuten eine Benachrichtigung an eine E-Mail-Gruppe oder eine Skype-Gruppe gesendet, deren Mitglieder Administratoren, fortgeschrittene Benutzer und Teamleiter sind. Wenn ein Server wieder online ist, wird eine entsprechende Benachrichtigung an die Gruppe gesendet. Sie können auch Warnmeldungen für geringen Speicherplatz, CPU-Überlastung und unzureichenden Arbeitsspeicher auf Servern einrichten. Wenn das Netzwerkgerät über die entsprechende Funktionalität verfügt, können Sie sogar Benachrichtigungen über den niedrigen Tonerstand in einer Patrone im Netzwerkdrucker konfigurieren. Dies kann nützlich sein, wenn Benutzer immer wichtige Seiten drucken und Sie vermeiden möchten, dass vergessen wird, zu überprüfen, ob sich volle Patronen im Inventar befinden.
Die Best Practices für die Infrastrukturüberwachung empfehlen, dass Sie das Senden automatischer Benachrichtigungen nur für die erforderlichen Parameter konfigurieren. Wenn Sie Benachrichtigungen für alle Probleme konfigurieren, wird es schwierig, die empfangenen Informationen zu verarbeiten.
Legen Sie den Schwellenwert für Benachrichtigungen fest
Konfigurieren Sie Schwellenwerte für die Anzeige und den Versand von Benachrichtigungen. Wenn Sie die sofortige Benachrichtigung konfigurieren, werden Ihnen bei kurzen CPU-Leistungsspitzen, kurzen Zeiträumen mit „nicht erreichbaren” Netzwerken aufgrund von Serverüberlastung usw. viele Warnmeldungen angezeigt. Konfigurieren Sie einen angemessenen Schwellenwert, um rechtzeitig reagieren zu können und die Flut von Benachrichtigungen zu minimieren. Durch die richtige Konfiguration des Schwellenwerts wird die Wahrscheinlichkeit von Fehlalarmen verringert.
Wenn Sie die Systemüberwachungssoftware konfigurieren, legen Sie angemessene Intervalle für die Datenerfassung und die Erstellung von Berichten fest. Wenn das Intervall für die Erstellung eines Berichts zu kurz ist, können die Prozesse zur Erstellung von Berichten und Grafiken in Dashboards die Kernprozesse beeinträchtigen und die CPU-Auslastung erheblich erhöhen. Dies kann zu einer Überlastung und einem Ausfall des Überwachungsservers führen.
Benachrichtigungsprioritäten markieren
Ohne Priorisierung der Benachrichtigungen werden diese als irrelevante Datenflut angezeigt. Das Parsen dieser Daten, um die wichtigen Daten zu finden, ist zeitaufwändig, unpraktisch und ineffizient. Die Konfiguration der IT-Infrastruktur-Überwachungslösung, sodass nur das angezeigt wird, was Sie benötigen, und zwar mit den festgelegten Prioritäten, macht das Leben einfacher.
In der IT-Infrastruktur können verschiedene Probleme auftreten. Einige davon können kritisch sein, andere nicht.
- Beispiele für kritische Probleme. Ausfall eines Active Directory-Domänencontrollerservers, eines Produktionsdatenbankservers, eines ESXi-Servers, auf dem geschäftskritische VMs ausgeführt werden, schlechter S.M.A.R.T.-Status einer Festplatte, geringer Festplattenspeicherplatz, hohe CPU-Temperatur, unzureichender freier Speicher usw.
- Beispiele für moderate (mittlere Priorität) Probleme. Ausfall eines Test-Servers, einer Test-VM, eines Bug-Trackers usw.
- Beispiele für leichte (geringfügige) Probleme. Niedriger Tonerstand in einem Drucker usw.
Die Prioritäten können je nach Unternehmen unterschiedlich sein und sollten entsprechend Ihren Anforderungen angepasst werden. Legen Sie die Priorität für verschiedene Problemtypen fest, wenn diese in Überwachungs-Dashboards angezeigt werden können und wenn automatische Benachrichtigungen gesendet werden, zum Beispiel:
- [Critical] Host 192.168.17.2 (DC01) ist seit 5 Minuten nicht erreichbar.
- [Critical] Die CPU-Temperatur ist auf Host 192.168.17.89 (Ora12-prod) zu hoch (82 °C).
- [Critical] Geringer Speicherplatz auf C: auf Host 10.10.10.6 (FS-06).
- [Moderate] VM 10.10.10.35 (Oracle-Test) auf Host 192.168.17.22 (ESXi-22) ist seit 5 Minuten nicht erreichbar.
- [Minor] Der Tonerstand für 192.168.17.8 (HP-Drucker) ist niedrig..
Die kritischen Probleme sind dringend und sollten von Administratoren so schnell wie möglich behoben werden. Die weniger dringenden Probleme können warten.
Testen Sie die Funktionsweise der Überwachung
Nach dem Fertigstellen der Konfiguration des Systems zur Überwachung der IT-Infrastruktur müssen Sie testen, wie dieses System funktioniert und ob Benachrichtigungen ordnungsgemäß versendet werden. Warten Sie nicht auf eine echte Notfallsituation, sondern planen Sie nach dem Fertigstellen der Konfiguration einen Testlauf ein. Nach dem Testlauf müssen Sie Ihr IT-Monitoring-System möglicherweise noch feinabstimmen. Durch das Testen können Sie sicherstellen, dass das IT-Monitoring wie erwartet funktioniert, und seine Effizienz bestimmen.
Erstellen Sie einen Reaktionsplan
Legen Sie fest, was nach dem Erhalt von Benachrichtigungen zu tun ist, wenn Probleme auftreten. Sie sollten eine schnelle Lösung parat haben, wie Sie auf kritische Probleme reagieren können. Sie benötigen einen Disaster Recovery-Plan und müssen diesen Plan im Falle von Ausfällen oder Datenverlusten befolgen, um die Betriebskontinuität und die Disaster Recovery sicherzustellen und die RTOs ( <)>, RTOs (<) und RPOs ()>Ihrer Organisation zu erfüllen. Sie müssen immer Backups für die Wiederherstellung von Maschinen oder bestimmten Anwendungsdaten bereit halten.
Einige Überwachungssoftwareprogramme verfügen über umfassende Funktionen zur Datensicherheit und zur Disaster Recovery, wie beispielsweise die IT Monitoring-Lösung von NAKIVO. Serverausfälle und Datenverluste können in allen Arten von Umgebungen auftreten.