Najlepsze rozwiązania w zakresie monitorowania infrastruktury IT

W małych firmach, dysponujących niewielką liczbą serwerów i stacji roboczych, administratorzy systemów zazwyczaj potrafią szybko zidentyfikować wszelkie pojawiające się problemy bez użycia specjalistycznych narzędzi. Wraz z rozwojem firmy rośnie liczba serwerów i innych urządzeń sieciowych. A jeśli coś pójdzie nie tak, administrator systemu musi nadal być w stanie szybko zidentyfikować problem, aby zapobiec poważnym komplikacjom.

Ręczne poszukiwanie usterki w średniej lub dużej infrastrukturze może być skomplikowane i czasochłonne. Na szczęście obecnie powszechnie dostępne są rozwiązania do automatycznego monitorowania infrastruktury IT, które pomagają administratorom jak najszybciej zidentyfikować rodzaj i źródło problemów. Narzędzia te pomagają również administratorom proaktywnie zapobiegać problemom i wąskim gardłom, zanim one wystąpią, poprzez monitorowanie alokacji zasobów i ich zużycia w czasie rzeczywistym.

W tym wpisie na blogu wyjaśniamy, czym jest monitorowanie infrastruktury IT, dlaczego warto korzystać z narzędzi do monitorowania serwerów i innych urządzeń sieciowych oraz jakie najlepsze rozwiązania należy stosować.

Proaktywne monitorowanie VMware od firmy NAKIVO

Proaktywne monitorowanie VMware od firmy NAKIVO

Monitoruj kluczowe metryki VMware vSphere, aby usprawnić planowanie wydajności i eliminować wąskie gardła, zanim staną się problemem.

Czym jest monitorowanie infrastruktury IT?

Monitorowanie infrastruktury to proces śledzenia wskaźników sprzętowych i programowych w środowisku fizycznym lub wirtualnym w celu poprawy wydajności i optymalizacji procesów. Odbywa się to poprzez gromadzenie i analizę danych dotyczących dostępności, wydajności oraz wykorzystania zasobów przez kluczowy sprzęt i aplikacje.

Infrastruktura IT to podstawowa struktura, która pozwala firmom świadczyć usługi, przeprowadzać transakcje, dostarczać informacje, wchodzić w interakcje z klientami itp. Infrastruktura ta składa się z centrów danych, aplikacji i oprogramowania, sieci oraz sprzętu, takiego jak serwery, routery itp.

Rodzaje i metody monitorowania IT

Przyjrzyjmy się dwóm głównym podejściom do monitorowania infrastruktury IT.

  • Monitorowanie oparte na agentach można realizować za pomocą oprogramowania typu klient-serwer poprzez zainstalowanie agentów na każdym monitorowanym komputerze. Tego typu narzędzia do monitorowania IT wymagają zainstalowania komponentu serwerowego oprogramowania do monitorowania systemu na serwerze lub maszynie wirtualnej. Oprogramowanie serwerowe rejestruje zebrane dane w bazie danych i udostępnia interfejs internetowy dla administratorów i użytkowników, umożliwiający konfigurację oprogramowania do monitorowania systemu oraz monitorowanie infrastruktury IT. Agent to komponent oprogramowania do monitorowania IT, który jest instalowany na komputerze docelowym, z którego należy zbierać dane. Agent komunikuje się z serwerem przez sieć i wysyła zebrane dane do serwera monitorującego. Agent powinien obsługiwać wiele systemów operacyjnych, aby lepiej obejmować infrastrukturę IT.
  • Monitorowanie bezagentowe można przeprowadzać przy użyciu oprogramowania po stronie serwera i obsługiwanych protokołów sieciowych bez instalowania agentów oprogramowania monitorującego na każdym monitorowanym komputerze. Można je stosować na różnych platformach, co jest szczególnie przydatne, jeśli nie można zainstalować agenta monitorującego (na przykład na przełączniku lub routerze).

Oprogramowanie do monitorowania IT może sprawdzać dostępność usług na zdalnym hoście przy użyciu protokołów ICMP, SSH, FTP, HTTP i DNS bez instalowania agenta monitorującego na zdalnym hoście. Oprogramowanie do monitorowania serwerów próbuje uzyskać dostęp do hosta docelowego za pośrednictwem zdefiniowanego protokołu i w zależności od odpowiedzi serwera określa stan potrzebnej usługi.

Dwa z używanych protokołów to:

  • Simple Network Management Protocol (SNMP) został opracowany specjalnie do zadań monitorowania bez instalowania agentów monitorujących na zdalnych hostach. Zdalny host musi uruchamiać odpowiednią usługę SNMP, aby umożliwić gromadzenie danych za pośrednictwem protokołu SNMP z tego monitorowanego hosta. Protokół SNMP działa w warstwie aplikacji modelu OSI, a jego najnowsza wersja to SNMPv3. Protokół SNMP jest zazwyczaj obsługiwany przez przełączniki, routery, punkty dostępowe, zapory sieciowe, drukarki sieciowe i inne urządzenia podłączone do sieci. Każdy identyfikator obiektu jest powiązany z odpowiednim parametrem, takim jak odebrane bajty, przesłane bajty, temperatura Procesora, poziom tonera w kasecie drukarki itp. Identyfikatory obiektów są numerowane przy użyciu struktury hierarchicznej (drzewiastej). Na przykład 1.3.6.1.4.1.343.2.19.1.2.10.206.1.1.16 to identyfikator czujnika temperatury sprzętu firmy Intel.

    Należy pamiętać, że agent SNMP to nie to samo, co agent monitorujący oprogramowania do monitorowania systemu.

  • Windows Management Instrumentation (WMI) to zastrzeżony protokół sieciowy firmy Microsoft opracowany w celu monitorowania systemów opartych na systemie Windows bez instalowania agentów. Narzędzie monitorujące wysyła zapytanie WMI do monitorowanego hosta, a następnie odczytuje zwrócone dane.

Monitorowanie IT dla systemów wirtualnych

Monitorowanie maszyn wirtualnych i kontenerów ma swoje specyficzne funkcje, które należy wziąć pod uwagę, aby osiągnąć pożądane wyniki.

Monitorowanie maszyn wirtualnych. W przypadku maszyn wirtualnych należy stosować rozwiązania oprogramowania do monitorowania bezagentowego wykorzystujące interfejsy API VMware do śledzenia wydajności i efektywności hostów ESXi, serwerów vCenter oraz maszyn wirtualnych. Wskaźniki monitorowania obejmują wykorzystanie procesora, pamięci, pamięci magazynowej i sieci. Takie podejście pozwala uniknąć obciążenia w porównaniu z metodą, w której agenci monitorujący są instalowani na maszynach wirtualnych.

Monitorowanie kontenerów jest trudniejsze w porównaniu z monitorowaniem tradycyjne serwery i maszyny wirtualne. Wynika to z faktu, że kontenery są szybko tworzone/usuwane i współdzielą zasoby, co utrudnia pomiar zasobów zużywanych przez host. Wdrażanie N agentów w N kontenerach nie jest racjonalne. Podobnie jak maszyny wirtualne, kontenery można monitorować za pomocą specjalnych interfejsów API.

Interfejs API statystyk Docker to natywny mechanizm dostarczany wraz z kontenerami Docker w celu ich monitorowania. Główną ideą monitorowania kontenerów jest monitorowanie aplikacji kontenerowych o architekturze mikrousługowej działających w kontenerach.

Monitorowanie infrastruktury IT: komponenty

Przyjrzyjmy się różnym komponentom, które można śledzić za pomocą Monitorowanie infrastruktury IT , aby dowiedzieć się więcej. Ta klasyfikacja monitorowanych komponentów jest warunkowa, ponieważ mogą one się ze sobą pokrywać.

  • Monitorowanie sprzętu obejmujące temperaturę procesora, temperaturę dysku twardego, stan S.M.A.R.T. dysku twardego, dane dotyczące żywotności baterii, napięcie itp., a także ilość wolnej pamięci, miejsce na dysku, aktywność dysku oraz wykorzystanie plików wymiany.
  • Monitorowanie sieci obejmujące prędkość transferu danych na różnych interfejsach sieciowych, liczbę podłączonych użytkowników (przydatne w przypadku połączeń VPN), połączenia sieciowe, zapory sieciowe, połączenia TCP i UDP (w celu wykrywania złośliwego oprogramowania) itp. Może pomóc w wykryciu przeciążenia sieci, niskiej prędkości transferu danych oraz nieautoryzowanych prób uzyskania dostępu do sieci.
  • Monitorowanie aplikacji w celu sprawdzania logów aplikacji, w tym logów systemu operacyjnego, wykrywania kodów błędów oraz wyświetlania zagregowanych informacji w interfejsie internetowym lub wysyłania powiadomień do administratorów. Monitorowanie aplikacji może obejmować zużycie Procesora i pamięci przez aplikację.
  • Monitorowanie bezpieczeństwa w celu wykrywania problemów związanych z bezpieczeństwem oraz eliminowania luk w oprogramowaniu, otwartych portów i niepożądanych uprawnień, które mogą zostać wykorzystane do zainicjowania ataków w Państwa środowisku.
  • Monitorowanie krytycznych działań w celu wykrywania nieautoryzowanych prób logowania do systemu, modyfikacji plików itp. Monitorowanie plików i folderów pomaga wykrywać nietypowe działania spowodowane przez oprogramowanie wymuszające okup i szybko reagować, aby uniknąć utraty danych.
  • Monitorowanie czasu pracy w celu wykrycia, czy host został wyłączony, nawet jeśli nikt tego nie zauważył (na przykład serwer został zrestartowany w nocy poza godzinami pracy po zainstalowaniu automatycznych aktualizacji lub po awarii zasilania). Im dłużej host działa poprawnie bez ponownego uruchamiania, tym bardziej niezawodny i stabilny jest system.

Najlepsze rozwiązania w zakresie monitorowania infrastruktury IT

Aby osiągnąć maksymalną wydajność monitorowania, należy stosować się do tych najlepszych rozwiązań w zakresie monitorowania infrastruktury. Dzięki jasnemu zrozumieniu sposobu wdrażania monitorowania IT można ograniczyć ryzyko przestojów i skuteczniej reagować na problemy, zanim użytkownicy odczują negatywny wpływ awarii usług i aplikacji.

Wybierz odpowiednie rozwiązanie do monitorowania

Aby wybrać rozwiązanie do monitorowania odpowiednie dla potrzeb Twojej organizacji, określ, które elementy infrastruktury IT wymagają monitorowania. W tym celu sklasyfikuj sprzęt, systemy i aplikacje według ich znaczenia dla działalności firmy.

Następnie możesz przejść do definiowania strategii monitorowania i wyboru optymalnego oprogramowania do monitorowania infrastruktury IT. Twoja strategia powinna obejmować sprzęt i oprogramowanie do monitorowania, wskaźniki, które należy monitorować, zakres monitorowania oraz sposób reagowania w razie wystąpienia problemów. W zależności od tych parametrów wybierz oprogramowanie do monitorowania, które spełnia Twoje wymagania.

Jeśli chcesz monitorować maszyny wirtualne VMware na hostach ESXi, wybierz rozwiązanie, które uzyskuje dostęp do maszyn wirtualnych na poziomie hiperwizora, zamiast instalować agenty w systemie operacyjnym gościa. Uniwersalne oprogramowanie do monitorowania przedsiębiorstwa będzie łączyć agenty do monitorowania maszyn fizycznych oraz interfejsy API wirtualizacji do monitorowania hostów hiperwizora i maszyn wirtualnych. Takie oprogramowanie do monitorowania może wykorzystywać protokoły takie jak SNMP do monitorowania urządzeń sieciowych i innego sprzętu oraz specjalne interfejsy API do monitorowania elementów w chmurach AWS i Azure.

Zbieraj odpowiednie wskaźniki

Najlepsze rozwiązania w zakresie monitorowania IT zalecają podejścia pozwalające zawsze uzyskać odpowiednie informacje:

  • Określ, które wskaźniki należy monitorować dla maszyn fizycznych, maszyn wirtualnych, aplikacji, sieci i różnych urządzeń.
  • Regularnie sprawdzaj wskaźniki wydajności i monitorowane logi.
  • Okresowo przeglądaj monitorowane wskaźniki i w razie potrzeby wprowadzaj zmiany w monitorowaniu infrastruktury IT.

Skonfiguruj dostęp do odpowiednich pulpitów nawigacyjnych

Oprogramowanie do monitorowania IT zazwyczaj gromadzi dane i wyświetla informacje w zoptymalizowanym widoku w interfejsie internetowym. Interfejs internetowy zazwyczaj zawiera pulpity nawigacyjne z zebranymi, zwizualizowanymi informacjami. Administrator systemu i uprawnieni użytkownicy mogą otworzyć interfejs internetowy i sprawdzić podsumowanie informacji, wykresy, statystyki oraz inne dane dotyczące całej infrastruktury oraz poszczególnych serwerów, urządzeń i aplikacji.

Określ, kto powinien mieć wgląd w dane monitorowania. Przyznaj użytkownikom dostęp do monitorowania tylko tych elementów, które są im niezbędne do wykonywania obowiązków, zgodnie z zasadą minimalnych uprawnień. Skonfiguruj niestandardowe pulpity nawigacyjne dla różnych grup użytkowników, na przykład:

  • Programiści mogą monitorować serwery baz danych, serwery aplikacji, serwery WWW oraz klastry Kubernetes, z których korzystają.
  • Testerzy mogą monitorować serwery i maszyny wirtualne używane do testowania.
  • Administratorzy systemu mogą monitorować wszystkie elementy.
  • Kierownicy sprzedaży mogą potrzebować wglądu w informacje dotyczące systemu CRM.

Skonfiguruj automatyczne alerty/powiadomienia

Administratorzy i użytkownicy mogą sprawdzać dane monitorowania na żądanie w udostępnionych pulpitach nawigacyjnych. To przydatna opcja, ale jak można uzyskać natychmiastową informację o problemie? Administratorzy nie mogą spędzać całego dnia na monitorowaniu statystyk. Z tego powodu większość narzędzi do monitorowania IT umożliwia administratorom skonfigurowanie automatycznych powiadomień wysyłanych za pośrednictwem e-maila, Skype’a, SMS-ów itp. Administratorzy mogą skonfigurować wyzwalacze oparte na konkretnych zdarzeniach, aby wysyłać powiadomienia do wybranych odbiorców.

Alerty można uszeregować według priorytetów: najbardziej krytyczne alerty powinny mieć minimalne opóźnienie, podczas gdy inne alerty mogą być wysyłane z opóźnieniem wynoszącym kilka minut. Na przykład, jeśli host przestaje działać, w ciągu dwóch minut wysyłana jest wiadomość powiadamiająca do grupy e-mailowej lub grupy Skype, której członkami są administratorzy, zaawansowani użytkownicy i kierownicy zespołów. Jeśli serwer znów jest online, do grupy wysyłana jest odpowiednia wiadomość powiadamiająca. Można również ustawić alerty dotyczące niskiego poziomu miejsca na dysku, przeciążenia Procesora i niewystarczającej pamięci na serwerach. Jeśli urządzenie sieciowe posiada odpowiednią funkcję, można nawet skonfigurować powiadomienia o niskim poziomie tonera w kasecie drukarki sieciowej. Może to być przydatne, jeśli użytkownicy często drukują ważne dokumenty, a chcesz uniknąć zapomnienia o sprawdzeniu, czy w magazynie są pełne kasety.

Najlepsze rozwiązania monitorowania infrastruktury zalecają skonfigurowanie wysyłania automatycznych powiadomień tylko dla niezbędnych parametrów. Jeśli skonfigurujesz wysyłanie powiadomień o wszystkich problemach, trudno będzie obsłużyć otrzymane informacje.

Ustaw próg dla powiadomień

Skonfiguruj progi wyświetlania i wysyłania powiadomień. Jeśli skonfigurujesz natychmiastowe powiadomienia, możesz zobaczyć wiele komunikatów ostrzegawczych w przypadku krótkich skoków wydajności Procesora, krótkich okresów „niedostępności” sieci spowodowanych przeciążeniem serwera itp. Skonfiguruj odpowiedni próg, aby reagować na czas i zminimalizować zalew powiadomień. Właściwa konfiguracja progu zmniejsza prawdopodobieństwo wygenerowania fałszywie pozytywnego sygnału.

Podczas konfiguracji oprogramowania do monitorowania systemu należy ustawić odpowiednie interwały zbierania danych i generowania raportów. Jeśli interwał generowania raportów jest zbyt krótki, procesy tworzące raporty i wykresy w pulpitach nawigacyjnych mogą zakłócać działanie procesów podstawowych, a obciążenie Procesora znacznie wzrośnie. Może to spowodować przeciążenie i awarię serwera monitorującego.

Oznacz priorytety powiadomień

Bez ustalenia priorytetów powiadomienia są wyświetlane jako nieistotny zalew danych. Przeglądanie tych danych w poszukiwaniu istotnych informacji jest czasochłonne, niewygodne i nieefektywne. Skonfigurowanie rozwiązania do monitorowania infrastruktury IT tak, aby wyświetlało wyłącznie potrzebne informacje zgodnie z ustalonymi priorytetami, znacznie ułatwia pracę.

W infrastrukturze IT mogą wystąpić różne problemy. Niektóre z nich mogą być krytyczne, inne nie.

  • Przykłady problemów krytycznych . Awaria serwera kontrolera domeny Active Directory, produkcyjnego serwera bazy danych, serwera ESXi z maszynami wirtualnymi o znaczeniu krytycznym, zły stan S.M.A.R.T. dysku twardego, mało miejsca na dysku, wysoka temperatura Procesora, za mało wolnej pamięci itp.
  • Przykłady problemów o średnim priorytecie. Awaria serwera testowego, maszyny wirtualnej testowej, narzędzia do śledzenia błędów itp.
  • Przykłady problemów o niskim (drobnym) priorytecie. Niski poziom tonera w drukarce itp.

Priorytety mogą się różnić w zależności od firmy i należy je dostosować do własnych wymagań. Ustal priorytety dla różnych typów problemów, jeśli mają być wyświetlane na pulpitach monitorowania oraz przy wysyłaniu automatycznych powiadomień, na przykład:

  • [Critical] Host 192.168.17.2 (DC01) jest niedostępny od 5 minut.
  • [Critical] Temperatura Procesora jest zbyt wysoka (82 °C) na hoście 192.168.17.89 (Ora12-prod).
  • [Critical] Mało miejsca na dysku C: na hoście 10.10.10.6 (FS-06).
  • [Moderate] VM 10.10.10.35 (Oracle-test) na hoście 192.168.17.22 (ESXi-22) jest niedostępny od 5 minut.
  • [Minor] Niski poziom tonera dla urządzenia 192.168.17.8 (drukarka HP).

Problemy krytyczne są pilne i administratorzy powinni je jak najszybciej rozwiązać. Problemy mniej istotne mogą poczekać na reakcję.

Sprawdź, jak działa monitorowanie

Po skonfigurowaniu systemu monitorowania infrastruktury IT należy sprawdzić, jak ten system działa i czy powiadomienia są wysyłane prawidłowo. Nie czekaj na prawdziwą sytuację awaryjną i zaplanuj test po zakończeniu konfiguracji. Po przeprowadzeniu testu może być konieczne dopracowanie systemu monitorowania IT. Testowanie pozwala upewnić się, że monitorowanie działa zgodnie z oczekiwaniami, oraz określić jego skuteczność.

Stwórz plan działania

Określ, co należy zrobić po otrzymaniu powiadomień w przypadku wystąpienia problemów. Powinieneś mieć gotowe rozwiązanie dotyczące szybkiego reagowania na krytyczne problemy. Konieczne jest posiadanie planu odzyskiwania awaryjnego po awarii oraz stosowanie się do niego w przypadku awarii lub utraty danych, aby zapewnić ciągłość działania i odzyskiwanie awaryjne po awarii, co pozwoli spełnić wymagania organizacji określone w RTO oraz RPO. Należy zawsze dysponować gotowymi kopiami zapasowymi umożliwiającymi odzyskiwanie maszyn lub danych konkretnych aplikacji.

Niektóre programy do monitorowania oferują kompleksowe funkcje ochrony danych i odzyskiwania awaryjnego, jak na przykład rozwiązanie do monitorowania IT firmy NAKIVO. Awarie serwerów i utrata danych mogą wystąpić we wszystkich rodzajach środowisk. Tworzenie kopii zapasowych danych pozwala chronić dane, odzyskać je w razie awarii oraz przywrócić normalne działanie w krótkim czasie. NAKIVO Backup & Replication to uniwersalne rozwiązanie do ochrony danych, które obsługuje tworzenie kopii zapasowych fizycznych maszyn z systemami Linux i Windows, maszyn wirtualnych VMware vSphere, maszyn wirtualnych Microsoft Hyper-V, Amazon EC2, maszyn wirtualnych Nutanix AHV oraz Microsoft 365.

Roczny bezpłatny dostęp do usługi ochrony danych: NAKIVO Backup & Replication

Roczny bezpłatny dostęp do usługi ochrony danych: NAKIVO Backup & Replication

Wdrażanie w 2 minuty i ochrona danych w środowiskach wirtualnych, chmurowych, fizycznych oraz SaaS. Opcje tworzenia kopii zapasowych, replikacji i natychmiastowego odzyskiwania danych.

People also read