Procedure consigliate per il monitoraggio dell’infrastruttura IT

&

<>Nelle piccole aziende con pochi server e stazioni di lavoro, gli amministratori di sistema sono solitamente in grado di identificare rapidamente eventuali problemi senza bisogno di strumenti speciali. Man mano che un’azienda cresce, aumenta anche il numero di server e altri dispositivi di rete. E se qualcosa va storto, un amministratore di sistema deve comunque essere in grado di identificare rapidamente il problema per evitare gravi conseguenze.

Cercare manualmente un problema in un’infrastruttura di medie o grandi dimensioni può essere complicato e richiedere molto tempo. Fortunatamente, oggi è ampiamente disponibile il monitoraggio automatizzato dell’infrastruttura IT per aiutare gli amministratori a identificare il tipo e l’origine dei problemi il più rapidamente possibile. Questi strumenti aiutano anche gli amministratori a prevenire in modo proattivo i problemi e i colli di bottiglia prima che si verifichino, monitorando l’allocazione delle risorse e il consumo in tempo reale.

Questo post del blog spiega cos’è il monitoraggio IT, perché utilizzare strumenti di monitoraggio per server e altri dispositivi di rete e quali sono le procedure consigliate da seguire.

Proactive Monitoring for VMware Infrastructures from NAKIVO

Proactive Monitoring for VMware Infrastructures from NAKIVO

Monitor VMware vSphere key metrics to enhance capacity planning and resolve bottlenecks before they become an issue.

Che cos’è il monitoraggio dell’infrastruttura IT?

Il monitoraggio dell’infrastruttura è il processo di tracciamento delle metriche hardware e software in un ambiente fisico o virtuale per migliorare l’efficienza e ottimizzare i processi. Ciò avviene raccogliendo e analizzando i dati relativi alla disponibilità, alle prestazioni e all’utilizzo delle risorse di hardware e applicazioni critici.

Un’infrastruttura IT è la struttura sottostante che consente alle aziende di fornire servizi, eseguire transazioni, fornire informazioni, interagire con i clienti, ecc. Questa infrastruttura è composta da data center, applicazioni e software, reti e hardware come server, router, ecc.

Tipi e metodi di monitoraggio IT

Esaminiamo i due approcci principali al monitoraggio dell’infrastruttura IT.

  • Il monitoraggio basato su agenti può essere effettuato utilizzando un software client-server installando agenti su ciascuna macchina monitorata. Questo tipo di strumenti di monitoraggio IT richiede l’installazione del componente server del software di monitoraggio del sistema su un server o una VM. Il software server registra i dati raccolti in un database e fornisce un’interfaccia web per amministratori e utenti per configurare il software di monitoraggio del sistema e monitorare l’infrastruttura IT.Un agente è il componente del software di Monitoraggio IT che viene installato sulla macchina di destinazione da cui devono essere raccolti i dati. L’agente interagisce con il server tramite la rete e invia i dati raccolti al server di monitoraggio. L’agente dovrebbe supportare più sistemi operativi per coprire meglio l’infrastruttura IT.
  • Il monitoraggio senza agenti può essere effettuato utilizzando software lato server e protocolli di rete supportati senza installare agenti software di monitoraggio su ogni macchina monitorata. Può essere utilizzato per diverse piattaforme, il che è particolarmente utile se non è possibile installare l’agente di monitoraggio (ad esempio, su uno switch o un router).

Il software di Monitoraggio IT può verificare la disponibilità dei servizi su un host remoto utilizzando i protocolli ICMP, SSH, FTP, HTTP e DNS senza che sia installato un agente di monitoraggio sull’host remoto. Il software di monitoraggio del server tenta di accedere all’host di destinazione tramite il protocollo definito e, a seconda della risposta del server, determina lo stato del servizio richiesto.

Due dei protocolli utilizzati sono:

  • Simple Network Management Protocol (SNMP) è stato sviluppato appositamente per attività di monitoraggio senza installare agenti di monitoraggio su host remoti. L’host remoto deve eseguire il servizio SNMP appropriato per supportare la raccolta dei dati tramite SNMP da questo host monitorato. SNMP funziona sul livello applicativo del modello OSI e l’ultima versione è SNMPv3.Il protocollo SNMP è solitamente supportato in switch, router, punti di accesso, firewall, stampanti di rete e altri dispositivi collegati alla rete. Ogni identificatore di oggetto è associato al parametro appropriato, come byte ricevuti, byte trasmessi, temperatura della CPU, livello di toner nella cartuccia della stampante, ecc. Gli identificatori di oggetto sono numerati utilizzando la struttura gerarchica (ad albero). Ad esempio, 1.3.6.1.4.1.343.2.19.1.2.10.206.1.1.16 è l’identificatore del sensore di temperatura dell’hardware Intel.

    Si noti che un agente SNMP non è la stessa cosa di un agente di monitoraggio del software di monitoraggio del sistema.

  • Windows Management Instrumentation (WMI) è un protocollo di rete proprietario di Microsoft sviluppato per monitorare i sistemi basati su Windows senza installare agenti. Lo strumento di monitoraggio invia una query WMI a un host monitorato e quindi legge i dati restituiti.

Monitoraggio IT per sistemi virtualizzati

Il monitoraggio di macchine virtuali e contenitori presenta funzioni specifiche che devono essere prese in considerazione per ottenere i risultati desiderati.

Monitoraggio delle VM. Per le VM, utilizzare soluzioni software di monitoraggio senza agenti che utilizzano le API VMware per monitorare le prestazioni e l’efficienza degli host ESXi, dei server vCenter e delle VM. Le metriche di monitoraggio includono CPU, memoria, storage e utilizzo della rete. Questo approccio consente di evitare i costi aggiuntivi rispetto al metodo che prevede l’installazione di agenti di monitoraggio sulle VM.

Il monitoraggio dei contenitori è complesso rispetto al monitoraggio dei server tradizionali e delle VM. Questo perché i contenitori vengono forniti/eliminati rapidamente e condividono le risorse, il che rende difficile misurare le risorse consumate da un host. L’implementazione di N agenti in N contenitori non è razionale. Proprio come le VM, i contenitori possono essere monitorati tramite API speciali.

L’API Docker stats è un meccanismo nativo fornito con i contenitori Docker per il loro monitoraggio. L’idea principale del monitoraggio dei container è quella di monitorare le applicazioni containerizzate dell’architettura microservizi in esecuzione nei contenitori.

Monitoraggio IT: componenti

Esploriamo i diversi componenti che possono essere monitorati con Monitoraggio IT per scoprire di più. Questa classificazione dei componenti monitorati è condizionata dal fatto che essi possono intersecarsi tra loro.

  • Monitoraggio hardware per temperatura della CPU, temperatura dell’HDD, stato S.M.A.R.T. dell’HDD, dati sulla durata della batteria, tensione, ecc. memoria libera, spazio su disco, attività del disco e utilizzo del file di swap.
  • Monitoraggio della rete per le velocità di trasferimento dati su diverse interfacce di rete, il numero di utenti connessi (utile per le connessioni VPN), le connessioni di rete, i firewall, le connessioni TCP e UDP (per rilevare malware), ecc. Può aiutarti a rilevare sovraccarichi di rete, basse velocità di trasferimento dati e tentativi non autorizzati di accedere alla rete.
  • Monitoraggio delle applicazioni per controllare i log delle applicazioni, inclusi i log del sistema operativo, rilevare codici di errore e visualizzare informazioni aggregate nell’interfaccia web o inviare notifiche agli amministratori. Il monitoraggio delle applicazioni può includere il consumo di CPU e memoria da parte di un’applicazione.
  • Monitoraggio della sicurezza per rilevare problemi di sicurezza e risolvere vulnerabilità del software, porte aperte e autorizzazioni indesiderate, che potrebbero essere utilizzate per sferrare attacchi nel vostro ambiente.
  • Monitoraggio delle attività critiche per rilevare tentativi di accesso non autorizzati a un sistema, modifiche ai file, ecc. Il monitoraggio di file e cartelle consente di rilevare attività insolite causate da ransomware e di rispondere rapidamente per evitare la perdita di dati.
  • Monitoraggio dell’uptime per rilevare se un host è stato spento anche se nessuno se ne è accorto (ad esempio, un server è stato riavviato di notte durante le ore non attive dopo l’installazione di aggiornamenti automatici o dopo un’interruzione di corrente). Più a lungo l’host funziona correttamente senza riavvio, più il sistema è affidabile e stabile.

Procedure consigliate per il monitoraggio dell’infrastruttura IT

Per ottenere la massima efficienza di monitoraggio, seguire queste procedure consigliate per il monitoraggio dell’infrastruttura. Con una chiara comprensione di come implementare il monitoraggio IT, è possibile mitigare i rischi di downtime e reagire ai problemi in modo più efficace prima che gli utenti percepiscano l’impatto negativo dei servizi e delle applicazioni non funzionanti.

Scegli la soluzione di monitoraggio giusta

Per scegliere la soluzione di monitoraggio giusta per le esigenze della tua organizzazione, determina quali componenti richiedono il monitoraggio nella tua infrastruttura IT. A tal fine, classifica hardware, sistemi e applicazioni in base alla loro importanza per le operazioni aziendali.

Quindi puoi procedere a definire la tua strategia di monitoraggio e selezionare il software di monitoraggio dell’infrastruttura IT ottimale. La strategia includerà l’hardware e il software da monitorare, le metriche da monitorare, la profondità del monitoraggio e come rispondere quando si verificano dei problemi. In base a questi parametri, seleziona il software di monitoraggio che soddisfa i tuoi requisiti.

Se è necessario monitorare le macchine virtuali VMware su host ESXi, selezionare una soluzione che acceda alle macchine virtuali a livello di hypervisor anziché installare agenti sul sistema operativo guest. Un software di monitoraggio aziendale universale combinerà agenti per monitorare le macchine fisiche e API di virtualizzazione per monitorare gli host hypervisor e le macchine virtuali. Tale software di monitoraggio può utilizzare protocolli come SNMP per monitorare i dispositivi di rete e altre apparecchiature e utilizzare API speciali per monitorare gli elementi nei cloud AWS e Azure.

Raccogliete le metriche rilevanti

Le procedure consigliate per il Monitoraggio IT raccomandano approcci per ottenere sempre informazioni rilevanti:

  • Definite quali metriche è necessario monitorare per le Macchine fisiche, le VM, le applicazioni, le reti e i diversi dispositivi.
  • Controllate regolarmente le metriche delle prestazioni e i log monitorati.
  • Rivedi periodicamente le metriche monitorate e, se necessario, apporta alcune modifiche al monitoraggio dell’infrastruttura IT.

Configura l’accesso alle dashboard appropriate

Il software di monitoraggio IT di solito raccoglie i dati e visualizza le informazioni in una vista ottimizzata nell’interfaccia web. Un’interfaccia web contiene solitamente dashboard con informazioni visualizzate raccolte. Un amministratore di sistema e gli utenti autorizzati possono aprire l’interfaccia web e controllare informazioni di riepilogo, grafici, statistiche e altri dati relativi all’intera Infrastruttura e a particolari server, dispositivi e applicazioni.

Definire chi deve visualizzare i dati di monitoraggio. Concedere agli utenti l’accesso solo a ciò che è necessario per svolgere le loro mansioni, seguendo il principio del privilegio minimo. Configurare dashboard personalizzate per diversi gruppi di utenti, ad esempio:

  • I programmatori possono monitorare i server di database, i server delle applicazioni, i server web e i cluster Kubernetes che utilizzano.
  • I tester possono monitorare i server e le VM utilizzati per i test.
  • Gli amministratori di sistema possono effettuare il monitoraggio di tutti gli elementi.
  • I responsabili delle vendite potrebbero aver bisogno di visualizzare le informazioni relative al sistema CRM.

Configurare avvisi/notifiche automatici

Gli amministratori e gli utenti possono controllare i dati di monitoraggio su richiesta nelle dashboard fornite. Si tratta di un’opzione utile, ma come è possibile essere informati immediatamente del problema? Gli amministratori non possono passare l’intera giornata a monitorare le statistiche. Per questo motivo, la maggior parte degli strumenti di Monitoraggio IT consente agli amministratori di configurare notifiche automatiche che vengono inviate tramite e-mail, Skype, SMS, ecc. Gli amministratori possono configurare trigger basati su eventi specifici per inviare notifiche alla destinazione scelta.

Gli avvisi possono essere classificati in base alla priorità: gli avvisi più critici dovrebbero avere un ritardo minimo, mentre gli altri avvisi possono essere inviati con un ritardo di pochi minuti. Ad esempio, se un host va offline, un messaggio di notifica viene inviato in due minuti a un gruppo di posta elettronica o a un gruppo Skype i cui membri sono amministratori, utenti avanzati e team leader. Se un server torna online, al gruppo viene inviato un messaggio di notifica appropriato. È anche possibile impostare avvisi per spazio su disco insufficiente, sovraccarico della CPU e memoria insufficiente sui server. Se il dispositivo di rete dispone della funzionalità appropriata, è anche possibile configurare notifiche relative al livello basso di toner in una cartuccia nella stampante di rete. Ciò può essere utile se gli utenti stampano sempre pagine importanti e si desidera evitare di dimenticare di controllare se nell’inventario sono presenti cartucce piene.

Le procedure consigliate per il monitoraggio dell’infrastruttura raccomandano di configurare l’invio di notifiche automatiche solo per i parametri necessari. Se si configurano notifiche da inviare per tutti i problemi, sarà difficile gestire le informazioni ricevute.

Impostare la soglia per le notifiche

Configurare le soglie per visualizzare e inviare notifiche. Se si configura l’invio immediato delle notifiche, è possibile visualizzare molti messaggi di avviso in caso di brevi picchi di prestazioni della CPU, brevi periodi di reti “irraggiungibili” causati dal sovraccarico del server, ecc. Configurare la soglia adeguata per reagire in tempo e ridurre al minimo il flusso di notifiche. Una corretta configurazione della soglia riduce la probabilità di falsi positivi.

Quando si configura il software di monitoraggio del sistema, impostare intervalli adeguati per la raccolta dei dati e la generazione dei report. Se l’intervallo per generare un report è troppo breve, i processi che generano report e grafici nei dashboard possono interferire con i processi principali e il carico della CPU aumenta in modo significativo. Ciò può causare sovraccarico e guasti del server di monitoraggio.

Contrassegnare le priorità delle notifiche

Senza dare priorità alle notifiche, queste vengono visualizzate come un flusso irrilevante di dati. Analizzare questi dati per trovare quelli importanti richiede tempo, è scomodo e inefficiente. Configurare la soluzione di monitoraggio dell’infrastruttura IT in modo da visualizzare solo ciò che serve con le priorità impostate semplifica la vita.

Nell’infrastruttura IT possono verificarsi diversi problemi. Alcuni di essi possono essere critici, altri no.

  • Esempi di problemi critici. Guasto di un server controller di dominio Active Directory, server database di produzione, server ESXi che esegue VM mission-critical, stato S.M.A.R.T. non corretto di un’unità disco, spazio su disco insufficiente, temperatura CPU elevata, memoria libera insufficiente, ecc.
  • Esempi di problemi moderati (priorità media). Guasto di un server di prova, VM di prova, bug tracker, ecc.
  • Esempi di problemi lievi (minori). Basso livello di toner in una stampante, ecc.

Le priorità possono variare da un’azienda all’altra ed è necessario regolarle in base ai propri requisiti. Impostare la priorità per i diversi tipi di problema se è possibile visualizzarli nei pannelli di monitoraggio e quando si inviano notifiche automatiche, ad esempio:

  • [Critical] L’host 192.168.17.2 (DC01) è irraggiungibile per 5 minuti.
  • [Critical] La temperatura della CPU è troppo alta (82 °C) sull’host 192.168.17.89 (Ora12-prod).
  • [Critical] Spazio su disco insufficiente su C: sull’host 10.10.10.6 (FS-06).
  • [Moderate] La VM 10.10.10.35 (Oracle-test) sull’host 192.168.17.22 (ESXi-22) è irraggiungibile da 5 minuti.
  • [Minor] Il livello del toner è basso per 192.168.17.8 (stampante HP).

I problemi critici sono urgenti e gli amministratori devono risolverli il prima possibile. I problemi minori possono attendere una risposta.

Verifica il funzionamento del monitoraggio

Dopo aver configurato un sistema di monitoraggio dell’infrastruttura IT, è necessario verificare il funzionamento del sistema e l’invio corretto delle notifiche. Non aspettare che si verifichi una situazione di emergenza reale e pianifica un test dopo aver completato la configurazione. Dopo il test, potrebbe essere necessario ottimizzare il sistema di monitoraggio IT. Il test consente di garantire che il monitoraggio funzioni come previsto e di determinarne l’efficienza.

Creare un piano di azione di risposta

Definire cosa fare dopo aver ricevuto le notifiche quando si verificano dei problemi. È necessario disporre di una soluzione rapida su come rispondere ai problemi critici. È necessario disporre di un piano di ripristino di emergenza e seguirlo in caso di guasti o perdita di dati per garantire la continuità operativa e il ripristino di emergenza, in modo da soddisfare gli obiettivi di RTO ( <) e RPO (Recovery Point Objective) della propria organizzazione.><>. È necessario disporre sempre di backup pronti per il ripristino di macchine o dati di applicazioni specifiche.

Alcuni software di monitoraggio sono dotati di funzionalità complete di protezione dei dati e Ripristino di emergenza, come la soluzione Monitoraggio IT di NAKIVO. I guasti dei server e la perdita di dati possono verificarsi in tutti i tipi di ambienti. Il backup dei dati consente di proteggere i dati, recuperarli in caso di guasto e ripristinare i carichi di lavoro con il normale funzionamento in breve tempo. XML-PH-0244@deepl.internal Replica è una soluzione universale per la protezione dei dati che supporta il backup di macchine fisiche Linux e Windows, macchine virtuali VMware vSphere, macchine virtuali Microsoft Hyper-V, Amazon EC2, Nutanix AHV e Microsoft 365. XML-PH-0245@deepl.internal XML-PH-0246@deepl.internal

Le persone leggono anche