IT 基礎架構監控最佳實踐
在伺服器和工作站數量較少的小型企業中,系統管理員通常無需任何特殊工具,便能迅速找出任何問題。隨著企業規模擴大,伺服器及其他網路設備的數量也會隨之增加。一旦發生問題,系統管理員仍須能夠迅速找出問題所在,以避免造成嚴重後果。
在中大型基礎架構中手動排查問題,往往既複雜又耗時。 所幸,如今已廣泛採用自動化 IT 基礎架構監控技術,協助管理員盡快釐清問題類型與來源。這些工具還能透過監控資源分配與即時使用狀況,協助管理員在問題與瓶頸發生前主動預防。
這篇部落格文章將說明何謂 IT 基礎架構監控、為何要為伺服器及其他網路設備使用監控工具,以及應遵循的最佳實踐。
什麼是 IT 基礎架構監控?
基礎設施監控是指在實體或虛擬環境中追蹤硬體與軟體指標的過程,旨在提升效率並優化流程。此過程透過收集並分析關鍵硬體與應用程式的可用性、效能及資源使用情況等相關數據來實現。
資訊科技基礎設施是支撐企業提供服務、執行交易、提供資訊、與客戶互動等活動的底層架構。此基礎設施由資料中心、應用程式與軟體、網路,以及伺服器、路由器等硬體組成。
IT 監控的類型與方法
讓我們來看看 IT 基礎架構監控的兩種主要方法。
- 基於代理的監控 可透過在每台受監控的機器上安裝代理程式,利用客戶端-伺服器軟體來實現。此類 IT 監控工具需要將系統監控軟體的伺服器元件安裝在伺服器或虛擬機器上。伺服器軟體會將收集到的資料記錄在資料庫中,並提供網頁介面,供管理員和使用者配置系統監控軟體以及監控 IT 基礎架構。一名代理人 這是 IT 監控軟體中安裝於目標主機的組件,用於從該主機收集資料。代理程式透過網路與伺服器進行互動,並將收集到的資料傳送至監控伺服器。代理程式應支援多種作業系統,以便更全面地涵蓋 IT 基礎架構。
- 無代理監控 這項功能可透過伺服器端軟體及支援的網路協定來實現,無需在每台受監控的機器上安裝監控軟體代理程式。它適用於各種平台,若您無法安裝監控代理程式(例如在交換器或路由器上),此功能便特別實用。
IT 監控軟體可透過 ICMP、SSH、FTP、HTTP 及 DNS 協定,在無需於遠端主機安裝監控代理程式的情況下,檢查遠端主機上服務的可用性。伺服器監控軟體會嘗試透過定義的協定存取目標主機,並根據伺服器的回應,判定所需服務的狀態。
其中使用的兩種協定為:
- 簡單網路管理協定 (SNMP) 本解決方案專為監控任務而設計,無需在遠端主機上安裝監控代理程式。遠端主機必須運行適當的 SNMP 服務,才能透過 SNMP 從此監控主機收集資料。SNMP 運作於 OSI 模型的應用層,最新版本為 SNMPv3。交換器、路由器、存取點、防火牆、網路印表機及其他連網裝置通常皆支援 SNMP 協定。 每個物件識別碼皆對應至特定參數,例如接收位元組、傳輸位元組、CPU 溫度、印表機碳粉匣剩餘量等。物件識別碼採用階層式(樹狀)結構進行編號。 例如,1.3.6.1.4.1.343.2.19.1.2.10.206.1.1.16 即是 Intel 硬體溫度感測器的識別碼。
請注意,SNMP 代理程式與系統監控軟體的監控代理程式並不相同。
- Windows 管理儀表板 (WMI) 這是微軟開發的專有網路協定,旨在無需安裝代理程式即可監控基於 Windows 的系統。此監控工具會向受監控的主機發送 WMI 查詢,然後讀取回傳的資料。
虛擬化系統的 IT 監控
監控虛擬機器和容器時,有其獨特的特點,必須加以考量,才能達到預期效果。
虛擬機器監控。 針對虛擬機器,請採用基於 VMware API 的無代理監控軟體解決方案,以追蹤 ESXi 主機、vCenter 伺服器及虛擬機器的效能與效率。監控指標包含 CPU、記憶體、儲存空間及網路使用率。相較於在虛擬機器上安裝監控代理程式的方法,此種做法可避免產生額外負擔。
容器監控 與監控相比,這比較棘手 傳統伺服器與虛擬機器這是因為容器能快速建立與銷毀,且資源是共享的,這使得難以精確測量主機所消耗的資源。在 N 個容器中部署 N 個代理程式並不合理。與虛擬機器一樣,容器也可透過專用的 API 進行監控。
Docker stats API 是 Docker 容器內建的監控機制,用於監控容器。容器監控的主要目的,在於監控運行於容器中的微服務架構容器化應用程式。
IT 基礎架構監控:組成部分
讓我們來探索可以透過 IT 基礎架構監控 欲了解更多資訊。此監控元件的分類具有條件性,因為它們可能相互重疊。
- 硬體監控 包括 CPU 溫度、硬碟溫度、硬碟 S.M.A.R.T. 狀態、電池續航力資料、電壓等,以及可用記憶體、磁碟空間、磁碟活動狀況和暫存檔使用情況。
- 網路監控 包括不同網路介面的資料傳輸速率、連線使用者數量(對 VPN 連線特別有用)、網路連線、防火牆、TCP 與 UDP 連線(用於偵測惡意軟體)等。這有助於您偵測網路過載、資料傳輸速度過慢,以及未經授權的網路存取嘗試。
- 應用程式監控 用於檢查應用程式日誌(包括作業系統日誌)、偵測錯誤代碼,並在網頁介面中顯示彙總資訊,或向管理員發送通知。應用程式監控可包含應用程式對 CPU 和記憶體的使用情況。
- 安全監控 以偵測安全問題,並處理軟體漏洞、開放的埠口以及不必要的權限,這些都可能被利用來對您的環境發動攻擊。
- 關鍵活動監控 以偵測系統的未經授權登入嘗試、檔案修改等行為。監控檔案和資料夾有助於您偵測勒索軟體所引發的異常活動,並迅速採取應對措施,以避免資料遺失。
- 系統正常運作時間監控 用以偵測主機是否已關機,即使無人察覺(例如,伺服器在非工作時間的夜間,於安裝自動更新後或停電後重新開機)。主機在未重新開機的情況下正常運作的時間越長,系統的可靠性與穩定性就越高。
IT 基礎架構監控的最佳實踐
為達到最佳監控效率,請遵循以下基礎架構監控的最佳實踐。透過清楚了解如何實施 IT 監控,您便能降低系統停機的風險,並在使用者感受到服務與應用程式故障的負面影響之前,更有效地應對問題。
選擇合適的監控解決方案
要為貴組織的需求選擇合適的監控解決方案,請先確定 IT 基礎架構中哪些組件需要進行監控。為此,請根據其對業務運作的重要性,將硬體、系統和應用程式進行分類。
接著,您即可制定監控策略,並選擇最適合的 IT 基礎架構監控軟體。 您的策略應涵蓋需監控的硬體與軟體、監控指標、監控深度,以及發生問題時的應對方式。根據這些參數,選擇符合您需求的監控軟體。
若需監控 ESXi 主機上的 VMware 虛擬機器,請選擇能在超管理程式層級存取虛擬機器的解決方案,而非在客體作業系統上安裝代理程式。一款通用的 Enterprise 級監控軟體將結合代理程式來監控實體機器,並透過虛擬化 API 來監控超管理程式主機與虛擬機器。此類監控軟體可使用 SNMP 等協定來監控網路設備及其他設備,並透過特殊 API 來監控 AWS 和 Azure 雲端中的項目。
彙整相關指標
IT 監控的最佳實踐建議採取以下方法,以確保隨時能取得相關資訊:
- 請定義您需要針對實體機器、虛擬機器、應用程式、網路及各類裝置所監控的指標。
- 請定期檢查您的效能指標與監控日誌。
- 請定期檢視您所監控的指標,並在必要時對 IT 基礎架構的監控進行調整。
設定對正確儀表板的存取權限
IT 監控軟體通常會收集資料,並在網頁介面中以最佳化的視圖呈現資訊。網頁介面通常包含匯集了視覺化資訊的儀表板。 系統管理員與授權使用者可開啟網頁介面,檢視整個基礎架構以及特定伺服器、裝置和應用程式的摘要資訊、圖表、統計數據及其他資料。
確定哪些人需要查看監控資料。遵循最小權限原則,僅授予使用者監控其履行職責所需內容的權限。為不同使用者群組配置自訂儀表板,例如:
- 程式設計師可以監控資料庫伺服器、應用程式伺服器、網頁伺服器,以及他們所使用的 Kubernetes 叢集。
- 測試人員可以監控用於測試的伺服器和虛擬機器。
- 系統管理員可以監控所有項目。
- 業務經理可能需要查看 CRM 系統的相關資訊。
設定自動警示/通知
管理員和使用者可隨時在提供的儀表板中查看監控資料。這雖是個實用的功能,但如何才能立即獲知問題?管理員不可能整天都盯著統計數據。因此,大多數 IT 監控工具都允許管理員設定自動通知,透過 email、Skype、簡訊等方式發送。管理員可根據特定事件設定觸發條件,將通知發送至指定的接收端。
警報可設定優先級:最關鍵的警報應盡可能縮短延遲時間,而其他警報則可延遲幾分鐘再發送。例如,若某主機離線,系統將在兩分鐘內向email群組或 Skype 群組發送通知訊息,該群組成員包含管理員、進階使用者及團隊負責人。若伺服器恢復線上狀態,系統亦會向該群組發送相應的通知訊息。 您亦可針對伺服器的磁碟空間不足、CPU 過載及記憶體不足等狀況設定警示。若網路設備具備相應功能性,甚至可設定通知,提醒網路印表機碳粉匣剩餘量過低。此功能性對於經常列印重要文件的用戶特別實用,可避免因疏忽而忘記檢查庫存中是否有未用完的碳粉匣。
基礎架構監控的最佳實踐建議,僅針對必要的參數設定自動通知。若將所有問題皆設定為發送通知,將難以處理收到的資訊。
設定通知的閾值
設定閾值以顯示並發送通知。若設定為立即觸發通知,您可能會在短暫的 CPU 效能驟升、因伺服器過載導致的短暫"無法連線"網路狀況等情況下,看到大量警示訊息。請設定適當的閾值,以便及時應對並將通知洪流降至最低。 正確設定閾值可降低誤觸發的機率。
配置系統監控軟體時,請設定適當的間隔來收集資料並生成報告。若生成報告的間隔過短,儀表板中負責生成報告與圖表的程序可能會干擾核心程序,導致 CPU 負載顯著增加。這可能造成監控伺服器過載甚至故障。
標記通知優先級
若未對通知進行優先級排序,它們便會以一堆無關緊要的數據洪流形式呈現。要從這些數據中篩選出重要資訊,不僅耗時、不便,且效率低下。透過設定 IT 基礎架構監控解決方案,使其僅根據設定的優先級顯示您所需的資訊,將能讓工作更加輕鬆。
IT 基礎架構中可能會發生各種問題,其中有些可能至關重要,有些則不然。
- 關鍵問題的例子. Active Directory 網域控制器伺服器故障、生產用資料庫伺服器故障、執行關鍵任務虛擬機器 (VM) 的 ESXi 伺服器故障、硬碟的 S.M.A.R.T. 狀態異常、磁碟空間不足、CPU 溫度過高、可用記憶體不足等。
- 中度(優先級中等)問題的範例。 測試伺服器、測試虛擬機器、錯誤追蹤系統等發生故障
- 輕微問題的例子。 印表機碳粉量過低等情況
每家公司的優先順序可能各不相同,您應根據自身需求進行調整。若能在監控儀表板中顯示不同類型的問題,並在發送自動通知時進行區分,請為各類問題設定相應的優先順序,例如:
- [Critical] 主機 192.168.17.2 (DC01) 已無法連線長達 5 分鐘。
- [Critical] 主機 192.168.17.89(Ora12-prod)的 CPU 溫度過高(82 °C)。
- [Critical] 主機 10.10.10.6 (FS-06) 的 C: 磁碟空間不足。
- [Moderate] 位於主機 192.168.17.22(ESXi-22)上的 VM 10.10.10.35(Oracle-test)已無法連線長達 5 分鐘。
- [Minor] 192.168.17.8(HP 印表機)的碳粉量過低.
這些關鍵問題十分緊急,管理員應盡快予以解決。至於次要問題,則可稍後再處理。
測試監控功能是否正常運作
在配置完 IT 基礎架構監控系統後,您需要測試該系統的運作狀況,以及通知是否能正常發送。切勿等到真正發生緊急狀況時才行動,而應在完成配置後立即安排測試。測試完成後,您可能需要對 IT 監控系統進行微調。透過測試,您可以確保監控系統能如預期般運作,並評估其效能。
制定應對行動計畫
請定義在發生問題並收到通知後應採取的行動。您應針對如何應對重大問題制定快速解決方案。您需要制定災難還原計畫,並在發生故障或資料遺失時遵循該計畫,以確保營運連續性及災難還原能力,從而滿足貴組織的 RTOs 以及 RPO. 您必須隨時備妥備份,以便還原系統或特定應用程式資料。
部分監控軟體具備全面性的資料保護與災難還原功能性,例如 NAKIVO 的 IT 監控解決方案。無論在何種環境中,都可能發生伺服器故障與資料遺失的情況。透過資料備份,您不僅能保護資料,還能於發生故障時進行資料還原,並在短時間內讓工作負載恢復正常運作。 NAKIVO Backup & Replication 這是一款通用的資料保護解決方案,支援實體 Linux 和 Windows 電腦、VMware vSphere 虛擬機器、Microsoft Hyper-V 虛擬機器、Amazon EC2、Nutanix AHV 以及 Microsoft 365 的備份。