NAKIVO > Blog > VMware

透過 NAKIVO 強化 IT 監控：警報與報表詳解

Updated: 22 6 月, 2026

撰文:: NAKIVO 團隊

在組織的基礎架構中導入 IT 監控,可提升其可靠性,並有助於預防嚴重問題、系統故障及停機。實施 IT 監控有不同的方法,既可使用專用工具,也可利用系統原生功能性。無論採用何種方法,您都能在需要時查看監控資料,或設定自動警示與報告,以便在發生重要事件時收到通知。這篇部落格文章將說明如何透過警示與報告來強化 IT 監控策略。

NAKIVO 針對 VMware 基礎架構的主動式監控

監控 VMware vSphere 的關鍵指標,以優化容量規劃,並在瓶頸演變成問題之前加以解決。

探索解決方案

IT 監控與報告對企業的重要性

IT 監控對組織至關重要,因為它有助於確保 IT 基礎架構運作正常且穩定可靠。

Maximizing uptime and reliability關鍵業務系統通常需要全天候運作。此類系統廣泛應用於醫療保健、金融及其他服務業等領域,一旦發生系統停機,便可能導致嚴重後果。所幸,只要部署並妥善配置 IT 監控系統,便能有效預防此類問題。
主動式問題偵測有助於管理員及時發現潛在問題,例如伺服器過載、應用程式錯誤、硬體問題及效能下降,避免這些問題演變成重大故障。這種主動式方法讓管理員能在問題對伺服器、虛擬機器(VM)、業務運作及終端使用者造成負面影響之前,及時介入並採取矯正措施。透過接收顯示潛在問題的報告,能使 IT 監控與管理更加高效。
Enhancing securityIT 監控用於偵測未經授權的存取嘗試、異常的網路流量,以及其他可能預示網路攻擊的可疑活動。此方法使系統管理員能夠及時偵測安全威脅。某些產業必須遵守監管需求,必須對 IT 系統進行持續監控,以避免遭受處罰。
Improving performance and efficiency. 系統管理員可透過設定 IT 監控與警示功能,來優化伺服器、虛擬機器及網路設備的資源使用效率。透過設定 IT 監控工具來追蹤 CPU、記憶體及頻寬的使用狀況,並對這些資料進行進一步分析,您將能更清楚地了解應從哪些方面進行改善。因此,組織得以優化資源配置、減少浪費,進而提升 IT 系統的運作效率。這同時也有助於系統管理員找出效能瓶頸並提升系統效能。
Improving business continuity and disaster recovery. 及早偵測故障是組織管理員應為 IT 監控系統設定通知功能的主要原因之一。此方法能及早偵測資料損毀、應用程式當機及硬體故障的徵兆,從而防止資料遺失。防止資料遺失對於維持業務連續性透過使用已設定通知功能的監控工具,系統管理員可確保備份系統與災難還原計畫已通過測試且運作正常。這能確保企業在發生災難時,能夠迅速還原資料和工作負載。
Improving customer experience客戶期望服務能隨時可用。透過配置 IT 監控系統來監控與網站運作相關的伺服器、虛擬機器、網路設備及應用程式,有助於確保網站與服務能隨時為客戶提供服務。除了監控資源可用性外,也會監控效能,以提供最佳的服務。
收到包含問題相關資訊的報告,有助於迅速解決問題。這些報告包含管理員所需的信息,以便盡快解決問題。這些措施能將對客戶的負面影響降至最低,從而讓客戶獲得良好的體驗。
Cost management. 設定主動監控可避免系統停機。非預期的停機可能造成高昂代價,因為組織不僅會損失營收,還必須投入資源來恢復資料與基礎架構。透過具備警示通知功能的監控,管理員能盡快解決問題,並降低系統停機的風險。

了解 IT 監控中的警報

為 IT 監控系統設定警示,可縮短管理員察覺問題並加以解決的反應時間。若僅配置包含圖表與統計資料的網頁等資源,系統管理員便只能在查看監控資訊網頁時才察覺問題。管理員需處理多種不同任務,通常無法持續監控顯示 IT 基礎架構狀態的網頁。

當設定告警後,管理員便能盡快收到關於問題、潛在問題、故障或其他關鍵或可疑事件的通知訊息。通常可設定通知間隔,例如在監控系統偵測到問題後 1 分鐘或 5 分鐘內發送訊息。

因此,系統管理員能更迅速察覺問題,並採取行動進行修復,從而避免負面後果。可根據 IT 監控軟體的不同,採用多種通知方式,例如透過 email、簡訊、Skype 等進行通知。

什麼是警報,它們為何如此重要？

警報是指當 IT 系統中發生特定事件,且符合相應條件或閾值時所觸發的通知。這些條件可能基於不同的事件,包括:

Performance issues: CPU 使用率過高、記憶體耗盡、反應遲緩
Resource thresholds: 磁碟空間不足,網路頻寬飽和
System failures: 伺服器當機、應用程式錯誤、服務中斷
Security incidents: 未經授權的存取嘗試、惡意軟體偵測、異常網路流量
Operational events: 備份失敗、服務重新啟動、設定變更

當警報觸發時,監控系統會產生一則警示,並透過各種管道將此警示傳送給相關使用者,主要是 IT 管理員。這些警示包含有關問題的資訊,包括其嚴重程度、受影響的系統或元件,以及建議採取的行動。

需監控的關鍵指標

CPU utilization. 監控 CPU 使用率是為了確保伺服器和系統在處理能力方面擁有足夠的資源。這對於在不造成系統過載的情況下處理工作負載至關重要。高 CPU 使用率可能是系統過載的徵兆。低 CPU 使用率則表示資源充足,或是 CPU 資源未被充分利用。

Memory (RAM) usage應用程式和服務需要足夠的記憶體才能順暢運作,而記憶體參數在此情境下至關重要。系統管理員應監控 RAM 使用狀況,以防止發生記憶體瓶頸,否則可能導致效能下降,甚至造成系統當機。請密切留意記憶體使用過度、記憶體分配不足以及記憶體洩漏等情況。

Disk usage and I/O performance. 磁碟空間與輸入/輸出 (I/O) 效能是資料儲存的關鍵指標。建議您監控這些參數,以預防與儲存相關的問題,包括效能問題。請留意磁碟使用率過高、已使用磁碟空間急速增長、讀寫資料時延遲過高,以及頻繁的 I/O 等待時間。這些參數的異常狀況可能預示潛在的儲存問題。

Network bandwidth and latency. 網路效能會影響辦公室或資料中心中的所有運作,因為電腦、伺服器和虛擬機器都是透過網路相互連接的。網路效能對於提供給客戶的服務至關重要。監控網路頻寬和延遲,可讓您偵測瓶頸及其他問題,並及時加以解決,從而有效率地利用網路資源。請留意網路使用率過高、封包遺失以及高延遲的情況,因為這些指標是效能緩慢和網路連線問題的徵兆。

Service and process availability. 重要程序在伺服器或虛擬機上的作業系統中運行,且必須保持可用以滿足業務需求。監控服務及其可用性,可確保關鍵服務持續正常運作。為確保服務可用性,系統管理員應監控服務的正常運行時間、服務重新啟動頻率以及程序故障情況。

Database performance. 資料庫通常是更複雜解決方案的一部分,包括網頁應用程式。此外,大多數供組織內部使用的軟體解決方案都需要資料庫。基於這些原因,監控資料庫的效能與可用性至關重要。監控資料庫可確保資料可供存取,且相關操作能順利執行。在監控資料庫時,應著重於查詢回應時間、執行緩慢的查詢、資料庫鎖定以及連線池的使用狀況,因為這些指標對於資料庫的健康狀態至關重要。

IT 監控報告

報告功能旨在從監控工具所收集的海量數據中,提煉出結構化且具實用價值的洞察。報告將原始數據轉化為組織內人員(尤其是 IT 管理員)能夠閱讀並理解的資訊。管理員與管理階層在檢視報告後,便能做出明智的決策。這使 IT 團隊能夠優化效能、預防問題,並提升業務連續性。

報告可突顯出在檢視警報時不易察覺的異常狀況。報告中的資料經過彙總處理,以提升使用便利性,避免必須手動搜尋關鍵指標並整理所收集的資料。因此,管理員能對整個基礎架構及其最重要的組件獲得高層次的概覽。了解導致事件發生的前因後果,可協助管理員快速進行事件應變並採取預防措施。

透過 NAKIVO Backup & Replication

NAKIVO Backup & Replication 可協助您監控 IT 基礎架構的各項元件。前往 Monitoring 在網頁介面的該區段中,新增受監控項目,並查看顯示該項目支援之指標的圖表 VMware vSphere 基礎設施。

VMware vSphere monitoring in NAKIVO Backup & Replication

您可以選擇要監控的項目,例如 ESXi 主機或叢集、VMware 虛擬機器以及資料存放區在 Monitoring > Metrics.

Selecting ESXi hosts, VMs and datastores for IT infrastructure monitoring

在 NAKIVO 解決方案中設定警示

您可以在 NAKIVO 解決方案中設定警示,以便盡早收到潛在問題的通知,從而能在問題導致嚴重後果之前迅速加以處理。

前往 Monitoring > Alerts,請選擇 Alert Template Management 分頁,然後點擊 + 為特定項目設定提醒。
請選擇應觸發警示的監控項目。您可以選擇 ESXi 主機、虛擬機器 (VM) 或資料存放區。按下 Next 繼續。
設定新警示範本的規則。點擊 + 並選取規則條件。例如,您可以設定一個警示規則範本,當主機平均記憶體使用率在 1 小時內超過 90% 時,該規則即會觸發。您可以在一個警示範本中新增多條規則。
設定警示範本的相關選項。輸入警示名稱與說明,並選擇嚴重性等級。您可以勾選此核取方塊以 send an email notification when this alert is triggered 並輸入應接收警示通知的多個收件者email地址。點擊 Finish.

在 NAKIVO 解決方案中設定報表

若要設定報表,請前往 Monitoring > Reports,點擊 + 並點擊 Report.
您可以選擇其中一種受支援的來源類型:
- 基礎架構概覽 – 關於 vCenter 伺服器、由 vCenter 管理的 ESXi 主機以及獨立 ESXi 主機的資訊
- 虛擬機器效能
- 資料存放區容量
- 主機效能
- 防護報告
選取來源類型後,請選取要納入報表的項目。在下方的螢幕截圖中,您可以看到 Infrastructure Overview 在下拉式清單中選取,並選取要納入報告的 ESXi 主機。按一下 Next 繼續。
設定報表的時間與日期範圍。例如,您可以建立一份涵蓋過去 30 天的報表。
設定報表設定。輸入報表的顯示名稱和說明。若需設定,請在 Notifications 在該區段中,勾選核取方塊以將報告寄送至指定的email地址。輸入email地址,然後按下 Enter 以套用此email地址。您可以輸入多個email地址。點擊 Finish 以儲存報表建立的設定。
您可以將報表匯出至檔案。請前往 Monitoring > Reports 並選取您要匯出的報表(勾選核取方塊)。點擊 … (更多選項)按鈕,點擊 Export,並在對話方塊中選擇檔案格式(PDF 或 CSV)。按下 Export.

結論

監控 IT 基礎架構可提升管理效率、確保業務連續性,並節省成本。建議您設定 IT 監控工具以發送警示與報告,以便及早應對事件,從而預防潛在問題並盡快解決現有問題。使用 NAKIVO Backup & Replication 以保護您的資料(包括 VMware 虛擬機器),並監控您的 vSphere 基礎架構及資料保護工作。