透過 NAKIVO 強化 IT 監控:警報與報表詳解

在組織的基礎架構中導入 IT 監控,可提升其可靠性,並有助於預防嚴重問題、系統故障及停機。實施 IT 監控有不同的方法,既可使用專用工具,也可利用系統原生功能性。無論採用何種方法,您都能在需要時查看監控資料,或設定自動警示與報告,以便在發生重要事件時收到通知。這篇部落格文章將說明如何透過警示與報告來強化 IT 監控策略。

NAKIVO 針對 VMware 基礎架構的主動式監控

NAKIVO 針對 VMware 基礎架構的主動式監控

監控 VMware vSphere 的關鍵指標,以優化容量規劃,並在瓶頸演變成問題之前加以解決。

IT 監控與報告對企業的重要性

IT 監控對組織至關重要,因為它有助於確保 IT 基礎架構運作正常且穩定可靠。

  • Maximizing uptime and reliability關鍵業務系統通常需要全天候運作。此類系統廣泛應用於醫療保健、金融及其他服務業等領域,一旦發生系統停機,便可能導致嚴重後果。所幸,只要部署並妥善配置 IT 監控系統,便能有效預防此類問題。

    主動式問題偵測有助於管理員及時發現潛在問題,例如伺服器過載、應用程式錯誤、硬體問題及效能下降,避免這些問題演變成重大故障。這種主動式方法讓管理員能在問題對伺服器、虛擬機器(VM)、業務運作及終端使用者造成負面影響之前,及時介入並採取矯正措施。透過接收顯示潛在問題的報告,能使 IT 監控與管理更加高效。

  • Enhancing securityIT 監控用於偵測未經授權的存取嘗試、異常的網路流量,以及其他可能預示網路攻擊的可疑活動。此方法使系統管理員能夠及時偵測安全威脅。某些產業必須遵守監管需求,必須對 IT 系統進行持續監控,以避免遭受處罰。
  • Improving performance and efficiency. 系統管理員可透過設定 IT 監控與警示功能,來優化伺服器、虛擬機器及網路設備的資源使用效率。透過設定 IT 監控工具來追蹤 CPU、記憶體及頻寬的使用狀況,並對這些資料進行進一步分析,您將能更清楚地了解應從哪些方面進行改善。因此,組織得以優化資源配置、減少浪費,進而提升 IT 系統的運作效率。這同時也有助於系統管理員找出效能瓶頸並提升系統效能。
  • Improving business continuity and disaster recovery. 及早偵測故障是組織管理員應為 IT 監控系統設定通知功能的主要原因之一。此方法能及早偵測資料損毀、應用程式當機及硬體故障的徵兆,從而防止資料遺失。防止資料遺失對於維持 業務連續性透過使用已設定通知功能的監控工具,系統管理員可確保備份系統與災難還原計畫已通過測試且運作正常。這能確保企業在發生災難時,能夠迅速還原資料和工作負載。
  • Improving customer experience客戶期望服務能隨時可用。透過配置 IT 監控系統來監控與網站運作相關的伺服器、虛擬機器、網路設備及應用程式,有助於確保網站與服務能隨時為客戶提供服務。除了監控資源可用性外,也會監控效能,以提供最佳的服務。

    收到包含問題相關資訊的報告,有助於迅速解決問題。這些報告包含管理員所需的信息,以便盡快解決問題。這些措施能將對客戶的負面影響降至最低,從而讓客戶獲得良好的體驗。

  • Cost management. 設定主動監控可避免系統停機。非預期的停機可能造成高昂代價,因為組織不僅會損失營收,還必須投入資源來恢復資料與基礎架構。透過具備警示通知功能的監控,管理員能盡快解決問題,並降低系統停機的風險。

了解 IT 監控中的警報

為 IT 監控系統設定警示,可縮短管理員察覺問題並加以解決的反應時間。 若僅配置包含圖表與統計資料的網頁等資源,系統管理員便只能在查看監控資訊網頁時才察覺問題。管理員需處理多種不同任務,通常無法持續監控顯示 IT 基礎架構狀態的網頁。

當設定告警後,管理員便能盡快收到關於問題、潛在問題、故障或其他關鍵或可疑事件的通知訊息。 通常可設定通知間隔,例如在監控系統偵測到問題後 1 分鐘或 5 分鐘內發送訊息。

因此,系統管理員能更迅速察覺問題,並採取行動進行修復,從而避免負面後果。可根據 IT 監控軟體的不同,採用多種通知方式,例如透過 email、簡訊、Skype 等進行通知。

什麼是警報,它們為何如此重要?

警報是指當 IT 系統中發生特定事件,且符合相應條件或閾值時所觸發的通知。這些條件可能基於不同的事件,包括:

  • Performance issues: CPU 使用率過高、記憶體耗盡、反應遲緩
  • Resource thresholds: 磁碟空間不足,網路頻寬飽和
  • System failures: 伺服器當機、應用程式錯誤、服務中斷
  • Security incidents: 未經授權的存取嘗試、惡意軟體偵測、異常網路流量
  • Operational events: 備份失敗、服務重新啟動、設定變更

當警報觸發時,監控系統會產生一則警示,並透過各種管道將此警示傳送給相關使用者,主要是 IT 管理員。這些警示包含有關問題的資訊,包括其嚴重程度、受影響的系統或元件,以及建議採取的行動。

需監控的關鍵指標

CPU utilization. 監控 CPU 使用率是為了確保伺服器和系統在處理能力方面擁有足夠的資源。這對於在不造成系統過載的情況下處理工作負載至關重要。高 CPU 使用率可能是系統過載的徵兆。低 CPU 使用率則表示資源充足,或是 CPU 資源未被充分利用。

Memory (RAM) usage應用程式和服務需要足夠的記憶體才能順暢運作,而記憶體參數在此情境下至關重要。系統管理員應監控 RAM 使用狀況,以防止發生記憶體瓶頸,否則可能導致效能下降,甚至造成系統當機。請密切留意記憶體使用過度、記憶體分配不足以及記憶體洩漏等情況。

Disk usage and I/O performance. 磁碟空間與輸入/輸出 (I/O) 效能是資料儲存的關鍵指標。建議您監控這些參數,以預防與儲存相關的問題,包括效能問題。請留意磁碟使用率過高、已使用磁碟空間急速增長、讀寫資料時延遲過高,以及頻繁的 I/O 等待時間。這些參數的異常狀況可能預示潛在的儲存問題。

Network bandwidth and latency. 網路效能會影響辦公室或資料中心中的所有運作,因為電腦、伺服器和虛擬機器都是透過網路相互連接的。網路效能對於提供給客戶的服務至關重要。監控網路頻寬和延遲,可讓您偵測瓶頸及其他問題,並及時加以解決,從而有效率地利用網路資源。請留意網路使用率過高、封包遺失以及高延遲的情況,因為這些指標是效能緩慢和網路連線問題的徵兆。

Service and process availability. 重要程序在伺服器或虛擬機上的作業系統中運行,且必須保持可用以滿足業務需求。監控服務及其可用性,可確保關鍵服務持續正常運作。為確保服務可用性,系統管理員應監控服務的正常運行時間、服務重新啟動頻率以及程序故障情況。

Database performance. 資料庫通常是更複雜解決方案的一部分,包括網頁應用程式。此外,大多數供組織內部使用的軟體解決方案都需要資料庫。基於這些原因,監控資料庫的效能與可用性至關重要。監控資料庫可確保資料可供存取,且相關操作能順利執行。在監控資料庫時,應著重於查詢回應時間、執行緩慢的查詢、資料庫鎖定以及連線池的使用狀況,因為這些指標對於資料庫的健康狀態至關重要。

IT 監控報告

報告功能旨在從監控工具所收集的海量數據中,提煉出結構化且具實用價值的洞察。報告將原始數據轉化為組織內人員(尤其是 IT 管理員)能夠閱讀並理解的資訊。管理員與管理階層在檢視報告後,便能做出明智的決策。這使 IT 團隊能夠優化效能、預防問題,並提升業務連續性。

報告可突顯出在檢視警報時不易察覺的異常狀況。 報告中的資料經過彙總處理,以提升使用便利性,避免必須手動搜尋關鍵指標並整理所收集的資料。因此,管理員能對整個基礎架構及其最重要的組件獲得高層次的概覽。了解導致事件發生的前因後果,可協助管理員快速進行事件應變並採取預防措施。

透過 NAKIVO Backup & Replication

NAKIVO Backup & Replication 可協助您監控 IT 基礎架構的各項元件。前往 Monitoring 在網頁介面的該區段中,新增受監控項目,並查看顯示該項目支援之指標的圖表 VMware vSphere 基礎設施。

VMware vSphere monitoring in NAKIVO Backup & Replication

您可以選擇要監控的項目,例如 ESXi 主機或 叢集、VMware 虛擬機器以及資料存放區在 Monitoring > Metrics.

Selecting ESXi hosts, VMs and datastores for IT infrastructure monitoring

在 NAKIVO 解決方案中設定警示

您可以在 NAKIVO 解決方案中設定警示,以便盡早收到潛在問題的通知,從而能在問題導致嚴重後果之前迅速加以處理。

  1. 前往 Monitoring > Alerts,請選擇 Alert Template Management 分頁,然後點擊 + 為特定項目設定提醒。

    Configuring a new alert for IT monitoring

  2. 請選擇應觸發警示的監控項目。您可以選擇 ESXi 主機、虛擬機器 (VM) 或資料存放區。按下 Next 繼續。

    Selecting ESXi hosts to monitor

  3. 設定新警示範本的規則。點擊 + 並選取規則條件。例如,您可以設定一個警示規則範本,當主機平均記憶體使用率在 1 小時內超過 90% 時,該規則即會觸發。您可以在一個警示範本中新增多條規則。

    Adding rules to configure alerts

  4. 設定警示範本的相關選項。輸入警示名稱與說明,並選擇嚴重性等級。您可以勾選此核取方塊以 send an email notification when this alert is triggered 並輸入應接收警示通知的多個收件者email地址。點擊 Finish.

    Specifying the alert template settings

在 NAKIVO 解決方案中設定報表

  1. 若要設定報表,請前往 Monitoring > Reports,點擊 + 並點擊 Report.

    Creating a new report for IT monitoring

  2. 您可以選擇其中一種受支援的來源類型:
    • 基礎架構概覽 – 關於 vCenter 伺服器、由 vCenter 管理的 ESXi 主機以及獨立 ESXi 主機的資訊
    • 虛擬機器效能
    • 資料存放區容量
    • 主機效能
    • 防護報告

    選取來源類型後,請選取要納入報表的項目。在下方的螢幕截圖中,您可以看到 Infrastructure Overview 在下拉式清單中選取,並選取要納入報告的 ESXi 主機。按一下 Next 繼續。

    Selecting the sources to be included in a report

  3. 設定報表的時間與日期範圍。例如,您可以建立一份涵蓋過去 30 天的報表。

    Setting a time range

  4. 設定報表設定。輸入報表的顯示名稱和說明。若需設定,請在 Notifications 在該區段中,勾選核取方塊以將報告寄送至指定的email地址。輸入email地址,然後按下 Enter 以套用此email地址。您可以輸入多個email地址。點擊 Finish 以儲存報表建立的設定。

    Specifying report settings

  5. 您可以將報表匯出至檔案。請前往 Monitoring > Reports 並選取您要匯出的報表(勾選核取方塊)。點擊 (更多選項)按鈕,點擊 Export,並在對話方塊中選擇檔案格式(PDF 或 CSV)。按下 Export.

    Exporting a report to a PDF file

結論

監控 IT 基礎架構可提升管理效率、確保業務連續性,並節省成本。建議您設定 IT 監控工具以發送警示與報告,以便及早應對事件,從而預防潛在問題並盡快解決現有問題。使用 NAKIVO Backup & Replication 以保護您的資料(包括 VMware 虛擬機器),並監控您的 vSphere 基礎架構及資料保護工作。

試試看 NAKIVO Backup & Replication

試試看 NAKIVO Backup & Replication

立即申請免費試用,全面體驗本解決方案的所有資料保護特點。15 天免費試用。無功能或容量限制。無需提供信用卡資訊。

People also read