Các phương pháp hay nhất trong giám sát hạ tầng CNTT
Tại các công ty nhỏ với số lượng máy chủ và máy trạm hạn chế, các quản trị viên hệ thống thường có thể nhanh chóng phát hiện bất kỳ sự cố nào xảy ra mà không cần đến các công cụ chuyên dụng. Khi công ty phát triển, số lượng máy chủ và các thiết bị mạng khác cũng tăng theo. Và nếu có sự cố xảy ra, quản trị viên hệ thống vẫn phải có khả năng xác định vấn đề một cách nhanh chóng để ngăn chặn những hậu quả nghiêm trọng.
Việc tìm kiếm sự cố thủ công trong một hạ tầng quy mô trung bình hoặc lớn có thể phức tạp và tốn nhiều thời gian. May mắn thay, ngày nay việc giám sát hạ tầng CNTT tự động đã trở nên phổ biến, giúp các quản trị viên xác định loại và nguồn gốc của sự cố nhanh nhất có thể. Các công cụ này cũng giúp các quản trị viên chủ động ngăn chặn các sự cố và điểm nghẽn trước khi chúng xảy ra bằng cách giám sát việc phân bổ tài nguyên và mức tiêu thụ theo thời gian thực.
Bài đăng trên blog này giải thích giám sát hạ tầng CNTT là gì, tại sao nên sử dụng các công cụ giám sát cho máy chủ và các thiết bị mạng khác, cũng như các phương pháp hay nhất cần tuân theo.
Giám sát hạ tầng CNTT là gì?
Giám sát hạ tầng là quá trình theo dõi các chỉ số phần cứng và phần mềm trong môi trường vật lý hoặc ảo nhằm nâng cao hiệu quả và tối ưu hóa quy trình. Quá trình này được thực hiện thông qua việc thu thập và phân tích dữ liệu về tính sẵn sàng, hiệu suất và mức độ sử dụng tài nguyên của các thiết bị phần cứng và ứng dụng quan trọng.
Cơ sở hạ tầng CNTT là khung nền tảng cho phép các doanh nghiệp cung cấp dịch vụ, thực hiện giao dịch, cung cấp thông tin, tương tác với khách hàng, v.v. Cơ sở hạ tầng này bao gồm các trung tâm dữ liệu, ứng dụng và phần mềm, mạng lưới, cũng như phần cứng như máy chủ, bộ định tuyến, v.v.
Các loại và phương pháp giám sát CNTT
Hãy cùng xem xét hai phương pháp chính trong giám sát cơ sở hạ tầng CNTT.
- Giám sát dựa trên agent có thể được thực hiện bằng phần mềm client-server thông qua việc cài đặt các agent trên từng máy được giám sát. Loại công cụ giám sát CNTT này yêu cầu cài đặt thành phần máy chủ của phần mềm giám sát hệ thống trên một máy chủ hoặc máy ảo. Phần mềm máy chủ ghi lại dữ liệu thu thập được vào cơ sở dữ liệu và cung cấp giao diện web cho quản trị viên và người dùng để cấu hình phần mềm giám sát hệ thống và giám sát hạ tầng CNTT. Một agent là thành phần của phần mềm giám sát CNTT được cài đặt trên máy mục tiêu từ đó dữ liệu cần được thu thập. Trình đại lý tương tác với máy chủ qua mạng và gửi dữ liệu thu thập được đến máy chủ giám sát. Trình đại lý nên hỗ trợ nhiều hệ điều hành để bao quát cơ sở hạ tầng CNTT tốt hơn.
- Giám sát không cần trình đại lý có thể được thực hiện bằng phần mềm phía máy chủ và các giao thức mạng được hỗ trợ mà không cần cài đặt trình đại lý giám sát trên từng máy được giám sát. Phương pháp này có thể áp dụng cho các nền tảng khác nhau, đặc biệt hữu ích khi không thể cài đặt trình đại lý giám sát (ví dụ: trên bộ chuyển mạch hoặc bộ định tuyến).
Phần mềm giám sát CNTT có thể kiểm tra tính khả dụng của các dịch vụ trên máy chủ từ xa bằng cách sử dụng các giao thức ICMP, SSH, FTP, HTTP và DNS mà không cần cài đặt trình giám sát trên máy chủ từ xa. Phần mềm giám sát máy chủ sẽ cố gắng truy cập máy chủ đích qua giao thức đã định nghĩa và dựa trên phản hồi của máy chủ, xác định trạng thái của dịch vụ cần thiết.
Hai trong số các giao thức được sử dụng là:
- Giao thức Quản lý Mạng Đơn giản (SNMP) được phát triển đặc biệt cho các tác vụ giám sát mà không cần cài đặt trình giám sát trên các máy chủ từ xa. Máy chủ từ xa phải chạy dịch vụ SNMP phù hợp để hỗ trợ việc thu thập dữ liệu qua SNMP từ máy chủ được giám sát này. SNMP hoạt động ở lớp ứng dụng của mô hình OSI, và phiên bản mới nhất là SNMPv3. Giao thức SNMP thường được hỗ trợ trong các thiết bị chuyển mạch, bộ định tuyến, điểm truy cập, tường lửa, máy in mạng và các thiết bị khác được kết nối với mạng. Mỗi mã định danh đối tượng được liên kết với tham số thích hợp, chẳng hạn như số byte nhận được, số byte truyền đi, nhiệt độ CPU, mức mực trong hộp mực máy in, v.v. Các mã định danh đối tượng được đánh số theo cấu trúc phân cấp (giống như cây). Ví dụ, 1.3.6.1.4.1.343.2.19.1.2.10.206.1.1.16 là mã định danh cho cảm biến nhiệt độ của phần cứng Intel.
Lưu ý rằng một SNMP agent không phải là cùng một thứ với agent giám sát của phần mềm giám sát hệ thống.
- Windows Management Instrumentation (WMI) là giao thức mạng độc quyền của Microsoft được phát triển để giám sát các hệ thống dựa trên Windows mà không cần cài đặt agent. Công cụ giám sát gửi yêu cầu WMI đến máy chủ được giám sát và sau đó đọc dữ liệu trả về.
Giám sát CNTT cho hệ thống ảo hóa
Việc giám sát máy ảo (VM) và container có những đặc điểm riêng cần được xem xét để đạt được kết quả mong muốn.
Giám sát máy ảo (VM). Đối với máy ảo, hãy sử dụng các giải pháp phần mềm giám sát không cần cài đặt agent, tận dụng các API của VMware để theo dõi hiệu suất và hiệu quả của các máy chủ ESXi, máy chủ vCenter và máy ảo. Các chỉ số giám sát bao gồm sử dụng CPU, bộ nhớ, lưu trữ và mạng. Phương pháp này giúp tránh các chi phí phát sinh so với phương pháp cài đặt các trình giám sát trên các máy ảo.
Giám sát container phức tạp hơn so với giám sát máy chủ truyền thống và máy ảo. Điều này là do các container được triển khai/hủy bỏ nhanh chóng và chúng chia sẻ tài nguyên, khiến việc đo lường tài nguyên tiêu thụ của một máy chủ trở nên khó khăn. Việc triển khai N trình giám sát trong N container là không hợp lý. Giống như máy ảo (VM), container có thể được giám sát thông qua các API đặc biệt.
API thống kê Docker là cơ chế gốc được cung cấp cùng với container Docker để giám sát chúng. Ý tưởng chính của việc giám sát container là giám sát các ứng dụng được container hóa trong kiến trúc microservice đang chạy trong container.
Giám sát hạ tầng CNTT: Các thành phần
Hãy khám phá các thành phần khác nhau có thể được theo dõi bằng Giám sát hạ tầng CNTT để tìm hiểu thêm. Phân loại các thành phần được giám sát này là có điều kiện vì chúng có thể giao nhau với nhau.
- Giám sát phần cứng để theo dõi nhiệt độ CPU, nhiệt độ ổ cứng, trạng thái S.M.A.R.T. của ổ cứng, dữ liệu về thời lượng pin, điện áp, v.v.; bộ nhớ trống, dung lượng đĩa, hoạt động đĩa và mức sử dụng tệp hoán đổi.
- Giám sát mạng để theo dõi tốc độ truyền dữ liệu trên các giao diện mạng khác nhau, số lượng người dùng đang kết nối (hữu ích cho các kết nối VPN), các kết nối mạng, tường lửa, các kết nối TCP và UDP (để phát hiện phần mềm độc hại), v.v. Nó có thể giúp bạn phát hiện tình trạng quá tải mạng, tốc độ truyền dữ liệu chậm và các nỗ lực truy cập mạng trái phép.
- Giám sát ứng dụng để kiểm tra nhật ký ứng dụng, bao gồm nhật ký hệ điều hành, phát hiện mã lỗi và hiển thị thông tin tổng hợp trên giao diện web hoặc gửi thông báo cho quản trị viên. Giám sát ứng dụng có thể bao gồm việc sử dụng CPU và bộ nhớ của ứng dụng.
- Giám sát bảo mật để phát hiện các vấn đề bảo mật và giải quyết lỗ hổng phần mềm, cổng mở và quyền truy cập không mong muốn, những yếu tố có thể được sử dụng để khởi động các cuộc tấn công trong môi trường của bạn.
- Giám sát hoạt động quan trọng để phát hiện các nỗ lực đăng nhập trái phép vào hệ thống, thay đổi tệp, v.v. Giám sát tệp và thư mục giúp bạn phát hiện các hoạt động bất thường do ransomware gây ra và phản ứng nhanh chóng để tránh mất dữ liệu.
- Giám sát thời gian hoạt động để phát hiện xem một máy chủ có bị tắt nguồn hay không ngay cả khi không ai nhận ra điều đó (ví dụ: máy chủ được khởi động lại vào ban đêm trong giờ không làm việc sau khi cài đặt các bản cập nhật tự động hoặc sau khi mất điện). Thời gian máy chủ hoạt động bình thường mà không cần khởi động lại càng lâu, hệ thống càng đáng tin cậy và ổn định.
Các phương pháp hay nhất để giám sát cơ sở hạ tầng CNTT
Để đạt được hiệu quả giám sát tối đa, hãy tuân theo các phương pháp hay nhất về giám sát cơ sở hạ tầng này. Với sự hiểu biết rõ ràng về cách triển khai giám sát CNTT, bạn có thể giảm thiểu rủi ro ngừng hoạt động và phản ứng với các sự cố hiệu quả hơn trước khi người dùng cảm nhận được tác động tiêu cực của các dịch vụ và ứng dụng bị lỗi.
Chọn giải pháp giám sát phù hợp
Để chọn giải pháp giám sát phù hợp với nhu cầu của tổ chức, hãy xác định các thành phần nào trong hạ tầng CNTT cần được giám sát. Để làm điều này, hãy phân loại phần cứng, hệ thống và ứng dụng dựa trên mức độ quan trọng của chúng đối với hoạt động kinh doanh.
Sau đó, bạn có thể tiếp tục xác định chiến lược giám sát và lựa chọn phần mềm giám sát hạ tầng CNTT tối ưu. Chiến lược của bạn sẽ bao gồm phần cứng và phần mềm dùng để giám sát, các chỉ số cần theo dõi, mức độ giám sát, cũng như cách xử lý khi sự cố xảy ra. Tùy thuộc vào các thông số này, hãy lựa chọn phần mềm giám sát phù hợp với yêu cầu của bạn.
Nếu bạn cần giám sát các máy ảo VMware trên các máy chủ ESXi, hãy chọn giải pháp truy cập vào máy ảo ở cấp độ hypervisor thay vì cài đặt các trình đại lý (agents) trên hệ điều hành khách. Một phần mềm giám sát doanh nghiệp toàn diện sẽ kết hợp các trình điều khiển để giám sát máy vật lý và các API ảo hóa để giám sát các máy chủ hypervisor và máy ảo. Phần mềm giám sát này có thể sử dụng các giao thức như SNMP để giám sát các thiết bị mạng và thiết bị khác, đồng thời sử dụng các API chuyên dụng để giám sát các thành phần trong các đám mây AWS và Azure.
Thu thập các chỉ số liên quan
Các thực hành tốt nhất về giám sát CNTT khuyến nghị các phương pháp để luôn thu thập thông tin liên quan:
- Xác định các chỉ số cần giám sát cho máy vật lý, máy ảo, ứng dụng, mạng và các thiết bị khác.
- Kiểm tra các chỉ số hiệu suất và nhật ký được giám sát thường xuyên.
- Định kỳ xem xét các chỉ số được giám sát và thực hiện một số thay đổi trong việc giám sát cơ sở hạ tầng CNTT nếu cần thiết.
Cấu hình quyền truy cập vào các bảng điều khiển phù hợp
Phần mềm giám sát CNTT thường thu thập dữ liệu và hiển thị thông tin trong một giao diện web được tối ưu hóa. Giao diện web thường chứa các bảng điều khiển với thông tin được thu thập và hiển thị dưới dạng đồ họa. Quản trị viên hệ thống và người dùng được ủy quyền có thể mở giao diện web và kiểm tra thông tin tóm tắt, biểu đồ, thống kê và các dữ liệu khác cho toàn bộ hạ tầng cũng như các máy chủ, thiết bị và ứng dụng cụ thể.
Xác định những người cần xem dữ liệu giám sát. Cấp quyền truy cập cho người dùng để họ chỉ giám sát những gì cần thiết để thực hiện nhiệm vụ của mình, tuân theo nguyên tắc quyền hạn tối thiểu. Cấu hình các bảng điều khiển tùy chỉnh cho các nhóm người dùng khác nhau, ví dụ:
- Lập trình viên có thể giám sát các máy chủ cơ sở dữ liệu, máy chủ ứng dụng, máy chủ web và các cụm Kubernetes mà họ sử dụng.
- Người kiểm thử có thể giám sát các máy chủ và máy ảo (VM) được sử dụng cho việc kiểm thử.
- Quản trị viên hệ thống có thể giám sát tất cả các thành phần.
- Quản lý bán hàng có thể cần xem thông tin về hệ thống CRM.
Cấu hình cảnh báo/thông báo tự động
Quản trị viên và người dùng có thể kiểm tra dữ liệu giám sát theo yêu cầu trên các bảng điều khiển được cung cấp. Đây là một tính năng hữu ích, nhưng làm thế nào để bạn có thể được thông báo ngay lập tức về sự cố? Các quản trị viên không thể dành cả ngày để theo dõi số liệu thống kê. Vì lý do này, hầu hết các công cụ giám sát CNTT đều cho phép quản trị viên thiết lập các thông báo tự động được gửi qua email, Skype, SMS, v.v. Quản trị viên có thể thiết lập các điều kiện kích hoạt dựa trên các sự kiện cụ thể để gửi thông báo đến địa chỉ nhận đã chọn.
Các cảnh báo có thể được ưu tiên: các cảnh báo quan trọng nhất nên có độ trễ tối thiểu, trong khi các cảnh báo khác có thể được gửi với độ trễ vài phút. Ví dụ, nếu một máy chủ ngừng hoạt động, một thông báo sẽ được gửi sau hai phút đến một nhóm email hoặc nhóm Skype gồm các thành viên là quản trị viên, người dùng nâng cao và trưởng nhóm. Nếu máy chủ hoạt động trở lại, thông báo phù hợp sẽ được gửi đến nhóm. Bạn cũng có thể thiết lập cảnh báo cho các trường hợp dung lượng đĩa thấp, quá tải CPU và bộ nhớ không đủ trên máy chủ. Nếu thiết bị mạng có chức năng phù hợp, bạn thậm chí có thể cấu hình thông báo về mức mực in thấp trong hộp mực của máy in mạng. Điều này có thể hữu ích nếu người dùng thường xuyên in các trang quan trọng và bạn muốn tránh quên kiểm tra xem có hộp mực đầy trong kho hay không.
Các nguyên tắc tốt nhất về giám sát hạ tầng khuyến nghị bạn chỉ cấu hình gửi thông báo tự động cho các thông số cần thiết. Nếu bạn cấu hình gửi thông báo cho tất cả các vấn đề, sẽ rất khó để xử lý lượng thông tin nhận được.
Đặt ngưỡng cho thông báo
Cấu hình ngưỡng để hiển thị và gửi thông báo. Nếu bạn cấu hình gửi thông báo ngay lập tức, bạn có thể nhận được nhiều thông báo cảnh báo trong các đợt tăng đột biến ngắn về hiệu suất CPU, các khoảng thời gian ngắn mạng “không thể truy cập” do máy chủ quá tải, v.v. Cấu hình ngưỡng phù hợp để phản ứng kịp thời và giảm thiểu lượng thông báo tràn ngập. Cấu hình ngưỡng phù hợp giúp giảm khả năng kích hoạt cảnh báo sai.
Khi cấu hình phần mềm giám sát hệ thống, hãy đặt khoảng thời gian thích hợp để thu thập dữ liệu và tạo báo cáo. Nếu khoảng thời gian tạo báo cáo quá ngắn, các quy trình tạo báo cáo và biểu đồ trên bảng điều khiển có thể can thiệp vào các quy trình cốt lõi, khiến tải CPU tăng đáng kể. Điều này có thể gây quá tải và làm hỏng máy chủ giám sát.
Đánh dấu mức độ ưu tiên của thông báo
Nếu không sắp xếp mức độ ưu tiên cho các thông báo, chúng sẽ được hiển thị như một lượng dữ liệu tràn ngập không liên quan. Việc phân tích dữ liệu này để tìm ra những thông tin quan trọng rất tốn thời gian, không thuận tiện và kém hiệu quả. Việc cấu hình giải pháp giám sát hạ tầng CNTT để chỉ hiển thị những thông tin bạn cần theo thứ tự ưu tiên đã đặt ra sẽ giúp công việc trở nên dễ dàng hơn.
Các sự cố khác nhau có thể xảy ra trong hạ tầng CNTT. Một số trong số đó có thể là sự cố nghiêm trọng, số khác thì không.
- Ví dụ về các sự cố nghiêm trọng . Sự cố của máy chủ điều khiển miền Active Directory, máy chủ cơ sở dữ liệu sản xuất, máy chủ ESXi chạy các máy ảo (VM) quan trọng, trạng thái S.M.A.R.T. xấu của ổ đĩa, dung lượng ổ đĩa thấp, nhiệt độ CPU cao, bộ nhớ trống không đủ, v.v.
- Ví dụ về các sự cố mức độ trung bình (ưu tiên trung bình). Sự cố của máy chủ thử nghiệm, máy ảo thử nghiệm, hệ thống theo dõi lỗi, v.v.
- Ví dụ về các vấn đề nhẹ (mức độ thấp). Mực in trong máy in ở mức thấp, v.v.
Mức độ ưu tiên có thể khác nhau tùy theo từng công ty, và bạn nên điều chỉnh chúng theo yêu cầu của mình. Đặt mức độ ưu tiên cho các loại sự cố khác nhau nếu có thể hiển thị chúng trên bảng điều khiển giám sát và khi gửi thông báo tự động, ví dụ:
- [Critical] Máy chủ 192.168.17.2 (DC01) không thể truy cập được trong 5 phút.
- [Critical] Nhiệt độ CPU quá cao (82 °C) trên máy chủ 192.168.17.89 (Ora12-prod).
- [Critical] Dung lượng đĩa C: trên máy chủ 10.10.10.6 (FS-06) thấp.
- [Moderate] VM 10.10.10.35 (Oracle-test) trên máy chủ 192.168.17.22 (ESXi-22) không thể truy cập được trong 5 phút.
- [Minor] Mực in còn ít trên máy in HP tại địa chỉ 192.168.17.8 (HP-printer).
Các vấn đề nghiêm trọng cần được xử lý ngay lập tức. Các vấn đề nhỏ có thể chờ phản hồi.
Kiểm tra hoạt động của hệ thống giám sát
Sau khi cấu hình hệ thống giám sát hạ tầng CNTT, bạn cần kiểm tra xem hệ thống hoạt động như thế nào và liệu các thông báo có được gửi đi đúng cách hay không. Đừng chờ đến khi xảy ra tình huống khẩn cấp thực sự mà hãy lên lịch chạy thử sau khi hoàn tất cấu hình. Sau khi chạy thử, bạn có thể cần tinh chỉnh hệ thống giám sát CNTT của mình. Việc kiểm tra cho phép bạn đảm bảo rằng hệ thống giám sát hoạt động như mong đợi và xác định hiệu quả của nó.
Lập kế hoạch hành động ứng phó
Xác định những việc cần làm sau khi nhận được thông báo khi sự cố xảy ra. Bạn nên có giải pháp nhanh chóng về cách ứng phó với các vấn đề nghiêm trọng. Bạn cần có một kế hoạch khắc phục thảm họa và tuân thủ kế hoạch này trong trường hợp xảy ra sự cố hoặc mất dữ liệu để đảm bảo tính liên tục của hoạt động và khả năng khắc phục thảm họa, từ đó đáp ứng các yêu cầu về Các tổ chức đào tạo được công nhận (RTO) và Các tổ chức cung cấp dịch vụ tuyển dụng (RPO)của tổ chức. Bạn phải luôn chuẩn bị sẵn các bản sao lưu để phục hồi máy chủ hoặc dữ liệu của các ứng dụng cụ thể.
Một số phần mềm giám sát được tích hợp các tính năng bảo vệ dữ liệu và khắc phục thảm họa toàn diện, như giải pháp Giám sát CNTT của NAKIVO. Sự cố máy chủ và mất dữ liệu có thể xảy ra trong mọi loại môi trường. Sao lưu dữ liệu cho phép bạn bảo vệ dữ liệu, khôi phục dữ liệu trong trường hợp xảy ra sự cố và khôi phục khối lượng công việc với hoạt động bình thường trong thời gian ngắn. NAKIVO Backup & Replication là giải pháp bảo vệ dữ liệu toàn diện hỗ trợ sao lưu máy Linux và Windows vật lý, máy ảo VMware vSphere, máy ảo Microsoft Hyper-V, Amazon EC2, Nutanix AHV và Microsoft 365.