ITインフラ監視のベストプラクティス

サーバーやワークステーションの数が少ない小規模な企業では、システム管理者は通常、特別なツールを使わなくても発生した問題を迅速に特定できます。しかし、企業の成長に伴い、サーバーやその他のネットワーク機器の数も増加します。そして、何か問題が発生した場合でも、深刻な事態を防ぐために、システム管理者は依然として迅速に問題を特定できなければなりません。

中規模または大規模なインフラストラクチャにおいて手動で問題を探すことは、複雑で時間がかかる作業になりかねません。 幸いなことに、今日では自動化されたITインフラ監視ツールが広く利用可能になっており、管理者が問題の種類や発生源を可能な限り迅速に特定するのに役立ちます。また、これらのツールは、リソースの割り当てやリアルタイムの消費状況を監視することで、問題やボトルネックが発生する前に、管理者が先手を打って予防するのを支援します。

このブログ記事では、ITインフラ監視とは何か、サーバーやその他のネットワークデバイスに監視ツールを使用する理由、そして従うべきベストプラクティスについて解説します。

NAKIVOによるVMwareインフラストラクチャの予防的監視

NAKIVOによるVMwareインフラストラクチャの予防的監視

VMware vSphereの主要な指標を監視し、キャパシティプランニングを強化するとともに、ボトルネックが問題となる前に解決します。

ITインフラ監視とは何か?

インフラストラクチャの監視とは、物理環境または仮想環境におけるハードウェアおよびソフトウェアの指標を追跡し、効率性を向上させ、プロセスを最適化するプロセスです。これは、重要なハードウェアやアプリケーションの可用性、パフォーマンス、リソース使用状況に関するデータを収集・分析することで行われます。

ITインフラストラクチャとは、企業がサービスの提供、取引の遂行、情報の提供、顧客とのやり取りなどを行うことを可能にする基盤となる枠組みのことです。このインフラストラクチャは、データセンター、アプリケーションやソフトウェア、ネットワーク、およびサーバーやルーターなどのハードウェアで構成されています。

IT監視の種類と手法

ITインフラの監視における2つの主なアプローチを見てみましょう。

  • エージェントベースの監視 監視対象の各マシンにエージェントをインストールすることで、クライアント・サーバー型のソフトウェアを使用して実現できます。この種のIT監視ツールでは、システム監視ソフトウェアのサーバーコンポーネントをサーバーまたは仮想マシンにインストールする必要があります。サーバーソフトウェアは収集したデータをデータベースに記録し、管理者やユーザーがシステム監視ソフトウェアの設定やITインフラの監視を行えるよう、Webインターフェースを提供します。エージェント これは、データ収集の対象となるターゲットマシンにインストールされるIT監視ソフトウェアのコンポーネントです。エージェントはネットワークを介してサーバーと通信し、収集したデータを監視サーバーに送信します。ITインフラをより適切にカバーするためには、エージェントは複数のオペレーティングシステムに対応している必要があります。
  • エージェントレス監視 監視対象の各マシンに監視ソフトウェアのエージェントをインストールすることなく、サーバーサイドのソフトウェアと対応するネットワークプロトコルを使用して実施できます。さまざまなプラットフォームで利用可能であり、特に監視エージェントをインストールできない場合(スイッチやルーターなど)に有用です。

IT監視ソフトウェアは、リモートホストに監視エージェントをインストールすることなく、ICMP、SSH、FTP、HTTP、およびDNSプロトコルを使用して、リモートホスト上のサービスの可用性を確認できます。サーバー監視ソフトウェアは、定義されたプロトコル経由で宛先ホストへのアクセスを試み、サーバーの応答に基づいて、対象サービスの状態を判定します。

使用されるプロトコルのうち、2つは以下の通りです:

  • 簡易ネットワーク管理プロトコル(SNMP) は、リモートホストに監視エージェントをインストールすることなく監視タスクを実行するために特別に開発されました。リモートホストでは、この監視対象ホストからのSNMP経由のデータ収集をサポートするために、適切なSNMPサービスが実行されている必要があります。SNMPはOSIモデルのアプリケーション層で動作し、最新バージョンはSNMPv3です。SNMPプロトコルは通常、スイッチ、ルーター、アクセスポイント、ファイアウォール、ネットワークプリンター、およびネットワークに接続されたその他のデバイスでサポートされています。 各オブジェクト識別子は、受信バイト数、送信バイト数、CPU温度、プリンタカートリッジのトナー残量など、適切なパラメータに関連付けられています。オブジェクト識別子は、階層的(ツリー状)な構造を用いて番号付けされます。 たとえば、1.3.6.1.4.1.343.2.19.1.2.10.206.1.1.16 は、Intel ハードウェアの温度センサーの識別子です。

    なお、SNMP エージェントは、システム監視ソフトウェアの監視エージェントとは異なります。

  • Windows Management Instrumentation (WMI) これは、エージェントをインストールすることなくWindowsベースのシステムを監視するために開発された、マイクロソフト独自のネットワークプロトコルです。この監視ツールは、監視対象のホストにWMIクエリを送信し、返されたデータを読み取ります。

仮想化システム向けのIT監視

VMやコンテナの監視には、望ましい結果を得るために考慮すべき特有の点があります。

VMの監視。 仮想マシンについては、VMware API を活用したエージェントレス監視ソフトウェアソリューションを使用し、ESXi ホスト、vCenter サーバー、および仮想マシンのパフォーマンスと効率性を追跡します。監視対象のメトリクスには、CPU、メモリ、ストレージ、ネットワークの使用状況が含まれます。このアプローチにより、仮想マシンに監視エージェントをインストールする方法と比較して、オーバーヘッドを回避することができます。

コンテナの監視 監視と比べると、これは少し厄介です 従来のサーバーと仮想マシン。これは、コンテナが迅速にプロビジョニングおよび破棄され、リソースを共有するため、ホストが消費したリソースを測定することが困難になるためです。N個のコンテナにN個のエージェントを展開することは合理的ではありません。VMと同様に、コンテナも専用のAPIを通じて監視することができます。

Docker stats APIは、Dockerコンテナを監視するためにDockerコンテナに標準で備わっているメカニズムです。コンテナ監視の主な目的は、コンテナ内で実行されているマイクロサービスアーキテクチャのコンテナ化されたアプリケーションを監視することです。

ITインフラの監視:構成要素

では、次を使って追跡できるさまざまな要素を見ていきましょう ITインフラの監視 詳細はこちら。監視対象コンポーネントのこの分類は、相互に重複する可能性があるため、あくまで条件付きです。

  • ハードウェアの監視 CPU温度、HDD温度、HDDのS.M.A.R.T.ステータス、バッテリー残量、電圧など。空きメモリ、ディスク容量、ディスク使用状況、スワップファイルの使用状況。
  • ネットワーク監視 さまざまなネットワークインターフェースのデータ転送速度、接続ユーザー数(VPN接続の把握に有用)、ネットワーク接続数、ファイアウォール、TCPおよびUDP接続数(マルウェアの検出に役立つ)などを確認できます。これにより、ネットワークの過負荷、データ転送速度の低下、およびネットワークへの不正アクセスの試みを検知するのに役立ちます。
  • アプリケーション監視 オペレーティングシステムのログを含むアプリケーションログを確認し、エラーコードを検出し、Webインターフェースに集計情報を表示したり、管理者に通知を送信したりします。アプリケーションの監視には、アプリケーションによるCPUおよびメモリの使用状況の監視も含まれます。
  • セキュリティ監視 セキュリティ上の問題を検出し、ソフトウェアの脆弱性、開いているポート、および不要な権限に対処します。これらは、お客様の環境内で攻撃を開始するために悪用される可能性があります。
  • 重要プロセスの監視 システムへの不正なログイン試行やファイルの改ざんなどを検知するためです。ファイルやフォルダを監視することで、ランサムウェアによる不審な活動を検知し、データ損失を防ぐために迅速に対応することができます。
  • 稼働状況の監視 (例えば、自動更新のインストール後や停電後に、業務時間外の夜間にサーバーが再起動された場合など)誰にも気づかれずにホストの電源が切れていたかどうかを検知するためです。ホストが再起動することなく正常に稼働し続ける期間が長いほど、システムの信頼性と安定性は高まります。

ITインフラ監視のベストプラクティス

監視の効率を最大限に高めるには、以下のインフラ監視のベストプラクティスに従ってください。IT監視の実施方法を明確に理解することで、ダウンタイムのリスクを軽減し、サービスやアプリケーションの障害による悪影響がユーザーに及ぶ前に、より効果的に問題に対処することができます。

適切な監視ソリューションを選択する

組織のニーズに合った適切な監視ソリューションを選択するには、まずITインフラストラクチャの中で監視が必要なコンポーネントを特定する必要があります。そのためには、ハードウェア、システム、アプリケーションを、業務運営にとっての重要度に基づいて分類します。

その後、監視戦略を策定し、最適なITインフラストラクチャ監視ソフトウェアを選択することができます。 戦略には、監視対象のハードウェアとソフトウェア、監視するメトリクス、監視の深度、および問題発生時の対応方法を含めます。これらのパラメータに基づいて、要件を満たす監視ソフトウェアを選択してください。

ESXiホスト上のVMware VMを監視する必要がある場合は、ゲストOSにエージェントをインストールするのではなく、ハイパーバイザーレベルでVMにアクセスするソリューションを選択してください。汎用的なエンタープライズ監視ソフトウェアは、物理マシンを監視するためのエージェントと、ハイパーバイザーホストおよびVMを監視するための仮想化APIを組み合わせています。このような監視ソフトウェアは、SNMPなどのプロトコルを使用してネットワークデバイスやその他の機器を監視し、専用のAPIを使用してAWSやAzureクラウド内のリソースを監視することができます。

関連する指標を収集する

IT監視のベストプラクティスでは、常に適切な情報を収集するためのアプローチが推奨されています:

  • 物理マシン、仮想マシン、アプリケーション、ネットワーク、および各種デバイスについて、監視が必要なメトリクスを定義してください。
  • パフォーマンス指標と監視ログを定期的に確認してください。
  • 定期的に監視対象の指標を確認し、必要に応じてITインフラの監視体制を見直してください。

適切なダッシュボードへのアクセスを設定する

IT監視ソフトウェアは通常、データを収集し、Webインターフェース上で最適化された形式で情報を表示します。Webインターフェースには通常、収集された情報を可視化したダッシュボードが含まれています。 システム管理者や権限を持つユーザーは、Webインターフェースを開き、インフラ全体や特定のサーバー、デバイス、アプリケーションに関する概要情報、グラフ、統計、その他のデータを確認できます。

監視データを閲覧する必要があるユーザーを定義します。最小権限の原則に従い、ユーザーが職務を遂行するために必要なもののみを監視できるようアクセス権を付与します。ユーザーグループごとにカスタムダッシュボードを設定します。例えば:

  • プログラマーは、データベースサーバー、アプリケーションサーバー、Webサーバー、および自身が使用するKubernetesクラスターを監視できます。
  • テスターは、テストに使用されるサーバーや仮想マシンを監視できます。
  • システム管理者はすべての項目を監視できます。
  • 営業マネージャーは、CRMシステムに関する情報を確認する必要がある場合があります。

自動アラート/通知の設定

管理者とユーザーは、提供されているダッシュボードで監視データを随時確認できます。これは便利な機能ですが、問題が発生した際にどのようにして即座に通知を受け取ればよいのでしょうか?管理者が一日中統計情報を監視し続けることはできません。そのため、ほとんどのIT監視ツールでは、Eメール、Skype、SMSなどを通じて送信される自動通知を設定できるようになっています。管理者は、特定のイベントに基づいてトリガーを設定し、選択した宛先に通知を送信することができます。

アラートには優先順位を付けることができます。最も重大なアラートは遅延を最小限に抑えるべきですが、その他のアラートは数分程度の遅延をもって送信しても構いません。例えば、ホストがオフラインになった場合、2分後に管理者、上級ユーザー、チームリーダーで構成されるメールグループまたはSkypeグループに通知メッセージが送信されます。サーバーが再びオンラインになった場合も、適切な通知メッセージがグループに送信されます。 また、サーバーのディスク容量不足、CPU過負荷、メモリ不足に対するアラートを設定することも可能です。ネットワーク機器に適切な機能があれば、ネットワークプリンターのトナーカートリッジ残量が少ないことに関する通知を設定することさえできます。ユーザーが常に重要なページを印刷しており、在庫に満タンのカートリッジがあるかどうかを確認し忘れるのを防ぎたい場合に役立ちます。

インフラストラクチャ監視のベストプラクティスでは、必要なパラメータについてのみ自動通知を送信するように設定することを推奨しています。すべての問題について通知を送信するように設定すると、受信した情報の処理が困難になります。

通知のしきい値を設定する

通知を表示および送信するための閾値を設定します。通知を即座に送信するように設定すると、CPUパフォーマンスの短時間の急上昇や、サーバーの過負荷による短時間の"接続不能"状態などにおいて、多数のアラートメッセージが表示されることになります。適切な閾値を設定することで、タイムリーに対応しつつ、通知の氾濫を最小限に抑えることができます。 しきい値を適切に設定することで、誤検知によるトリガーの発生確率を低減できます。

システム監視ソフトウェアを設定する際は、データ収集およびレポート生成の間隔を適切に設定してください。レポート生成の間隔が短すぎると、ダッシュボード上のレポートやグラフを生成するプロセスがコアプロセスに干渉し、CPU負荷が大幅に増加する可能性があります。その結果、監視サーバーの過負荷や障害を引き起こす恐れがあります。

通知の優先度を設定する

通知に優先順位を付けなければ、無関係なデータが大量に表示されてしまいます。このデータの中から重要な情報を見つけ出す作業は、時間がかかり、不便で、非効率的です。ITインフラ監視ソリューションを設定し、設定した優先順位に基づいて必要な情報のみを表示するようにすれば、業務がスムーズになります。

ITインフラでは様々な問題が発生する可能性があります。その中には重大なものもあれば、そうでないものもあります。

  • 重要な課題の例. Active Directory ドメイン コントローラー サーバー、本番用データベース サーバー、ミッションクリティカルな仮想マシンを実行している ESXi サーバーの障害、ディスク ドライブの S.M.A.R.T. ステータスの異常、ディスク容量の不足、CPU 温度の上昇、空きメモリの不足など。
  • 中程度の(優先度中)課題の例。 テストサーバー、テスト用VM、バグトラッカーなどの障害
  • 軽微な問題の例。 プリンターのトナー残量が少ないなど

優先順位は企業によって異なる場合があるため、自社の要件に合わせて調整する必要があります。監視ダッシュボードへの表示や自動通知の送信において、可能であれば、問題の種類ごとに優先順位を設定してください。例えば:

  • [Critical] ホスト 192.168.17.2 (DC01) に 5 分間接続できません。
  • [Critical] ホスト 192.168.17.89 (Ora12-prod) の CPU 温度が高すぎます (82 °C)。
  • [Critical] ホスト 10.10.10.6 (FS-06) の C: ドライブの空き容量が不足しています。
  • [Moderate] ホスト 192.168.17.22 (ESXi-22) 上の VM 10.10.10.35 (Oracle-test) に、5 分間接続できません。
  • [Minor] 192.168.17.8(HPプリンター)のトナー残量が少なくなっています.

重大な問題は緊急性を要するため、管理者はできるだけ早く対処すべきです。軽微な問題については、対応を後回しにしても構いません。

監視機能が正常に動作しているかを確認する

ITインフラ監視システムの設定が完了したら、その動作確認や通知が適切に送信されるかどうかをテストする必要があります。実際の緊急事態が発生するのを待つのではなく、設定完了後にテストを実施するようにしてください。テスト終了後、IT監視システムの微調整が必要になる場合があります。テストを行うことで、監視が想定通りに機能していることを確認し、その効率性を判断することができます。

対応策を策定する

問題が発生した際に通知を受け取った後の対応を明確に定義してください。重大な問題への対応策を迅速に講じられるようにしておく必要があります。また、障害やデータ損失が発生した場合に、業務の継続性と災害復旧を確保し、組織の要件を満たすために、災害復旧計画を策定し、それに従う必要があります。 RTO そして RPO. サーバーや特定のアプリケーションデータの復旧に備え、常にバックアップを用意しておく必要があります。

NAKIVOのIT監視ソリューションのように、包括的なデータ保護および災害復旧機能を備えた監視ソフトウェアも存在します。サーバーの障害やデータ損失は、あらゆる種類の環境で発生する可能性があります。データのバックアップを行うことで、データを保護し、障害発生時にデータを復旧させ、短時間でワークロードを正常な稼働状態に戻すことが可能になります。 NAKIVO Backup & Replication 物理的なLinuxおよびWindowsマシン、VMware vSphere仮想マシン、Microsoft Hyper-V仮想マシン、Amazon EC2、Nutanix AHV、およびMicrosoft 365のバックアップに対応した、汎用的なデータ保護ソリューションです。

1年間の無料データ保護: NAKIVO Backup & Replication

1年間の無料データ保護: NAKIVO Backup & Replication

2分で導入でき、仮想環境、クラウド、物理環境、SaaSのデータを保護します。バックアップ、レプリケーション、即時復旧のオプションをご用意しています。

People also read