Open棟梁Project - マイクロソフト系技術情報 Wiki

目次

概要

「処理能力」の問題や「障害」の発生を未然に防止したり、迅速に対応したりすることで
高い可用性を維持するには、「処理能力」・「信頼性(障害)」に関する情報の監視が必要になる。

一般的に、サーバの監視タスクには、以下の項目がある。

サーバの監視タスク

処理能力の監視

サーバ マシン

ハードウェアの状態、リソース消費量などの警告を確認して、問題発生の可能性を確認する。

サーバ プロセス

サーバ プロセス独自のリソース(キュー数、スレッド数、仮想アドレス空間など)の利用状況、アクセス状況を確認する。

ログ監視

信頼性(障害)

ハードウェア・ソフトウェアの障害、設定ミスによるエラーの発生情報と発生原因などを確認する。

イベント

各種イベント(システム イベント、アプリケーション イベント、セキュリティ イベント)を確認する。

アクセス

サーバへのリクエスト・レスポンス、レスポンス時間などを確認する。

死活(生存)監視

サービス

サーバ上のネットワーク サービスと定期的に通信を行い、正常に動作しているか否かを確認する。

ネットワーク

サーバに向かって定期的にpingなどを実行することで、
経路が途中で遮断されていないかなどを確認する。

ネットワークのトラフィック監視

ネットワークのトラフィック量、

特定のサーバ、サービスへのトラフィック量を定常的に監視することで、
トラフィック量が最大になる時間帯の把握や、回線容量の再見積もりができる。

アップデートの監視

について確認する。

セキュリティ監視

問題の分析・対策、結果の確認の手順

処理能力

「処理能力」の監視と、問題の分析・対策、結果の確認の手順(フロー図)。

「処理能力」の監視と対策の手順

対策の実施例

  1. ハードウェア増設の必要性は、「システム モニタ」で「カウンタ」を監視することで判断する。
  2. パラメータ チューニングについては、種々の監視を重ね必要性を判断する。
    またパラメータを変更する場合は、システムのバックアップを用意した上で、慎重に実施する。
  3. DBMSのインデックス チューニングの必要性は、
    各DBMSのトレース ツール等を使用してDBサーバを監視することで判断する。
  4. アプリケーションがボトルネックとなっている際に、コードレベルで問題を特定する。
    支援ツールなどを活用してボトルネックの特定後、必要に応じてプログラムを改修する。

信頼性(障害)

「信頼性(障害)」の監視と、問題の分析・対策、結果の確認の手順(フロー図)。

「信頼性(障害)」の監視と対策の手順

トップ   新規 一覧 単語検索 最終更新   ヘルプ   最終更新のRSS