「マイクロソフト系技術情報 Wiki」は、「Open棟梁Project」,「OSSコンソーシアム .NET開発基盤部会」によって運営されています。 目次 †概要 †「処理能力」の問題や「障害」の発生を未然に防止したり、迅速に対応したりすることで 一般的に、サーバの監視タスクには、以下の項目がある。 サーバの監視タスク †処理能力の監視 †サーバ マシン †ハードウェアの状態、リソース消費量などの警告を確認して、問題発生の可能性を確認する。 サーバ プロセス †サーバ プロセス独自のリソース(キュー数、スレッド数、仮想アドレス空間など)の利用状況、アクセス状況を確認する。 ログ監視 †信頼性(障害) †ハードウェア・ソフトウェアの障害、設定ミスによるエラーの発生情報と発生原因などを確認する。 イベント †各種イベント(システム イベント、アプリケーション イベント、セキュリティ イベント)を確認する。 アクセス †サーバへのリクエスト・レスポンス、レスポンス時間などを確認する。 死活(生存)監視 †サービス †サーバ上のネットワーク サービスと定期的に通信を行い、正常に動作しているか否かを確認する。
ネットワーク †サーバに向かって定期的にpingなどを実行することで、 ネットワークのトラフィック監視 †ネットワークのトラフィック量、 特定のサーバ、サービスへのトラフィック量を定常的に監視することで、 アップデートの監視 †
について確認する。 セキュリティ監視 †
問題の分析・対策、結果の確認の手順 †処理能力 †「処理能力」の監視と、問題の分析・対策、結果の確認の手順。 対策の実施例 †
信頼性(障害) †「信頼性(障害)」の監視と、問題の分析・対策、結果の確認の手順(フロー図)。
手順の説明 †問題の把握・原因の特定 †問題発生後のセルフ・サポートの開始部分になります。
問題の把握・原因の特定をしていく作業になります。 例えば、システム上で実行される種々の処理が引き起こす、
また、これら収集したシステム状態の情報は解決できなかった場合にも、 サポート・エンジニアに提供する重要な情報源になります。 解決策の決定 †セルフ・サポートの部分になります。 ↓↓↓上記で解決できなかった場合 運用回避可能? †原因の把握→本対策とのトレードオフを検討しつつ ・・・例えば、以下の様な場合。
サポートを活用して解決策を決定する †サポート・エンジニアとの連携部分になります。 ここまでで収集したシステム状態の情報は この場合も(原因の特定がまだされていないようなら) この作業は、現地作業者とサポート・エンジニアとの 参考 †因果関係の分析例 †障害対応に使用するツールの一覧 † |