「マイクロソフト系技術情報 Wiki」は、「Open棟梁Project」,「OSSコンソーシアム .NET開発基盤部会」によって運営されています。
「処理能力」の問題や「障害」の発生を未然に防止したり、迅速に対応したりすることで
高い可用性を維持するには、「処理能力」・「信頼性(障害)」に関する情報の監視が必要になる。
一般的に、サーバの監視タスクには、以下の項目がある。
ハードウェアの状態、リソース消費量などの警告を確認して、問題発生の可能性を確認する。
サーバ プロセス独自のリソース(キュー数、スレッド数、仮想アドレス空間など)の利用状況、アクセス状況を確認する。
ハードウェア・ソフトウェアの障害、設定ミスによるエラーの発生情報と発生原因などを確認する。
各種イベント(システム イベント、アプリケーション イベント、セキュリティ イベント)を確認する。
サーバへのリクエスト・レスポンス、レスポンス時間などを確認する。
サーバ上のネットワーク サービスと定期的に通信を行い、正常に動作しているか否かを確認する。
サーバに向かって定期的にpingなどを実行することで、
経路が途中で遮断されていないかなどを確認する。
ネットワークのトラフィック量、
特定のサーバ、サービスへのトラフィック量を定常的に監視することで、
トラフィック量が最大になる時間帯の把握や、回線容量の再見積もりができる。
について確認する。
「処理能力」の監視と、問題の分析・対策、結果の確認の手順。
「信頼性(障害)」の監視と、問題の分析・対策、結果の確認の手順(フロー図)。
問題発生後のセルフ・サポートの開始部分になります。
問題の把握・原因の特定をしていく作業になります。
例えば、システム上で実行される種々の処理が引き起こす、
また、これら収集したシステム状態の情報は解決できなかった場合にも、 サポート・エンジニアに提供する重要な情報源になります。
セルフ・サポートの部分になります。
「原因の把握」ができれば、その情報を元に
Webなどから情報を収集して解決策を導く事が出来ます。
↓↓↓上記で解決できなかった場合
原因の把握→本対策とのトレードオフを検討しつつ
運用回避などで対処できないかも合わせて検討しておきます。
・・・例えば、以下の様な場合。
サポート・エンジニアとの連携部分になります。
ここまでで収集したシステム状態の情報は
サポート・エンジニアに提供します(現象報告レベルでも可)。
この場合も(原因の特定がまだされていないようなら)
継続して「原因の把握」が必要になります。
この作業は、現地作業者とサポート・エンジニアとの
連携により行われ、最終的に解決策を導く形をとります。