マイクロソフト系技術情報 Wiki」は、「Open棟梁Project」,「OSSコンソーシアム .NET開発基盤部会」によって運営されています。

目次

概要

「処理能力」の問題や「障害」の発生を未然に防止したり、迅速に対応したりすることで
高い可用性を維持するには、「処理能力」・「信頼性(障害)」に関する情報の監視が必要になる。

一般的に、サーバの監視タスクには、以下の項目がある。

サーバの監視タスク

処理能力の監視

サーバ マシン

ハードウェアの状態、リソース消費量などの警告を確認して、問題発生の可能性を確認する。

サーバ プロセス

サーバ プロセス独自のリソース(キュー数、スレッド数、仮想アドレス空間など)の利用状況、アクセス状況を確認する。

ログ監視

信頼性(障害)

ハードウェア・ソフトウェアの障害、設定ミスによるエラーの発生情報と発生原因などを確認する。

イベント

各種イベント(システム イベント、アプリケーション イベント、セキュリティ イベント)を確認する。

アクセス

サーバへのリクエスト・レスポンス、レスポンス時間などを確認する。

死活(生存)監視

サービス

サーバ上のネットワーク サービスと定期的に通信を行い、正常に動作しているか否かを確認する。

ネットワーク

サーバに向かって定期的にpingなどを実行することで、
経路が途中で遮断されていないかなどを確認する。

ネットワークのトラフィック監視

ネットワークのトラフィック量、

特定のサーバ、サービスへのトラフィック量を定常的に監視することで、
トラフィック量が最大になる時間帯の把握や、回線容量の再見積もりができる。

アップデートの監視

について確認する。

セキュリティ監視

問題の分析・対策、結果の確認の手順

処理能力

「処理能力」の監視と、問題の分析・対策、結果の確認の手順。

「処理能力」の監視と対策の手順

対策の実施例

  1. ハードウェア増設の必要性は、「システム モニタ」で「カウンタ」を監視することで判断する。
  2. パラメータ チューニングについては、種々の監視を重ね必要性を判断する。
    またパラメータを変更する場合は、システムのバックアップを用意した上で、慎重に実施する。
  3. DBMSのインデックス チューニングの必要性は、
    各DBMSのトレース ツール等を使用してDBサーバを監視することで判断する。
  4. アプリケーションがボトルネックとなっている際に、コードレベルで問題を特定する。
    支援ツールなどを活用してボトルネックの特定後、必要に応じてプログラムを改修する。

信頼性(障害)

「信頼性(障害)」の監視と、問題の分析・対策、結果の確認の手順(フロー図)。

「信頼性(障害)」の監視と対策の手順

手順の説明

問題の把握・原因の特定

問題発生後のセルフ・サポートの開始部分になります。

問題の把握・原因の特定をしていく作業になります。

例えば、システム上で実行される種々の処理が引き起こす、

また、これら収集したシステム状態の情報は解決できなかった場合にも、 サポート・エンジニアに提供する重要な情報源になります。

解決策の決定

セルフ・サポートの部分になります。
「原因の把握」ができれば、その情報を元に
Webなどから情報を収集して解決策を導く事が出来ます。

↓↓↓上記で解決できなかった場合

運用回避可能?

原因の把握→本対策とのトレードオフを検討しつつ
運用回避などで対処できないかも合わせて検討しておきます。

・・・例えば、以下の様な場合。

サポートを活用して解決策を決定する

サポート・エンジニアとの連携部分になります。

ここまでで収集したシステム状態の情報は
サポート・エンジニアに提供します(現象報告レベルでも可)。

この場合も(原因の特定がまだされていないようなら)
継続して「原因の把握」が必要になります。

この作業は、現地作業者とサポート・エンジニアとの
連携により行われ、最終的に解決策を導く形をとります。

因果関係の分析例

障害対応に使用するツールの一覧


Tags: :障害対応, :性能, :デバッグ


トップ   新規 一覧 単語検索 最終更新   ヘルプ   最終更新のRSS