分析事例

エラーメッセージの原因特定

Web、AP、DBサーバーを総合的に分析 自社で特定できなかった障害発生原因をIIMが迅速に解明

オープンシステム向け性能管理ソフトウエア 「ES/1 NEO CSシリーズ」導入事例

きっかけ:「ロードバランサによる振り分け警告」というシステムメッセージを検知

Webサーバー、APサーバー、DBサーバーの3階層で構成されているネット販売システムにおいて、9:30、11:30、15:30の時間帯で、「ロードバランサによる振り分け警告」というエラーメッセージを検知しました。

 

Webサーバーは4台でバランシングしてありますが、エラーメッセージの対象は4号機でした。(図1)

(図1:システム構成図)

SYSTEM
SYSTEM

図1:システム構成図

 

システム部門の対応:ロードバランサを調査するも原因究明できず

当初、ロードバランサ側の問題で振り分け異常が発生していると考え、そちらを集中的に調査していましたが、なかなか原因が解明できません。

 

インフラ基盤を大幅に刷新した直後だということもあり、早急な原因究明が必須でした。

このシステムは定常的にES/1でデータを取得していたため、IIMに性能評価をご依頼いただきました。

 

 

IIMによる性能評価:①エラー発生時のレスポンス時間、アクセス件数を確認

エラーが発生した時のサーバー側の状況を確認すると、Webサーバー4号機のレスポンス時間が長くなっていることが判明しました。他のWebサーバーのレスポンス時間は0.5秒以内でしたが、4号機のエラー発生時は2.5秒以上となっていました。(図2)

 

この結果から、エラー発生時にレスポンスの悪化が生じていることも分かりました。

アクセス件数においては他のWebサーバーと同様の振り分け状況で、問題はありませんでした。

(図2:4号機の平均レスポンス時間とアクセス件数)

bunseki_03_02
bunseki_03_02

図2:4号機の平均レスポンス時間とアクセス件数

 

IIMによる性能評価:②レスポンス悪化の原因を調査

次に、レスポンスが悪化した原因を調査するため、Webサーバー4号機とその経路上にあるAP、DBサーバーのリソース状況を確認しました。

 

各サーバーともCPU、メモリは特に問題となる点はなく良好に稼動していましたが、I/Oに関しては、エラーが発生した時間帯で、APサーバーの特定デバイスのレスポンス時間が長くなっていることが判明しました。(図3)

(図3 APサーバーの特定デバイスのレスポンス時間状況)

bunseki_03_03
bunseki_03_03

図3 APサーバーの特定デバイスのレスポンス時間状況

 上記より、APサーバーのデバイスのレスポンス時間が長くなったことで、Webサーバーのレスポンスが悪化し、その結果、ロードバランサが異常を検知し、エラーメッセージが発生した可能性が高いことをご報告いたしました。

 

また、今回のシステムは共有ディスクを使用していますが、レスポンス悪化を示したのは4号機のみだったため、共有ディスクには問題ないと推測しました。

 
 

結果:警告エラーの収束

IIMからの結果を受け、システム部門でさらに調査したところ、原因はAPサーバーと共有ディスクの接続部位であるFCスルーカード(ディスク関連機器)の故障と特定し、交換することを決定いたしました。

 

FCスルーカードを交換して以降、レスポンス時間も正常になり、「ロードバランサによる振り分け警告」というメッセージも発生しなくなりました。(図4)

(図4 FCスルーカード交換後のレスポンス時間の状況)

bunseki_03_04
bunseki_03_04

図4 FCスルーカード交換後のレスポンス時間の状況

 まとめ

Webサーバー、APサーバー、DBサーバーの3階層を定常的にES/1で一元管理していたため、障害発生時の原因切り分けを迅速に行うことができました。
また、各グラフの時間軸が同じであるため、問題発生時の比較が容易に行えて、関連性を的確に把握することができました。

関連製品

関連事例