きっかけ:「ロードバランサによる振り分け警告」というシステムメッセージを検知
Webサーバー、APサーバー、DBサーバーの3階層で構成されているネット販売システムにおいて、9:30、11:30、15:30の時間帯で、「ロードバランサによる振り分け警告」というエラーメッセージを検知しました。
Webサーバーは4台でバランシングしてありますが、エラーメッセージの対象は4号機でした。(図1)
(図1:システム構成図)
分析事例
エラーメッセージの原因特定
Web、AP、DBサーバーを総合的に分析 自社で特定できなかった障害発生原因をIIMが迅速に解明
オープンシステム向け性能管理ソフトウエア 「ES/1 NEO CSシリーズ」導入事例
Webサーバー、APサーバー、DBサーバーの3階層で構成されているネット販売システムにおいて、9:30、11:30、15:30の時間帯で、「ロードバランサによる振り分け警告」というエラーメッセージを検知しました。
Webサーバーは4台でバランシングしてありますが、エラーメッセージの対象は4号機でした。(図1)
(図1:システム構成図)
当初、ロードバランサ側の問題で振り分け異常が発生していると考え、そちらを集中的に調査していましたが、なかなか原因が解明できません。
インフラ基盤を大幅に刷新した直後だということもあり、早急な原因究明が必須でした。
このシステムは定常的にES/1でデータを取得していたため、IIMに性能評価をご依頼いただきました。
エラーが発生した時のサーバー側の状況を確認すると、Webサーバー4号機のレスポンス時間が長くなっていることが判明しました。他のWebサーバーのレスポンス時間は0.5秒以内でしたが、4号機のエラー発生時は2.5秒以上となっていました。(図2)
この結果から、エラー発生時にレスポンスの悪化が生じていることも分かりました。
アクセス件数においては他のWebサーバーと同様の振り分け状況で、問題はありませんでした。
(図2:4号機の平均レスポンス時間とアクセス件数)
次に、レスポンスが悪化した原因を調査するため、Webサーバー4号機とその経路上にあるAP、DBサーバーのリソース状況を確認しました。
各サーバーともCPU、メモリは特に問題となる点はなく良好に稼動していましたが、I/Oに関しては、エラーが発生した時間帯で、APサーバーの特定デバイスのレスポンス時間が長くなっていることが判明しました。(図3)
(図3 APサーバーの特定デバイスのレスポンス時間状況)
また、今回のシステムは共有ディスクを使用していますが、レスポンス悪化を示したのは4号機のみだったため、共有ディスクには問題ないと推測しました。
IIMからの結果を受け、システム部門でさらに調査したところ、原因はAPサーバーと共有ディスクの接続部位であるFCスルーカード(ディスク関連機器)の故障と特定し、交換することを決定いたしました。
FCスルーカードを交換して以降、レスポンス時間も正常になり、「ロードバランサによる振り分け警告」というメッセージも発生しなくなりました。(図4)
(図4 FCスルーカード交換後のレスポンス時間の状況)
ES/1 Shelty
次世代型エンタープライズシステム向け性能管理ツール ES/1 Sheltyは、レガシーシステムからクラウド上で利用するすべてのシステムに対し、高精度かつ広範囲なデータ計測を実現します。
ES/1 NEO MFシリーズ
ES/1 NEO MFシリーズは国内トップシェアを誇るメインフレーム向け性能管理ソフトウエアです。メインフレームの性能管理を容易に実現し、システムの最適化、サービスの安定稼働を強力にバックアップします。
ES/1 NEO CSシリーズ
ES/1 NEO CSシリーズはマルチプラットフォーム、大規模、分散環境などオープンシステム特有の問題を解決し、無駄なコストや工数をかけずに、効果的な性能管理を実現します。Web上で全サーバーの稼働状況を閲覧できるため、分散された多数のサーバーも一元的に管理できます。
NSKネットアンドシステム株式会社 様
メインフレーム向け性能管理ソフトウエア 「ES/1 NEO MFシリーズ」導入事例
#分析事例
株式会社LIXILインフォメーションシステムズ 様
メインフレーム向け性能管理ソフトウエア 「ES/1 NEO MFシリーズ」導入事例
#品質向上
#タイムリーな情報共有
#システムの稼働状況の把握
#分析事例
T&D情報システム株式会社 様
メインフレーム向け性能管理ソフトウエア 「ES/1 NEO MFシリーズ」導入事例
#コスト削減
#分析事例