Tech Report

#7 オンライン遅延の分析事例

作成者: 山本 太郎|May 12, 2020 3:00:00 PM

 

 

 

一般的なコンピューターシステムでは様々な業務を稼動させていますが、大別するとバッチ、オンライン、端末に分類できます。その中でもオンライン業務は多くの方々が利用されているため、遅延が発生すると大きな影響を及ぼします。今回は重要業務であるオンライン遅延についてメインフレーム向け性能管理ソフトウェア ES/1 NEO MFシリーズを活用した分析事例をご紹介します。

 

 

現象

オンラインが遅延している時間帯にトランザクション数は増加していないが、特定のオンライン業務のレスポンス時間が遅くなります。

 

 

調査

先ずは状況を確認するため、オンラインのレスポンス時間とトランザクション数を通常日と遅延日とで比較したところ、特定のオンライン業務のレスポンス時間は大幅に悪化しており、特に午前中はオンラインのレスポンス時間が3秒以上になっている時間帯があります。(図1)

 

 

 

 

トランザクション数は通常日と遅延日に大きな変化はないです。(図2)

 

 

 

 

次にCPU、メモリー、ディスクについて確認します。CPU使用率は遅延日の方が若干高くなっていますが、最も使用率が高い時間帯でも40%以上の余力があります。(図3)
メモリーは書面上割愛しますが、メモリー使用率に変化はなく、過負荷を判定するページングは発生していない状況です。

 

 

 

 

負荷の高いディスクボリュームは偏りはありますが、ディスクのレスポンス時間は3ミリ秒以下で良好です。(図4)

 

 

 

 

問題となるようなディスクボリュームが発見できなかったため、遅延時間帯にアクセス回数が増加しているディスクボリュームがないか調査すると、アクセス回数が増加したディスクボリュームがありました。オンラインが遅延している時間帯、該当ボリュームのアクセス回数が1秒当たり500回以上発生しています。(図5)

 

 

 

 

遅延したオンライン業務のレスポンス時間とアクセス回数が増加したディスクボリュームを確認すると顕著な相関があります。(図6)

 

 

 

 

考察

オンラインレスポンスが悪化した時間帯に特定ディスクボリュームのアクセス回数が増加していたことから、遅延したオンライン業務で使用するファイルが該当ボリュームに含まれているか確認したところ、該当ボリュームはオンラインで使用するデータベースのインデックスが入っていました。

分析結果を受けて、該当ボリュームに含まれていたデータベースについてお客様側で調査したところ、対象インデックスのエクステントが増加していることが判明しました。この事から、断片化により、無駄なI/Oが増加したことで、オンラインのレスポンス時間が遅延したと考えられます。

 

 

チューニング後

該当インデックスの再創成を実施したところ、データベースが入っているディスクボリュームのアクセス回数が減少し、オンラインの遅延は解消されました。(図7)

 

 

 

 

まとめ

今回の場合、ディスクボリュームのレスポンス悪化ではなく、アクセス回数の増加から問題発見に至りましたが、先ず分析する際は、リソースの3要素であるCPU、メモリー、ディスクの各種項目を確認します。その場合、基本的なことですが、遅延日だけではなく通常日と比較することで違いを見つけ、リソースが特定できればその詳細を調査することにより、問題分析の手掛かりになることがあります。

 

今回ご紹介した内容が今後のパフォーマンス管理に少しでもお役に立てば幸いです。