サーバーの不調の発生タイミングはピーク日や特定の曜日といった規則性はない
事象が発生するとサーバーへのリモート接続も不可能になり調査ができず、OSリブートを緊急で実施するしか対処方法がない
メモリが怪しいと考えているものの自社での原因特定が難しく、性能データから原因を特定してほしい
一時的にページアウトが3500ページほど発生はしているが、物理メモリの空きは3GB以上あり、物理メモリが不足している状態ではない
通常は、プログラムAとプログラムBがメモリを互いに使用している状況
事象発生時は、プログラムA、Bともにメモリ使用量が大きく、ページファイル使用率が100%に達している
ページファイルの設定は、OS自動になっているにも関わらず物理メモリサイズに対して8GBしか割り当てられていない
先ほど気になった、ページアウト数とページファイル使用率の関係が少し見えてきた
通常であれば物理メモリの追加を検討するところですが、最近のディスク性能は大幅に改善されているため、ページアウトによるディスク負荷増加による性能影響を考慮して、今回はページファイルサイズを大きくすることを提案しました。
下図は、ページファイルサイズを3倍にした後のグラフです。
このグラフで、チューニング前は、ページファイル使用率が100%にあたるラインは、チューニング後は33%のラインになります。このラインを超えている日は、プログラムがそれを超えてメモリを要求していた事が分かります。チューニング前であれば、使用率が100%に張り付くところ、ページファイルサイズを大きくしたことで100%に達していない事が確認できます。
以前のような突然のOSの不調はなくなり、I/Oに目立った増加もありませんでした。
今回はメモリ増強をせずページファイルサイズを大きくしたので、コストをかけず問題を解決できた事例でした。
サーバーをリプレースする際に、設定値が見直されることなくそのまま引き継がれ、サーバーのリプレースを繰り返すうちに、設定値が最適値とかけはなれてしまうことがあるかと思います。業務量、データ量は多くなる傾向ですから、適宜、設定値を見直すことが必要です。今回の記事が今までは問題とならなかった設定値を見直すきっかけになりましたら幸いです。