管理している仮想マシンが突如ダウンし、起動不可に陥る現象が発生しました。
特に予兆もなく、急に発生したのでとてもあせりました・・・
エラー内容は下記
ESXi上では↓画像のエラーがでていました。
上記エラーのOKを押し、パワーオンをすると起動した!!と思いきや
すぐダウンし同じエラーのエンドレスループになりました。
中途半端に起動したりするのやめてほしい・・・・
事象が発生した原因
事象が発生した原因はエラー内容の示すとおり「redoログ」の破損により
仮想マシンの起動に失敗しているということでした。
そもそも「redoログ」とはスナップショットを作成した段階でできる「差分ファイル」と
なっていて、スナップショットを削除したりするとそれらの差分が統合される動きとなるはずが
何らかの要因で統合できない → 破損となる?ようです。(と理解しています・・・)
対処方法
今回は3ヶ月前に取得したスナップショットのみ残っている状態の仮想マシンにて
事象が発生しました。
色々調べた結果、スナップショット削除により事象が解決されるという情報を得たので
実行します。
vSphere web Clientより対象の仮想マシンを選択し、右クリックメニューより
スナップショットの管理 → スナップショットを削除します。
私が実施した環境では削除後に無事に仮想マシンを起動することができました!
スナップショットの管理について
繰り返しになりますが、スナップショットファイルは、元のディスクの差分ファイルなので
長期間保持すると、スナップショットのサイズはどんどん大きくなっていきます。
そのため、ホストマシンや仮想マシンのパフォーマンスに影響が出てきたり、今回のような
予期せぬエラーに見舞われるとのことでした。
vmwareのナレッジサイトにはベストパフォーマンスを維持するには
「スナップショットは2つか3つまで」で、「24時間~72時間以上は保持しない」が推奨と
記載がありました。
あくまでも検証(バージョンアップ後の不具合発生時切り戻し用とか)での利用とし、
定期バックアップなどには利用しないほうが良さそうです。
作業前に念のためスナップショット取得 → 作業完了 → スナップショットの削除忘れが
ほとんどがと思うので、作業後はスナップショットを削除!を習慣化したいですね!
また、定期バックアップはサードパーティ製のバックアップツールを使うなどしたほうが
安定かなと思います。
以上、皆さんの参考になれば幸いです。