こんにちは。バックエンドのログに基づき、今回の停止原因を調査いたしました。詳細は以下の通りです。
これはお客様のプログラムや設定の問題ではありません。 アプリは停止前まで正常に動作しておりました(最後の要求は約6月9日 21:22で、エラー、クラッシュ、メモリ不足などは発生しておりません)。
停止の真の原因は、6月9日夜間に共有クラスター(Taipeiリージョン)で実施された一括ノード入れ替えです。影響の時系列は以下の通りです(台北時間):
- 21:30頃より、お客様のサービスが稼働していたノードがドレインされ、Podが退去させられて新しいノードへ再スケジュールされたため、サービスが停止しました。
- ノード全体で一斉にイメージの再取得が行われたため、イメージレジストリが混雑しました。お客様のイメージ(約485MB)の取得に45分を要し、Podがなかなか準備完了状態になりませんでした。
- 取得完了後にPodは一度起動に成功しましたが(ログに
Listening on http://0.0.0.0:8080 と表示)、ノード入れ替えが不安定なプロセスの中で終了状態(FailedKillPod / DeadlineExceeded)でスタックしてしまいました。これにより、6月10日に手動で再デプロイされるまでサービスが異常な状態となっていました。
現在は新しいノード上で安定して稼働しており(Running、再起動0回)、状態は正常ですのでご安心ください。
今回のイメージ取得に異常な時間がかかった件については、インフラチームにフィードバックし、今後のノード入れ替えによるサービスへの影響を最小限に抑えるよう検討いたします。
もし本サービスの安定性が非常に重要であり、共有クラスターのノード入れ替えの影響を受けたくない場合は、リソースとノードが完全に独立した Dedicated Server(専用サーバー)へのアップグレードをご検討ください。
その他ご不明な点がございましたら、新しい投稿を作成してください。よろしくお願いいたします。