サービスが異常終了しました

Waiting for author response

FFrankPRO1日前

6月9日の午後9時半過ぎから、サービスが勝手に停止しているようです。

6月10日に手動で再デプロイを行いました。

ログを確認して、なぜサービスが自動的に停止したのか原因を調査していただけますでしょうか。

CCanEMPLOYEE21時間前

こんにちは。バックエンドのログに基づき、今回の停止原因を調査いたしました。詳細は以下の通りです。

これはお客様のプログラムや設定の問題ではありません。 アプリは停止前まで正常に動作しておりました（最後の要求は約6月9日 21:22で、エラー、クラッシュ、メモリ不足などは発生しておりません）。

停止の真の原因は、6月9日夜間に共有クラスター（Taipeiリージョン）で実施された一括ノード入れ替えです。影響の時系列は以下の通りです（台北時間）：

21:30頃より、お客様のサービスが稼働していたノードがドレインされ、Podが退去させられて新しいノードへ再スケジュールされたため、サービスが停止しました。
ノード全体で一斉にイメージの再取得が行われたため、イメージレジストリが混雑しました。お客様のイメージ（約485MB）の取得に45分を要し、Podがなかなか準備完了状態になりませんでした。
取得完了後にPodは一度起動に成功しましたが（ログに Listening on http://0.0.0.0:8080 と表示）、ノード入れ替えが不安定なプロセスの中で終了状態（FailedKillPod / DeadlineExceeded）でスタックしてしまいました。これにより、6月10日に手動で再デプロイされるまでサービスが異常な状態となっていました。

現在は新しいノード上で安定して稼働しており（Running、再起動0回）、状態は正常ですのでご安心ください。

今回のイメージ取得に異常な時間がかかった件については、インフラチームにフィードバックし、今後のノード入れ替えによるサービスへの影響を最小限に抑えるよう検討いたします。

もし本サービスの安定性が非常に重要であり、共有クラスターのノード入れ替えの影響を受けたくない場合は、リソースとノードが完全に独立した Dedicated Server（専用サーバー）へのアップグレードをご検討ください。

その他ご不明な点がございましたら、新しい投稿を作成してください。よろしくお願いいたします。

返信を追加

フォーラム