影響を受けたサービス
- Environment: environment-698804602579f38ed02c5e4e
- App service: service-69921d789fdcdd695840c0ea(コンテナ名: stock-trend)
- PostgreSQL: tpe1.clusters.zeabur.com:28618
- リージョンノード: ip-172-31-90-136.ap-east-2.compute.internal 等
【タイムライン(UTC)】
- 13:52:18: app pod が Killing されました(弊社操作ではありません。設定済みの定期再起動は 06:00 UTC で、当日の 06:00 には正常に実行済みです)
- 13:52:33: 新しい pod で FailedCreatePodSandBox が発生:plugin type="aws-cni" failed (add): failed to assign an IP address to container
- 14:01:21: PostgreSQL が停止(プラットフォームの監視で確認)
- 14:01 ~ 15:09: アプリケーションが継続的に "server closed the connection unexpectedly" を受信。DB の CPU/メモリは発生前まで完全に正常(CPU ピーク 1.16%、メモリピーク 197MB)であり、OOM は除外されます
- 15:09: DB が復旧し、サービスが自動的に正常稼働に戻りました
【質問】
- 13:52–14:01 UTC の間に ap-east-2 でノードメンテナンスや node drain はありましたか?なぜ app pod と DB が設定時間外に再起動されたのでしょうか?
- DB 再起動後、接続復旧まで約 68 分かかったのはなぜですか?当時の aws-cni IP 割り当て失敗(ノードの IP プール枯渇など)と関連がありますか?
- 現在、弊社の PostgreSQL サービスに対してプラットフォーム側や誤設定による定期再起動が有効になっていますか?(確認をお願いします。もしあれば無効化してください)
- 今後、このようなプラットフォームメンテナンスに関する事前通知や、購読可能なステータスページはありますか?
添付ファイル:当日の runtime log(完全なファイルを提供可能です)