受影響服務
- Environment: environment-698804602579f38ed02c5e4e
- App service: service-69921d789fdcdd695840c0ea(容器名 stock-trend)
- PostgreSQL: tpe1.clusters.zeabur.com:28618
- 區域節點: ip-172-31-90-136.ap-east-2.compute.internal 等
【時間線(UTC)】
- 13:52:18 app pod 被 Killing(非我們操作;我們設定的定時重啟是 06:00 UTC,
當天 06:00 已正常執行過一次) - 13:52:33 新 pod 出現 FailedCreatePodSandBox:
plugin type="aws-cni" failed (add): failed to assign an IP address to container - 14:01:21 PostgreSQL 被關閉(從平台監控查到)
- 14:01 ~ 15:09 期間應用程式持續收到
"server closed the connection unexpectedly",DB CPU/記憶體在事發前完全正常
(CPU 峰值 1.16%、記憶體峰值 197MB),排除 OOM - 15:09 之後 DB 恢復,服務自行回復正常
【想請教】
- 13:52–14:01 UTC 是否有 ap-east-2 的節點維護或 node drain?
為何 app pod 和 DB 在非我們設定的時間被重啟? - DB 重啟後為何需要約 68 分鐘才恢復連線?是否與當時的
aws-cni IP 分配失敗有關(節點 IP 池耗盡?) - 我們的 PostgreSQL 服務目前是否有任何平台側或誤設的定時重啟?
(請協助確認,若有請關閉) - 未來這類平台維護是否有事前通知或狀態頁可以訂閱?
附件:當天 runtime log(可提供完整檔案)