受影响服务
- Environment: environment-698804602579f38ed02c5e4e
- App service: service-69921d789fdcdd695840c0ea(容器名 stock-trend)
- PostgreSQL: tpe1.clusters.zeabur.com:28618
- 区域节点: ip-172-31-90-136.ap-east-2.compute.internal 等
【时间线(UTC)】
- 13:52:18 app pod 被 Killing(非我们操作;我们设定的定时重启是 06:00 UTC,当天 06:00 已正常执行过一次)
- 13:52:33 新 pod 出现 FailedCreatePodSandBox:plugin type="aws-cni" failed (add): failed to assign an IP address to container
- 14:01:21 PostgreSQL 被关闭(从平台监控查到)
- 14:01 ~ 15:09 期间应用程序持续收到 "server closed the connection unexpectedly",DB CPU/内存在事发前完全正常(CPU 峰值 1.16%、内存峰值 197MB),排除 OOM
- 15:09 之后 DB 恢复,服务自行恢复正常
【想请教】
- 13:52–14:01 UTC 是否有 ap-east-2 的节点维护或 node drain?为何 app pod 和 DB 在非我们设定的时间被重启?
- DB 重启后为何需要约 68 分钟才恢复连线?是否与当时的 aws-cni IP 分配失败有关(节点 IP 池耗尽?)
- 我们的 PostgreSQL 服务目前是否有任何平台侧或误设的定时重启?(请协助确认,若有请关闭)
- 未来这类平台维护是否有事前通知或状态页可以订阅?
附件:当天 runtime log(可提供完整档案)