영향을 받은 서비스
- Environment: environment-698804602579f38ed02c5e4e
- App service: service-69921d789fdcdd695840c0ea(컨테이너명 stock-trend)
- PostgreSQL: tpe1.clusters.zeabur.com:28618
- 리전 노드: ip-172-31-90-136.ap-east-2.compute.internal 등
【타임라인(UTC)】
- 13:52:18: app pod가 Killing 됨(당사 작업 아님; 설정된 정기 재시작은 06:00 UTC이며, 당일 06:00에 이미 정상 실행됨)
- 13:52:33: 새 pod에서 FailedCreatePodSandBox 발생: plugin type="aws-cni" failed (add): failed to assign an IP address to container
- 14:01:21: PostgreSQL 종료됨(플랫폼 모니터링으로 확인)
- 14:01 ~ 15:09: 애플리케이션이 지속적으로 "server closed the connection unexpectedly" 오류 수신. DB CPU/메모리는 발생 전까지 완전히 정상(CPU 피크 1.16%, 메모리 피크 197MB), OOM 제외
- 15:09 이후 DB 복구, 서비스 자동 정상화
【문의 사항】
- 13:52–14:01 UTC 사이에 ap-east-2 노드 유지보수나 node drain이 있었나요? 왜 app pod와 DB가 설정된 시간 외에 재시작되었나요?
- DB 재시작 후 연결 복구까지 약 68분이 소요된 이유는 무엇인가요? 당시 aws-cni IP 할당 실패(노드 IP 풀 고갈?)와 관련이 있나요?
- 현재 당사의 PostgreSQL 서비스에 플랫폼 측 설정이나 잘못된 정기 재시작 설정이 있나요?(확인 부탁드리며, 있다면 해제해 주세요)
- 향후 이러한 플랫폼 유지보수에 대한 사전 알림이나 구독 가능한 상태 페이지가 있나요?
첨부 파일: 당일 runtime log(전체 파일 제공 가능)