안녕하세요. 백엔드 로그를 통해 이번 중단 원인을 확인하였으며, 내용은 다음과 같습니다.
이는 고객님의 프로그램이나 설정 문제가 아닙니다. 앱은 중단 전까지 정상적으로 작동하고 있었습니다(마지막 요청은 6월 9일 21:22경이며, 오류, 충돌 또는 메모리 부족 현상은 없었습니다).
중단의 실제 원인은 6월 9일 저녁 공유 클러스터(Taipei 지역)에서 진행된 일괄 노드 교체 때문입니다. 영향 타임라인은 다음과 같습니다(타이베이 시간 기준):
- 약 21:30부터 서비스가 위치한 노드가 비워졌고, Pod가 퇴거되어 새 노드로 재스케줄링되면서 서비스가 중단되었습니다.
- 전체 노드에서 동시에 이미지를 다시 가져오면서 이미지 저장소가 일시적으로 정체되었습니다. 고객님의 이미지(약 485MB)를 가져오는 데 45분이 소요되어 Pod가 준비 상태가 되지 못했습니다.
- 가져오기 완료 후 Pod가 한 번 성공적으로 시작되었으나(로그에
Listening on http://0.0.0.0:8080 표시), 노드 교체 과정이 불안정한 상태에서 종료 상태(FailedKillPod / DeadlineExceeded)에 갇히게 되어, 6월 10일 수동으로 재배포하기 전까지 서비스가 비정상적으로 유지되었습니다.
현재 서비스는 새 노드에서 안정적으로 실행 중이며(Running, 재시작 0회), 상태는 정상입니다. 안심하시기 바랍니다.
이번 이미지 가져오기 지연 문제에 대해서는 인프라 팀에 피드백하여 향후 노드 교체가 서비스에 미치는 영향을 최소화하도록 검토하겠습니다.
만약 해당 서비스의 안정성이 매우 중요하여 공유 클러스터 노드 교체의 영향을 받고 싶지 않으시다면, 리소스와 노드가 독립적으로 격리된 Dedicated Server(전용 서버)로 업그레이드하는 것을 고려해 보시기 바랍니다.
다른 질문이 있으시면 새 게시물을 작성해 주세요. 감사합니다!