Halo, kami telah menyelidiki penyebab gangguan ini berdasarkan log backend. Berikut penjelasannya:
Ini bukan masalah pada program atau konfigurasi Anda. Aplikasi berfungsi dengan normal sebelum gangguan terjadi (permintaan terakhir sekitar tanggal 9/6 pukul 21:22, tanpa ada error, crash, atau kekurangan memori).
Penyebab sebenarnya dari gangguan ini adalah penggantian node secara massal di shared cluster (wilayah Taipei) pada malam tanggal 9/6. Berikut adalah kronologi kejadiannya (waktu Taipei):
- Mulai sekitar pukul 21:30, node tempat layanan Anda berada dikosongkan. Pod diusir dan dijadwalkan ulang ke node baru, sehingga layanan mulai terputus.
- Karena seluruh node menarik image secara bersamaan, registry image sempat mengalami kepadatan. Image Anda (sekitar 485MB) membutuhkan waktu hingga 45 menit untuk ditarik, sehingga Pod tidak kunjung siap.
- Setelah penarikan selesai, Pod sempat berhasil dimulai (log menampilkan
Listening on http://0.0.0.0:8080), namun terjebak dalam status terminasi (FailedKillPod / DeadlineExceeded) saat proses penggantian node belum stabil. Hal ini menyebabkan layanan terus mengalami gangguan hingga Anda melakukan redeploy secara manual pada tanggal 10/6.
Saat ini layanan sudah berjalan stabil di node baru (Running, 0 restart) dan dalam status normal, jadi jangan khawatir.
Mengenai waktu penarikan image yang sangat lama ini, kami akan memberikan masukan kepada tim infrastruktur untuk meninjau dan meminimalkan dampak penggantian node di masa mendatang terhadap layanan.
Jika layanan ini memerlukan stabilitas tinggi dan Anda tidak ingin terpengaruh oleh penggantian node di shared cluster, Anda dapat mempertimbangkan untuk beralih ke Dedicated Server (server khusus), di mana sumber daya dan node terisolasi secara independen.
Jika ada pertanyaan lain, silakan buat postingan baru. Terima kasih!