サーバーを確認しました。現在はオンラインに復旧しており、ノードの状態も正常です。
今回の障害の原因はメモリ不足です。システムが頻繁にスワップ(ページング)を起こし、マシン全体が極端に低速化していました。k3sとSSHが応答しなくなったため、コンソールには「接続不可」と表示されていました。コンソールから実行された再起動は実際には機能していましたが、2GBメモリのマシンでは再起動後にシステムコンポーネントが完全に起動するまで数分かかるため、「突然直った」ように見えたのです。現在、サーバーは1.9GBのメモリのうち約6割を使用しており、さらに約500MBのスワップ領域を使用しているため、メモリ負荷は依然として高い状態です。
ご質問への回答です:
-
サーバーは正常に復旧したため、再起動の必要はありません。
-
メモリ上限について:お客様のアプリケーション(rikkahub-web、gatewayなど)はZeabur経由でデプロイされたサービスではなく、システム上で直接実行されPM2で管理されているため、PM2レベルで設定する必要があります。各アプリケーションにメモリ上限を設定すれば、上限を超えた際にPM2が自動的にプロセスを再起動し、マシン全体がダウンするのを防ぐことができます:
pm2 start <アプリケーションのエントリファイル> --max-memory-restart 300M
pm2 save
実行中のアプリケーションは、一度削除してからパラメータ付きで起動するか、ecosystem設定ファイルに各アプリケーションの max_memory_restart フィールドを追加し、実際の使用量に合わせて数値を調整してください。
- アップグレードを推奨します。2GBメモリのマシンでは、Zeaburのシステムコンポーネントだけで約1.1GBを消費するため、アプリケーションに割り当てられるのは800MB未満です。現在はスワップ領域に依存して動作している状態であり、さらに1〜2個のアプリケーションを追加すると再発する可能性があります。4GBメモリのスペックにアップグレードすれば、はるかに安定します。