Zeabur K8s 竞态条件导致 MySQL 双进程抢占文件

事件时间：2026-06-12 08:08-08:09 UTC（你时区 16:06-16:09）

事件摘要： Zeabur K8s 同时启动了新旧两个 MySQL Pod，都挂载同一个 PersistentVolume，导致两个 mysqld 进程抢占同一份 ibdata1 文件。幸运的是 InnoDB 的 file lock 机制阻止了数据损坏，但这依然是一个极高风险的竞态条件 (race condition)。

日志证据：

08:08:10 UTC - 新 Pod 启动（xsjlr）
08:08:11 UTC - 新 mysqld 进程启动
08:08:39 UTC - 新 mysqld 开始尝试锁 ibdata1，失败（error 11 = EAGAIN）
08:08:39-08:09:07 UTC - 连续 28 秒 lock 失败（每秒一次）
08:09:07 UTC - [Zeabur] TaintManagerEviction: Cancelling deletion
08:08:59 UTC - [Zeabur] Killing: Stopping container mysql（旧 Pod）
08:09:05 UTC - 旧 mysqld 收到 SHUTDOWN 信号
08:09:10 UTC - 旧 mysqld 完全关闭
08:09:13 UTC - 新 mysqld InnoDB 初始化完成
08:09:15 UTC - 新 mysqld ready for connections

为什么这很严重：

InnoDB 的 file lock 是最后一道防线。没有这个锁，两边同时写 ibdata1 会导致数据文件损坏，可能无法恢复。
这次运气好：新 mysqld 反复 try lock 失败，完全没写东西；旧 mysqld 优雅关闭，buffer pool flush 完才退出。
下次就不一定这么幸运了。

根本原因分析：

K8s 节点被打了 taint（节点状态异常）。
K8s 想驱逐 MySQL Pod 到别的节点。
先启动新 Pod（在新节点）。
然后又“Cancelling deletion”（取消驱逐，可能旧节点恢复了）。
但新旧两个 Pod 都挂载了同一个 PersistentVolume。

这是 K8s 调度的竞态条件。MySQL 应该用 StatefulSet + OnDelete 策略，保证旧的彻底死透，新的才启动。

需要 Zeabur 回答的问题：

08:08-08:09 UTC 你们 K8s 为什么同时跑了两个 mysqld 抢同一个 PV？
为什么出现 TaintManagerEviction: Cancelling？那台节点当时什么状况？
MySQL 是不是用 StatefulSet？调度策略为什么让新旧 Pod 重叠挂载同一个 PV？
怎么避免再发生？

影响：

Django 应用 Connection refused 约 52 秒。
用户看到 500 错误。
数据有损坏风险（幸运躲过）。

我们查了 6/12 08:00–08:09 UTC 平台侧的完整事件记录，以下依时间轴说明，并逐一回答你的问题。

平台侧时间轴

08:01 — 你的 MySQL 所在节点因内存压力（系统层 OOM，kubelet 短暂停止回报状态）被标记为 NotReady，并自动加上 taint。
08:06:19 — NotReady 持续超过 5 分钟的容忍时间，驱逐控制器将旧 Pod 标记为删除。
08:06:20 — 替代 Pod 立即在另一台健康节点建立并启动。
08:08:59 — 原节点的 kubelet 恢复运作，执行先前排入的删除，旧的 mysqld 收到正常关闭信号、flush 完成后退出。
08:09:04 — 原节点恢复 Ready，taint 移除，因此出现你看到的“Cancelling deletion”（此时旧 Pod 已在关闭流程中，这个取消没有实际效果）。
08:09:13 — 新的 mysqld 取得文件锁，完成初始化并开始服务。

回答你的问题

1 与 2. 该节点当时发生内存压力导致 kubelet 停止回报，被标记 NotReady；超过 5 分钟容忍时间后触发驱逐。节点在 08:09 自行恢复，驱逐随之取消。

目前数据库类服务使用 Deployment 而非 StatefulSet，volume 位于支持多节点挂载的共享存储上，因此在旧 Pod 尚未确认终止前，替代 Pod 可以挂载同一个 volume。你的分析是正确的：这条路径上没有“旧的确认终止后，新的才启动”的调度层保证。
先补充一点：这次没有发生毁损，并不全是运气——新的 mysqld 在取得 ibdata1 的锁之前不会写入任何数据文件（你看到的每秒一次 EAGAIN 重试就是这个机制），而旧的 mysqld 是 flush 完才释放锁，所以两个进程从头到尾没有同时写入。

关于如何避免：这是共享集群目前的架构行为——共享集群的节点会因健康状态进行轮调与驱逐，单一写入者的数据库在这种环境下，本来就建议搭配高可用架构来因应。如果你的数据库对中断与接管顺序敏感，建议改用专用服务器部署：专用服务器是独立的单机环境，不会发生共享集群的节点轮调与跨节点驱逐，可以从根本上避免这类事件。

影响范围：服务中断约 52 秒，数据完整性未受影响；你的每日自动备份也都正常（最近一次成功备份为 6/11 17:00 UTC）。

论坛

1 条回复