起因是今天晚上一看小鸡CPU直接干到100%, 我还以为变肉鸡了

结论
这是由 DartNode 宿主管理面 / QEMU 虚拟化环境触发的问题,不是我们自己的代理、Docker 容器或业务流量导致。
更严谨地说:日志证明 DartNode 宿主侧正在通过 qemu-guest-agent 高频调用 guest 内命令 /bin/df 做磁盘采集;该行为在 旧 Debian 12 内核上触发了 kernel soft lockup,并导致 qemu-ga 忙循环吃满 1 核 CPU。
是否属于 DartNode 平台 bug,需要他们结合宿主机日志确认;但从 guest 侧证据看,触发源在宿主管理面,不在我们业务栈。
关键日志证据
宿主侧通过 QEMU Guest Agent 高频执行 df,约每 15-20 秒一次:
2026-06-29T00:52:11+0800 us7-x-dn qemu-ga[655]: info: guest-exec called: "/bin/df -B1 --output=target,size,used,avail"
2026-06-29T00:52:26+0800 us7-x-dn qemu-ga[655]: info: guest-exec called: "/bin/df -B1 --output=target,size,used,avail"
2026-06-29T00:52:42+0800 us7-x-dn qemu-ga[655]: info: guest-exec called: "/bin/df -B1 --output=target,size,used,avail"
...
2026-06-29T01:46:44+0800 us7-x-dn qemu-ga[655]: info: guest-exec called: "/bin/df -B1 --output=target,size,used,avail"
内核明确报告 qemu-ga soft lockup:
2026-06-28T19:57:45+0800 us7-x-dn kernel: watchdog: BUG: soft lockup - CPU#0 stuck for 42s! [qemu-ga:655]
2026-06-28T19:58:42+0800 us7-x-dn kernel: CPU: 0 PID: 655 Comm: qemu-ga Tainted: G L 6.1.0-9-amd64 #1 Debian 6.1.27-1
2026-06-28T19:58:42+0800 us7-x-dn kernel: Hardware name: QEMU Standard PC (i440FX + PIIX, 1996)
同时还有虚拟化磁盘/ATA 异常:
2026-06-28T20:23:56+0800 us7-x-dn kernel: ata1: lost interrupt (Status 0x58)
2026-06-28T20:24:02+0800 us7-x-dn kernel: ata1.00: failed to IDENTIFY (I/O error, err_mask=0x4)
2026-06-28T20:24:44+0800 us7-x-dn kernel: ata1.00: disable device
qemu-ga 停止时 systemd 记录其累计 CPU 时间异常:
2026-06-29T01:47:00+0800 us7-x-dn systemd[1]: qemu-guest-agent.service: Consumed 10h 32min 3.287s CPU time.