运维事故，公司虚拟化服务器 ALL IN BOOM 了

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

已注册用户请登录

这是一个创建于 798 天前的主题，其中的信息可能已经有所发展或是发生改变。

单机跑的 Proxmox VE ，硬盘超发了，同事为了升级一台虚拟机内 300 多 G 的内部项目，在下班前打包备份全部项目文件到虚拟机本地目录（虚拟机内磁盘剩余 400G ，以为没问题，就先下班了），此时没人知道该虚拟机所在的宿主机物理磁盘实际仅剩余 200 多 G ，结果就是大家都下班后，有其他部门在加班的同事反馈内部系统登录不了，开发数据库也连不上，在家准备远程到公司电脑查看，结果发现 VPN 也登不上了，远程处理不了只能前往公司处理，然后就发现 Proxmox VE 宿主机物理磁盘被干爆了，导致上面跑的好几个内部系统、数据库和 VPN 全部 GG 了，迁移了几个虚拟磁盘到其他物理磁盘后所有服务恢复，总共导致服务中断两小时，还好全部服务都是对内的而且是下班时间，没造成什么大影响，群里通报一下差不多就过去了，自己引以为戒

我是刚接手不久，还没来得及优化，已经采购了硬盘，正在路上呢，没想到就挂了。。。

磁盘

下班

虚拟

proxmox

39 条回复 2023-10-23 11:33:57 +08:00

lifekevin

2023-10-20 12:11:31 +08:00

运维不管怎么交接，总是能留下大大小小的坑等着后人一脚踩进去

iloveayu

2023-10-20 12:12:53 +08:00

这还好啦，刚接手锅不能算你的，只是恰好雷到你手里炸了，并且你还提前预判（买硬盘）了。
赶紧要钱把 VPN 拆出来搞个硬的，有电就有网，这种事要自己来回跑不值啊。

Andim

2023-10-20 12:14:17 +08:00 via iPhone

把数据放虚拟磁盘里这就过分了

cqmzgg2023

2023-10-20 12:25:09 +08:00

感觉 PVE 没 ESXI 稳

Iamsonny

2023-10-20 13:16:34 +08:00

数据还在，这多是小问题。。
更别说是内部系统。无所谓。。。

Iamsonny

2023-10-20 13:19:21 +08:00

不过很少见有公司跑 pve 的。。

Felldeadbird

2023-10-20 13:21:07 +08:00

系统可以恢复就不是大问题了。就怕 boom 了之后，有一些服务启动不了。里面数据还跑不出来。

Felldeadbird

2023-10-20 13:22:16 +08:00

上面描述有点歧义，不是大问题指的是数据可以恢复，业务也正常运作。不是指这个事故不大。

paranoiagu

2023-10-20 13:38:48 +08:00 via Android

硬盘还是要分配多少实际占用多少。

baicx

2023-10-20 13:49:32 +08:00

@cqmzgg2023 #4 在 op 这个情景中，与是 pve 还是 esxi 没关系。esxi 物理磁盘不够了照样挂，那是就会有人说感觉 esxi 兼容性没 pve 好。

yyzh

2023-10-20 14:01:32 +08:00

@baicx 因为服务器的系统支援列表里一般都是支持 esxi.pve 的我还真没见过服务器系统列表里有它的.

fs418082760

2023-10-20 14:01:39 +08:00

我家 pve 跑了 5 年了，公司还是 esxi 方便
加个硬盘都要命令不方便

Jirajine

2023-10-20 14:06:58 +08:00 via Android

@yyzh #11 pve 就是 Debian ，买了 Debian 支持的服务器也可以支持 pve 。

www5070504

2023-10-20 14:18:14 +08:00

内存硬盘超配的只能说胆子真大

yyzh

2023-10-20 14:22:55 +08:00

@Jirajine 也是不支持.哈哈.可能也没啥公司会用 debian 吧.

263

2023-10-20 14:25:25 +08:00

别的不说，既然有业务在上面跑，基础监控预警都没一个的吗？

Leeeeex

PRO

2023-10-20 14:28:46 +08:00

机器有价数据无价，数据没丢就是好事。

cjpjxjx

2023-10-20 14:39:12 +08:00 via iPhone

@263 业务系统有监控，宿主机没监控，正准备下个月部署一套监控来着

cqmzgg2023

2023-10-20 15:14:32 +08:00

业务不都有虚拟磁盘吗？怎么会把宿主机给填满。

ervqq

2023-10-20 15:44:52 +08:00

为何不上云？

gvdlmjwje

2023-10-20 16:20:02 +08:00

为啥不用 esxi 我直接用 veeam one 监控
cpu IOPS 流量剩余空间给你现实的清清楚楚直接拿台显示器监控页面投上去就完了

nxforce

2023-10-20 16:28:25 +08:00

宿主机应该还是有监控的，我们这边所使用的超融合除了会监控 guest 系统的资源占用，本身的资源占用也会发警告的。

dongkof

2023-10-20 17:19:43 +08:00 via iPhone

吓得我赶紧去看看，虚机都做的瘦硬盘为了节省容量，前两天还做了个几 t 的 oracle 测试系统，拉数据库前还做了快照，我感觉快炸了

Quarter

2023-10-20 20:10:23 +08:00 via Android

@Andim 额，数据一般不也放虚机里嘛，不在虚拟磁盘的话放在哪里哇

Quarter

2023-10-20 20:10:56 +08:00 via Android

@cqmzgg2023 没办法，esxi 有限制，只能单机

vivisidea

2023-10-20 20:14:00 +08:00

监控报警呢？剩余 200G ，剩余比例是多少？一般到 80%就要介入了，要么扩容，要么删掉一些数据

Andim

2023-10-20 20:26:55 +08:00

@Quarter ESXI 可以挂载物理盘呀，PVE 我没用过

fsdrw08

2023-10-20 23:10:47 +08:00 via Android

单机我只考虑 hyperv

adoal

2023-10-20 23:35:34 +08:00

所以呢，thin provisioning 这玩意，双刃剑啊。

不管怎么说，监控还是要做起来的。

adoal

2023-10-20 23:42:40 +08:00

另外呢，物理磁盘还是建议做成池。你这个案例里，“迁移了几个虚拟磁盘到其他物理磁盘后所有服务恢复”，说明物理磁盘的总量还是有富余的，这种如果用池就不会挂掉。当然，都做成池了，如果整体不够用，那就没地方可迁，所以最关键的还是要监控。

另外的另外，跑最基础的 infrastructure 的虚拟机，建议放在单独的一组池上，并且用 thick provisioning ，确保不超。甚至可以考虑单独的物理机集群……哦，你只有单机……当我没说。