运维事故,公司虚拟化服务器 ALL IN BOOM 了 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
cjpjxjx
V2EX    职场话题

运维事故,公司虚拟化服务器 ALL IN BOOM 了

  •  
  •   cjpjxjx 2023-10-20 12:05:08 +08:00 7727 次点击
    这是一个创建于 798 天前的主题,其中的信息可能已经有所发展或是发生改变。

    单机跑的 Proxmox VE ,硬盘超发了,同事为了升级一台虚拟机内 300 多 G 的内部项目,在下班前打包备份全部项目文件到虚拟机本地目录(虚拟机内磁盘剩余 400G ,以为没问题,就先下班了),此时没人知道该虚拟机所在的宿主机物理磁盘实际仅剩余 200 多 G ,结果就是大家都下班后,有其他部门在加班的同事反馈内部系统登录不了,开发数据库也连不上,在家准备远程到公司电脑查看,结果发现 VPN 也登不上了,远程处理不了只能前往公司处理,然后就发现 Proxmox VE 宿主机物理磁盘被干爆了,导致上面跑的好几个内部系统、数据库和 VPN 全部 GG 了,迁移了几个虚拟磁盘到其他物理磁盘后所有服务恢复,总共导致服务中断两小时,还好全部服务都是对内的而且是下班时间,没造成什么大影响,群里通报一下差不多就过去了,自己引以为戒

    我是刚接手不久,还没来得及优化,已经采购了硬盘,正在路上呢,没想到就挂了。。。

    39 条回复    2023-10-23 11:33:57 +08:00
    lifekevin
        1
    lifekevin  
       2023-10-20 12:11:31 +08:00   2
    运维不管怎么交接,总是能留下大大小小的坑等着后人一脚踩进去
    iloveayu
        2
    iloveayu  
       2023-10-20 12:12:53 +08:00
    这还好啦,刚接手锅不能算你的,只是恰好雷到你手里炸了,并且你还提前预判(买硬盘)了。
    赶紧要钱把 VPN 拆出来搞个硬的,有电就有网,这种事要自己来回跑不值啊。
    Andim
        3
    Andim  
       2023-10-20 12:14:17 +08:00 via iPhone
    把数据放虚拟磁盘里 这就过分了
    cqmzgg2023
        4
    cqmzgg2023  
       2023-10-20 12:25:09 +08:00   2
    感觉 PVE 没 ESXI 稳
    Iamsonny
        5
    Iamsonny  
       2023-10-20 13:16:34 +08:00
    数据还在,这多是小问题。。
    更别说是内部系统。无所谓。。。
    Iamsonny
        6
    Iamsonny  
       2023-10-20 13:19:21 +08:00
    不过很少见有公司跑 pve 的。。
    Felldeadbird
        7
    Felldeadbird  
       2023-10-20 13:21:07 +08:00
    系统可以恢复就不是大问题了。就怕 boom 了之后,有一些服务启动不了。里面数据还跑不出来。
    Felldeadbird
        8
    Felldeadbird  
       2023-10-20 13:22:16 +08:00
    上面描述有点歧义,不是大问题指的是数据可以恢复,业务也正常运作。不是指这个事故不大。
    paranoiagu
        9
    paranoiagu  
       2023-10-20 13:38:48 +08:00 via Android
    硬盘还是要分配多少实际占用多少。
    baicx
        10
    baicx  
       2023-10-20 13:49:32 +08:00   1
    @cqmzgg2023 #4 在 op 这个情景中,与是 pve 还是 esxi 没关系。esxi 物理磁盘不够了照样挂,那是就会有人说感觉 esxi 兼容性没 pve 好。
    yyzh
        11
    yyzh  
       2023-10-20 14:01:32 +08:00
    @baicx 因为服务器的系统支援列表里一般都是支持 esxi.pve 的我还真没见过服务器系统列表里有它的.
    fs418082760
        12
    fs418082760  
       2023-10-20 14:01:39 +08:00
    我家 pve 跑了 5 年了,公司还是 esxi 方便
    加个硬盘都要命令 不方便
    Jirajine
        13
    Jirajine  
       2023-10-20 14:06:58 +08:00 via Android
    @yyzh #11 pve 就是 Debian ,买了 Debian 支持的服务器也可以支持 pve 。
    www5070504
        14
    www5070504  
       2023-10-20 14:18:14 +08:00
    内存 硬盘超配的 只能说胆子真大
    yyzh
        15
    yyzh  
       2023-10-20 14:22:55 +08:00
    @Jirajine 也是不支持.哈哈.可能也没啥公司会用 debian 吧.
    263
        16
    263  
       2023-10-20 14:25:25 +08:00
    别的不说,既然有业务在上面跑,基础监控预警都没一个的吗?
    Leeeeex
        17
    Leeeeex  
    PRO
       2023-10-20 14:28:46 +08:00
    机器有价数据无价,数据没丢就是好事。
    cjpjxjx
        18
    cjpjxjx  
    OP
       2023-10-20 14:39:12 +08:00 via iPhone
    @263 业务系统有监控,宿主机没监控,正准备下个月部署一套监控来着
    cqmzgg2023
        19
    cqmzgg2023  
       2023-10-20 15:14:32 +08:00
    业务不都有虚拟磁盘吗?怎么会把宿主机给填满。
    ervqq
        20
    ervqq  
       2023-10-20 15:44:52 +08:00
    为何不上云?
    gvdlmjwje
        21
    gvdlmjwje  
       2023-10-20 16:20:02 +08:00
    为啥不用 esxi 我直接用 veeam one 监控
    cpu IOPS 流量 剩余空间给你现实的清清楚楚 直接拿台显示器监控页面投上去就完了
    nxforce
        22
    nxforce  
       2023-10-20 16:28:25 +08:00
    宿主机应该还是有监控的,我们这边所使用的超融合除了会监控 guest 系统的资源占用,本身的资源占用也会发警告的。
    dongkof
        23
    dongkof  
       2023-10-20 17:19:43 +08:00 via iPhone
    吓得我赶紧去看看,虚机都做的瘦硬盘为了节省容量,前两天还做了个几 t 的 oracle 测试系统,拉数据库前还做了快照,我感觉快炸了
    Quarter
        24
    Quarter  
       2023-10-20 20:10:23 +08:00 via Android
    @Andim 额,数据一般不也放虚机里嘛,不在虚拟磁盘的话放在哪里哇
    Quarter
        25
    Quarter  
       2023-10-20 20:10:56 +08:00 via Android
    @cqmzgg2023 没办法,esxi 有限制,只能单机
    vivisidea
        26
    vivisidea  
       2023-10-20 20:14:00 +08:00
    监控报警呢?剩余 200G ,剩余比例是多少?一般到 80%就要介入了,要么扩容,要么删掉一些数据
    Andim
        27
    Andim  
       2023-10-20 20:26:55 +08:00
    @Quarter ESXI 可以挂载物理盘呀,PVE 我没用过
    fsdrw08
        28
    fsdrw08  
       2023-10-20 23:10:47 +08:00 via Android
    单机我只考虑 hyperv
    adoal
        29
    adoal  
       2023-10-20 23:35:34 +08:00
    所以呢,thin provisioning 这玩意,双刃剑啊。

    不管怎么说,监控还是要做起来的。
    adoal
        30
    adoal  
       2023-10-20 23:42:40 +08:00
    另外呢,物理磁盘还是建议做成池。你这个案例里,“迁移了几个虚拟磁盘到其他物理磁盘后所有服务恢复”,说明物理磁盘的总量还是有富余的,这种如果用池就不会挂掉。当然,都做成池了,如果整体不够用,那就没地方可迁,所以最关键的还是要监控。

    另外的另外,跑最基础的 infrastructure 的虚拟机,建议放在单独的一组池上,并且用 thick provisioning ,确保不超。甚至可以考虑单独的物理机集群……哦,你只有单机……当我没说。
    patrickyoung
        31
    patrickyoung  
       2023-10-20 23:51:32 +08:00 via iPhone
    @yyzh #11 因为不需要,他的底层就是 Debian ,什么古董硬件都可以
    fantathat
        32
    fantathat  
       2023-10-21 10:37:44 +08:00 via iPhone
    怎么会虚拟机的空闲空间比宿主机的剩余空间还要大呢
    fantathat
        33
    fantathat  
       2023-10-21 10:39:51 +08:00 via iPhone
    boom 的音很好,不求若是某行於容器中的服的磁爆了如之奈何?
    Rorysky
        34
    Rorysky  
       2023-10-21 14:53:46 +08:00
    为什么都在一台物理机上?
    Quarter
        35
    Quarter  
       2023-10-22 09:54:16 +08:00 via Android
    @Andim 我没说不能挂在物理盘啊,我是说只能单机运行
    xbird
        36
    xbird  
       2023-10-22 13:38:31 +08:00
    @cjpjxjx 监控 A 监控监控 C ,监控 B 监控监控 A ,监控 C 监控监控 B ,环而控之,则一机不损
    dode
        37
    dode  
       2023-10-22 16:36:05 +08:00
    赶紧删几个不重要虚拟机
    podel
        38
    podel  
       2023-10-22 20:03:13 +08:00
    PVE 的 LVM 很容易超发硬盘。
    xwh
        39
    xwh  
       2023-10-23 11:33:57 +08:00
    @Quarter #24 我理解他的意思是单独分配挂载数据盘吧?比方说 50g 系统盘+300g 数据盘
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     1570 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 31ms UTC 16:21 PVG 00:21 LAX 08:21 JFK 11:21
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86