好奇云服务提供商是如何做热维护和热维修的呢 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
Recommended Services
Amazon Web Services
LeanCloud
New Relic
ClearDB
pythonee
V2EX    云计算

好奇云服务提供商是如何做热维护和热维修的呢

  •  
  •   pythonee 2020-03-03 20:17:49 +08:00 5267 次点击
    这是一个创建于 2116 天前的主题,其中的信息可能已经有所发展或是发生改变。
    比如怎么换硬盘、换 cpu、换内存、换电源呢?

    不知道怎么做到业务无感知呢
    25 条回复    2020-03-04 22:26:21 +08:00
    ThirdFlame
        1
    ThirdFlame  
       2020-03-03 20:20:15 +08:00
    虚拟机可以热迁移到集群内其他的物理机上。
    然后就可以修修修了。
    anticipated
        2
    anticipated  
       2020-03-03 20:20:36 +08:00
    硬盘好办,属于底层硬件的东西,内存 /电源双栈,CPU 就不知道了
    huntcool001
        3
    huntcool001  
       2020-03-03 21:56:48 +08:00
    还是有可能停服务维护吧? 好像只有 GCP 说自己的可以在维护服务器的时候对用户无感知
    pc10201
        4
    pc10201  
       2020-03-03 23:30:20 +08:00
    云硬盘是多副本,一般来说是三副本,分布在三台不同的机器上,不可能同时挂
    至于 CPU、内存、电源
    一来是有巡检系统,出现致命问题可能热迁移到其他物理机了
    即使出现了致命问题,虚拟机重启一下就会迁移到其他物理机,影响时间为分钟级,在可接受范围内
    fredcc
        5
    fredcc  
       2020-03-03 23:33:40 +08:00
    不修,整个换
    opengps
        6
    opengps  
       2020-03-03 23:58:24 +08:00 via Android
    整个集群的虚拟化,要撤掉某台物理机,就提前设置自动迁移即可把他闲置出来。
    甚至说,直接物理关机也能让其上运行的虚拟机自动偏移到别的物理机。
    dot2017
        7
    dot2017  
       2020-03-04 00:09:50 +08:00
    亲,DRS 了解一下
    pythonee
        8
    pythonee  
    OP
       2020-03-04 00:37:33 +08:00
    @opengps
    @ThirdFlame

    其实我在想的是热迁移的时候,是真的可以不丢数据,业务零中断吗
    zxiso
        9
    zxiso  
       2020-03-04 01:30:13 +08:00 via iPhone
    热迁移是镜像复制,会占网络出口流量,如果机器高负载的情况下会有一定时间的抖动,不过一般持续时间不长,对端虚拟机拉起后流量就会被切过去,这个时候也会有抖动
    akira
        10
    akira  
       2020-03-04 02:52:37 +08:00
    国内大部分云服务提供商都做不到吧。。
    Yien
        11
    Yien  
       2020-03-04 03:03:49 +08:00
    集群热备份热迁移?
    Srar
        12
    Srar  
       2020-03-04 05:38:59 +08:00 via iPhone
    @pythonee

    就和单核心 CPU 工作一样 切换太快了以至于感觉 CPU 可以同时运行多个任务

    虚拟化热迁移也是一样的 在迁移最后一步会在极短时间内暂停虚拟机切到新物理机运行 人感觉起来就是零业务中断

    当迁移完毕后母鸡会伪造一个 ARP 请求给交换机 通报最新的端口 也会造成极短时间内丢包 得益于四层重发机制也没太大问题
    Srar
        13
    Srar  
       2020-03-04 05:45:43 +08:00 via iPhone
    更正 伪造一个 ARP 请求给交换机 用于更新交换机内部 mac 与端口映射表
    ik
        14
    ik  
       2020-03-04 07:45:56 +08:00 via iPhone
    @pythonee
    数据: 在存储保存,所以计算节点故障的话,迁移过程相当于从一个节点读写换到另外一台读写。存储故障的话,数据有多副本理论来说,多个副本同时挂掉的概率很小。

    业务: 迁移过程会有闪断的情况。
    singerll
        15
    singerll  
       2020-03-04 07:59:23 +08:00 via Android
    就是热迁移,不要说日常维护,就是挂十台八台都没啥问题。也不算啥新技术,vmware 时就有了
    ThirdFlame
        16
    ThirdFlame  
       2020-03-04 08:26:56 +08:00
    @pythonee 数据没有在物理机上存储,在专门的存储上放着呢。 当然 不会丢。
    业务肯定是有一丢丢抖动,但不会影响到业务。 对普通用户来说就是无感知的。

    迁移走了,那机器就空闲了,想怎么折腾都可以。
    swulling
        17
    swulling  
       2020-03-04 08:33:22 +08:00 via iPhone
    原机器还能运行的话,热迁移,大概会有数秒到网络抖动

    原机器直接宕机后,只能冷迁移,无本地盘机器大约三分钟,虚机会重启。有本地盘机器就只能等机器恢复后才能恢复了。
    liuxey
        18
    liuxey  
       2020-03-04 08:37:24 +08:00
    "VMware 动态虚拟机漂移"
    stoneabc
        19
    stoneabc  
       2020-03-04 09:11:42 +08:00
    @akira 国内大厂早都有热迁移了…
    opengps
        20
    opengps  
       2020-03-04 09:28:53 +08:00
    @akira 随随便便一个虚拟化平台软件就能支持,cpu 内存可以平滑迁移,硬盘现在都不再采用“本地硬盘”方案了,我用 vsphere 做过测试,部分机器直接迁移,部分机器自动迁移自动重启
    @pythonee 确实可以不中断,只是有一定的概率“自动重启”。
    @Yien 热备跟这个主机漂移其实没有直接关系,虚拟机的热备靠集群下的虚拟机数量,单机显然只是硬盘热备,不会同时有另外一台机器也在工作。热备通畅是用来防止其中一份存储坏掉的情况
    CallMeReznov
        21
    CallMeReznov  
       2020-03-04 09:31:16 +08:00
    HA 了解一下
    janxin
        22
    janxin  
       2020-03-04 09:45:17 +08:00
    热迁移啊,只是说无感
    NoirStrike
        23
    NoirStrike  
       2020-03-04 11:48:42 +08:00
    vsphere 在服务器重启就会将上面跑的虚拟机自动迁走, 存储方面使用的集中存储, 作死用本地存储就没法救了
    crc8
        24
    crc8  
       2020-03-04 17:19:40 +08:00
    云就是这样来的吧
    akira
        25
    akira  
       2020-03-04 22:26:21 +08:00
    @stoneabc 提供给用户的不行吧,经常故障然后说母鸡出问题了 ,要关机多久多久迁移到另外一台母鸡
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     5056 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 28ms UTC 08:31 PVG 16:31 LAX 00:31 JFK 03:31
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86