
云服务器直接无缘无故宕机
给的解决方案是销毁数据,重新部署
截止目前已经宕机两小时,里面包含了主营业务的相关服务
1 xshell 41 天前 没备份么? |
2 RangerWolf 41 天前 GCP AWS 也出现过大规模故障 不是给他们洗地,而是要认知 是系统就会出故障 不过这个故障需要销毁数据,这个有点太坑了 |
3 crayymumumu OP @xshell 备份了 有镜像 |
4 rekulas 41 天前 习惯就好 每一家都会轮番翻车的 |
5 salmon5 41 天前 这不是正常的吗?刚开始用吧(阿里云 11 年、AWS7 年使用) |
6 salmon5 41 天前 宕机重启就好了 |
系统故障,这个应该可以排查一下不是吗 没有给分析报告嘛?磁盘都坏了 文件系统坏了? 好奇,云厂商对于这块系统损坏条款是怎么写的,负责任吗 |
8 boringwheat 41 天前 去试试别家,然后你就会发现国内阿里云是最省心的 |
9 ETiV 41 天前 云厂商的 [本地硬盘] 就是这样,希望你能学到…… |
10 zbw0414 41 天前 没有哪家云厂商能做到永不宕机。 另外,直接买的高可用数据库这种不都是 m*GW+1*主+n*从+1 备,主挂了应该是秒级切从库顶上的呀。 难道只买了一个主库么。 |
11 salmon5 41 天前 阿里云 华为云 腾讯云 AWS Azure ,中国企业最应该避雷 Azure 、最优先使用阿里云。 |
12 perfectlife 41 天前 倒不是无缘无故宕机,一般都是宿主机出现问题,只不过好多时候阿里云不给你反应时间,直接就重启了云服务器,或者就不按约定维护时间,突然就给你重启了机器。另外用本地盘就是会有这问题,宿主机挂了,虚拟机迁移到别的机器上了,一般也没办法,除非你是大客户能让他把本地盘也给你迁移。话说现在还有本地 ssd 盘可选么,大部分不都是用 essd 了么。 |
13 salmon5 41 天前 @boringwheat #8 所见略同,阿里云是最省心的。 |
14 salmon5 41 天前 产品做的最好的。 |
15 perfectlife 41 天前 @zbw0414 他是大概率是云服务器上自行部署的数据库 |
16 salmon5 41 天前 云上 ECS 自建 MySQL ,可用性要自行考虑主备;如果数据盘是本地盘,要考虑数据丢失的可能。 这些都很正常。 |
17 mayli 41 天前 本地盘不应该就是这样吗?您这是啥企业,是不是需要避雷? |
18 nrtEBH 41 天前 你们家 SRE 工资多少 ? 建议开除 没有 common sense |
19 Kinnice 41 天前 上云不是为了降本。反而是提高成本,如果你的 rds 挂了,肯定能找到给你处理的。如果是自己 ecs 部署的数据库,他们才不会管你的数据。 |
20 ZeroClover 41 天前 本地盘 + 无灾备 用哪家云遇到宿主机故障都是一样的结果 |
21 crayymumumu OP 本地盘 数据全部丢失 |
22 Goooooos 41 天前 就算自己部署也没办法保证不故障不丢数据 上面说上云提高成本,可能你的场景是这样,但我司场景,比自建机房的成本每年都降了不少 |
23 salmon5 41 天前 @salmon5 #16 云上 ECS 自建 MySQL ,可用性要自行考虑主备;如果数据盘是本地盘,要考虑数据丢失的可能。 这些都很正常。 ############################################### 有些云,不正常的见多了;所以有些问题,它是正常的。 |
24 wineejam 41 天前 等你用了国内其它公有云后就不会这样说了。目前来说。国内公有云还是阿里云第一 |
25 binge921 41 天前 该说不说 我感觉腾讯云更稳定点,阿里云之前一直在用,但是咋说呢 目前感觉不如腾讯云稳定,个人见解 |
26 SURA907 41 天前 阿里云还中断过工地主域名的 dns 解析呢(□′)┻━┻ |
27 v5mark 41 天前 这种要追责的 1.数据丢失,是否可以恢复 2.宕机时长对比阿里云承诺的 SLA 例如( 3 小时恢复,99.9%的可用性这种)超过了没有恢复,赔偿经济损失 |
29 stoneabc 41 天前 本地盘实例哪家云不是这样?第一次用云吗? |
30 imnpc 41 天前 这个谁推荐的 企业数据 用云服务器自建数据库的? 所有云都限制磁盘 IO 读取,一般要求使用 云数据库,不推荐自建. 自建需要多服务器读写分离备份,否则不要玩自建数据库, 这个没办法,大部分云都这样,AZURE 的硬盘还重启就没数据呢.. |
31 aobamaM 41 天前 你家是什么野鸡公司 云上数据库这么玩的 |
32 axuadm19 41 天前 这不就等同于云上用实例自建 K8S 集群嘛(参考 VPS 建一切,还用云干啥。。。),用 IaaS 实现 PaaS ,那可不是可用性、弹性运维、安全性啥的都得自己承担。 |
33 clarkethan 41 天前 你们自己的运维应急处理能力太差了,哪个云不出问题,哪个服务器不出问题呢?买不到 100%在线率的服务,只能做好应用层的容灾,和提高灾难时刻的应急处理能力,这个时候不应该是直接拿备库的数据,重新起一个新的实例,尽快恢复服务么,坏了的东西坏了就坏了,事后再管 |
34 MindMindMax 41 天前 所有的服务都不可信,必须要及时备份。深刻的教训 |
35 daimaosix 41 天前 哈哈哈哈哈,敢用本地盘,本地盘你还没见过漂移呢,本地盘就是这种属性,跟阿里云无关 |
36 mytsing520 PRO 印证了一些人说的话: 公有云异常,如果和你没利益相关,不会骂;和你利益相关,就骂翻天 |
37 AmiKara 41 天前 腾讯云连宕机都显示正常运行 |
38 seasona 41 天前 本地盘不保证 sla 啊,硬盘硬件很容易坏,宕机只是时间问题 |
39 FrankAdler 41 天前 via Android 腾讯云问题更多,至于什么华为云 京东云 字节云 ucloud 这些体验只会更差 |
40 JoeDH 41 天前 本地盘自建的数据库吗? |
41 guanzhangzhang 41 天前 |
43 caola 41 天前 阿里 腾讯 AWS Azure 都有宕机的情况,基本上都是轮流着来,见怪不怪了。做好数据备份就行 |
44 fredcc 41 天前 via Android 上云不用托管 RDS 用本地盘 ssd 做主库,很棒棒 |
45 dif 41 天前 没有一家云服务是 100%,都是 99.999......% 就看谁家 9 多了。所以,心理预期就是会出故障,做好备份就行。 |
46 ryHope 41 天前 阿里云算是最省心的了 |
47 mmdsun 41 天前 via iPhone 这个是云服务器?还是阿里的 RDS 数据服务。 找阿里要赔偿吧。 |
48 sansam 41 天前 @v5mark 本地盘(相当于你独占一整块 ssd ),这种没 sla 保障、没有任何数据可靠性保障,购买的时候会弹框让你确认。优点是 IO 很高,缺点是得自己负责数据和业务的可靠性。这个锅得自己背咯。 |
49 loarland 41 天前 这个故障有点离谱了 |
50 goodryb 40 天前 1.起码 op 没有用什么套路云,光明正大的写了阿里云 2.如果是云盘,底层物理机故障重启一般就恢复了,如果是操纵系统故障,有可能会起不来; 如果是本地盘,赶紧重搭数据库,恢复备份或者切备库吧 |
51 FabricPath 40 天前 SLA 中不包含本地盘数盘丢失 |
52 zouqiang 40 天前 用的本地 SSD 类型? |
53 v166ex 40 天前 via Android 我已经听到运维人员在骂人了,,,如果没有运维的那就已经找人背锅吧 |
54 nxuu 40 天前 这不是表现运维人员的时候到了么 我觉得阿里云做的没问题. |
55 v166ex 40 天前 via Android 如果有运维,那我真的很好奇是谁做的这个决策,为啥不用云服务 |
56 hefish 40 天前 哈哈哈哈哈哈哈哈哈。。。。 含泪又续了一台 ecs 。。。。 |
57 dynastysea 40 天前 国内云就是这样,如果是 aws 出问题,他们就会知道反思了。。 |
58 sampeng 40 天前 via iPhone 鬼故事,很多公司上云数据库都是自建的。美其名曰:节省成本。 |
59 wzw 40 天前 阿里云 rds 小系统有必要上 高可用系列吗? 还是基础系列够了, - 基础系列 数据安全吧 - 基础系列 在线率也很高吧 有用过的 , 有经验的分享一下, 谢谢 |
60 Miao18 40 天前 但问题是,阿里已经是国内最好的选择了。难不成还能选华为? 而且,就最近两周,aws ,azure 也连着炸。 |
61 xscanqianmeng666 40 天前 这种一看就是没运维,或者后端兼运维。最基本的都没整好,而且还在乎成本 不上 rds |
62 xiaomushen 40 天前 还是避雷这样的企业吧。。。 |
63 NoString 40 天前 数据库为啥不用 RDS POLARDB ?有能力自建做 SLA 的方案吗?没有就是抽奖,要避雷的是提这种方案的人吧 |
64 LaLy 40 天前 @boringwheat 确实,腾讯云里面的东西乱到你怀疑人生,可以感觉到他们内部管理十分混乱。 |
65 ares001 PRO 如果你选 RDS 主从各一台机器的方案,也不至于今天来发帖。不管什么神仙公司,硬件都可能会坏的。 如果你不是老板,肯定选择最保险的方案,花钱也是花老板的钱 |
66 CheckMySoul 40 天前 @wzw #58 基础只有通用规格( CPU 共享、单可用区部署)肯定不如独占规格稳定,负载不高用着也没啥感觉,功能没有大的区别,能接受就用基础,再把库表恢复、异地备份都打开足够了。遇到异常提工单换独占换 polardb 呗。 |
67 realpg PRO 什么企业连个灾备都没有 云服务本身就不能视为高可用的东西... |
68 jhdxr 40 天前 @wzw 在线率正常情况都不低的,非正常情况。。。以现在的主流云的素质是不挂则已,一挂全挂。。。 至于数据安全,如果你说是 OP 这种丢不丢数据,那么如果你的数据丢了无所谓(不是说彻底没了,而是假定比如你配合每日备份的策略,丢失一天内的数据可以接受),那我觉得最基础的就行 回到 OP 的帖子,这纯属你们的研发菜/老板抠门(当然更可能是两者同时发生,毕竟抠门的老板找到的研发可能也不懂) |
69 virjay 40 天前 早就避雷了,云主机会因为内存直接宕机,天翼云、腾讯云、华为云都不会 |
70 wzw 40 天前 @CheckMySoul @jhdxr 目前看 基础款 没有故障过, [国内] https://status.aliyun.com/ 数据安全依赖存储, 99.99% 所以可以接受故障停机一会, 而数据不丢, 应该小站应该是可以考虑的吧 |
71 hatch 40 天前  |
72 azh7138m 40 天前 |
73 kfpenn 40 天前 啊,自建数据库这么多隐患吗?我待的几家公司,包括现在的,都是自己搭的数据库,没买 rds |
75 barathrum 40 天前 机房那么多机器, 天天出故障都很正常, 不过挨到你头上了. 正常来说用实例存储就是为了缓存加速, 不是用来持久存储的. 不买 rds 的话自建数据库肯定也得多可用区自己做 replica, 冗余没做好怨不得别人. 该找赔付找赔付就行了. |
77 dmanbu 40 天前 你省下的成本,终有一天会以别的方式支付出去 |
78 simple688 40 天前 活该,为啥不用高可用实例+ESSD 云盘 |
79 tcper 40 天前 楼主多试试别的几家就有经验了,自己运维水平低的话,哪个云都可以帮你把数据丢了 我记得有一次腾讯云把一个小公司用户给清了,人家直接倒闭最后也没啥补偿,更别提有些国企云就是阿里云套壳 |
81 smileawei 39 天前 本地盘就是这样的。。 应该用 EBS 。 |
82 Rickkkkkkk 39 天前 灾备去哪了... |
83 holulu 39 天前 这世界说是草台班子,重要的设施无论是机器还是数据,都得做冗余。 |
84 oudemen 39 天前 自己的锅不要推到云厂商上 |
85 Gilfoyle26 39 天前 |
86 DeWjjj PRO 年轻的时候就吃一堑长过一智,不能把服务挂在一个云上,一定要有备份服务器。 哪怕公司没有机房,也要有一个数据机架备份数据。 |
87 guiyumin 39 天前 via iPhone 有人骂腾讯,有人骂阿里 怎么说呢 有别的选择吗 |
88 guiyumin 39 天前 via iPhone 有人骂腾讯,有人骂阿里 怎么说呢 有别的选择吗 |
89 zlin 39 天前 记得一点,所有电子产品都不可靠。 需要定时异地备份。 |
90 qiuyoo 39 天前 阿里云的坑挺多,但是大部分人都没有遇到过。选择云不就是为了省事。但是总结起来并没有省事,关键还费钱。研究一下私有云。现在很多机房都不错。 |
91 COW 39 天前 同上,建议研究一下私有云 |
93 BadAngel 38 天前 目前各个厂家的本地盘就是最便宜的,为啥就是因为遇到硬件故障恢复很麻烦。 2025 年的互联网公司,高可用不再是一个很麻烦的事情,建议对 RTO 和 RPO 都要有考量。 其他厂不知道,菊花厂除了你自己买裸金属,基本都不支持本地盘了。 |
94 michael2016 35 天前 搞技术的这么极端的看待问题只能证明要么缺钱要么缺技术要么缺根筋。 |
95 gether1ner 24 天前 那老板有需要转移到腾讯云吗,我是殿堂级代理商,有折扣而且团队专业,VX:gzkji8 TG:@gether_cloud 。有需求可以联系我 |