站长视角
用户至上

阿里云物理机负荷过大致宕机 超售?

致IT之家所有读者,

今日早间5:00-7:00期间,我们完成了IT之家核心数据从阿里云平台至百度云平台的迁移工作,并切换更新了域名解析。7点之后到下午4点,基本完成了迁移工作的“后遗症”处理,解决各种迁移带来的一些访问或者报错问题,到现在全平台的各项网络服务基本全部OK。

迁移网站是个庞大繁琐的事情,最近一直在做各项准备,最终选定今日早5点(每天访问的低谷时段)进行了迁移,避开白天时段最大程度实现站点底层平台的平滑过渡。

这儿要特别对大家说声抱歉,毕竟从7月初遭遇随机故障到后来的持续性问题,已经过去了3个半月,在此期间我们一刻也没有松懈,持续与原服务平台做各种交涉和等待改进,直到最后不得不重新接洽选择云服务商。下面我就把个中的具体情况和大家解释说明一下——

本次迁移主要起因和过程简要说明:

  • 2016年3月份IT之家正式使用阿里云平台,2016年7月10日开始,大约每周会出现1-3次的间歇性访问卡顿、无法访问故障,尤其是在21:00-22:30这个晚高峰期间,页面加载慢或加载不了,登录失败……但是基本上都是5-30分钟之后恢复正常,一般这边接到短信通知异常开始排查,那边很快就正常了。我们在这期间保持高度关注,但基本处于可忍受状态。
  • 2016年8月14日星期日早8点开始,出现严重的全天性卡顿(网站和APP每隔几十分钟就出现无法连接),ECS主机的CPU占用率持续100%,IT之家产品部网站技术组的同事和开发组的同事10余人投入参与问题跟踪,从APP接口、网站性能、服务器日志、数据库算法、新闻小偷非法高频抓取、站点访问量等各方面进行排查,没有发现丝毫异常。在发生问题的当天为解决这莫名问题,还付费进行了服务器硬件配置升级,却始终被提示升级失败;
  • 次日2016年8月15日,在工单和IM服务群里各种催促,问题查明,阿里云技术人员答复物理机负荷过大,导致分配给ECS云主机的计算资源缩水,同时满负荷也导致无法追加新的硬件升级需求。阿里云客服间的沟通分分钟持续不间断,晚上21点开始关闭服务器主机,技术人员安排迁移云主机到新的物理主机上,迁移只用了几分钟,高峰期间的CPU直接从100%降到了50%前后;
  • 次日2016年8月16日,迁移后的主机显示配置升级成功,和客服人员沟通一切恢复正常,不再需要升级配置,但却被拒绝:“升级订单已生效,因此不支持退款,且服务器降配,需要在服务器到期时进行续费降配,请你了解,谢谢”……因为自身技术原因,客户无奈升级配置,发现实为一个平台本身故障的时候,也不给退款。好吧,就这样吧,不是啥大事,只要服务稳定,忍了吧,毕竟沟通一次的成本太大,一切通过工单沟通,再设法催工单,一个简单的事情几个小时得到正确的回复都算快的。然而,到了18点整,故障再次发生,这次是彻底服务中断,服务器ping都无法ping通,18:24服务器恢复,客服答复原因:物理主机宕机了……连续3天的高频故障,迁移到新的物理平台,竟然物理平台死机了,所有上面的云主机都自然“失联”……接近半个小时的服务全面中断;
  • 接下来的时间,我们给阿里云做了一个提案,希望阿里云给接入一个更靠谱的平台,物理平台能保证不缩水所购买的计算能力,毕竟缺斤短两这是任何时候任何商业单位都不能接受的“价值观”。客服组非常热情,建议我们不要对用户发布通知公告,会有负责的领导来和我们沟通,然……
  • 2016年9月21日开始,晚高峰再次出现卡顿问题,症状依旧认真分析排查各种可能,最后还是回归到物理平台的超载;阿里云在此期间给我们发来一个通知,针对之前的各种情况,决定给我们赔偿:延长服务期1天。之前有听说过百倍赔偿的各种传闻,今天也沉默着看到了这种结果。等不来诚挚的道歉沟通和服务改进却等来了这个,便立即开始安排网站技术组和产品部负责人去选择新的云平台,必须在国庆节后第一时间安排迁移。
  • 2016年9月30日开始测试百度云平台,因为IT之家构建于微软的.NET和SQL Server数据库架构之上,这就筛掉了绝大多数国内云服务平台,同时考虑域名备案和国内线路的特殊性也过滤掉了外企云平台,从站点连通率、速度、高峰期计算能力压力测试、CDN业务等多方面对百度云进行了测试,一直到10月20日结束。
  • 2016年10月19日晚高峰期间,阿里云各平台又出现半小时以上的卡顿……再次关机进行了物理平台迁移……
  • 2016年10月20日-24日,百度云各项测试和接入预演;
  • 2016年10月26日早上5点-7点,百度云RD工程师和软媒工程师进行主数据库迁移和域名解析,7-15点各种细节问题修复,15点开始着笔这份迁移工作汇报。

后语:

以上是事情的真实经过,我们希望这个站点迁移公告能让所有读者了解整个过程概况,也希望阿里巴巴集团高层和阿里云高层能像月饼事件一样重视目前的问题,缺斤短两、超卖是更为严重的价值观问题,直接是信誉和品行问题。我们期待着迟迟未等到的官方的回复,我们也会收到沟通后及时向大家公示他们的改革和进步。阿里云平台的技术能力和客服组的热忱,都是非常到位的,其实我们从内心深处相信,每一个云平台的初心都是想给客户提供最好的服务的。

每次的迁移都希望是最后一次,每次的迁移都是非常的痛苦和折腾。回想2003年第一次创业做商业网站到现在,从虚拟主机、服务器托管、双线机房、多线机房、真BGP机房、自建节点、CDN加速、云主机……这样一路走来,IDC业务上该经历的基本全经历了,坦言说,“云化”确实是最佳的选择,一旦上云,欲罢不能。

今天是迁移的第一天,我们还会持续观察各项服务的稳定性,同时也会从今天起开始重新优化站点架构,对图片、视频等资源引入百度云CDN节点加速服务,我们会很认真的做好最基础的服务和我们的内容服务、产品服务。

再次对最近几个月的不稳定情况向朋友们表示深深的歉意!

刺客,软媒 CEO,

2016年10月26日,16点,青岛。

赞(0)
版权声明:本文采用知识共享 署名4.0国际许可协议 [BY-NC-SA] 进行授权, 转载请注明出处。
文章名称:《阿里云物理机负荷过大致宕机 超售?》
文章链接:https://cnidc.co/1529.html
【声明】:国外主机测评仅分享信息,不参与任何交易,也非中介,所有内容仅代表个人观点,均不作直接、间接、法定、约定的保证,读者购买风险自担。一旦您访问国外主机测评,即表示您已经知晓并接受了此声明通告。
【关于安全】:任何 IDC商家都有倒闭和跑路的可能,备份永远是最佳选择,服务器也是机器,不勤备份是对自己极不负责的表现,请保持良好的备份习惯。

登录

找回密码

注册