业内资深人士:新浪微博机房宕机 人为原因可能性最大
昨天(6月17日)下午16点30分左右开始,新浪微博经历了“黑色一小时”,几乎全平台瘫痪,微博CIO王巍在事后回应称,这次故障的原因是“外部机房整层掉电”。
作者:IDC圈
来源:IDC圈
2017-06-19 13:08:21

昨天(6月17日)下午16点30分左右开始,新浪微博经历了“黑色一小时”,几乎全平台瘫痪,微博CIO王巍在事后回应称,这次故障的原因是“外部机房整层掉电”。作为业内人士,很难想象,支撑着上亿用户的新浪微博数据中心会出现因电力保障问题而宕机的事故。

对此,中国IDC圈第一时间联系到拥有20多年数据中心建设运维抢修经验的资深专家张洋,请他分析一下此次新浪微博机房断电宕机的可能原因。

1.人为原因方面——互锁机制流程是否顺畅?值班状态有待确认

微博3

“武装到牙齿的现代化部队,也可能存在管理漏洞,在某种情形下,被‘敌人’轻易攻陷。自动化程度很高的数据中心,在运营维护上的一点小瑕疵,就可能导致整个数据中心宕机。新浪微博机房掉电宕机,有可能是设计上存在问题,但更大的可能,则是运行维护时人为因素造成。”在电话里,张洋开门见山,认为人为原因可能性最大。

张洋向中国IDC圈记者分析说,即使数据中心有双路市电的保障,但如果一路市电失电,配电系统互锁机制方面出现问题,那么所谓双路市电只是形同虚设。正常情况下,一路市电断电,UPS将自动启用,随后另一路市电及时切入。所谓互锁机制,就是为了防止人为误操作造成两路市电之间发生短路的保障机制。

新浪微博机房这种等级的机房,一般只有两路市电都中断,才会启用发电机。如果一路市电断电时,值班人员或电力运维工程师技术能力有限,或由于其他原因应对不足,则可能直至UPS电力耗尽,仍未能切入另一路市电,最终造成数据中心电力中断。

张洋说,通常情况下,市电中断后,UPS自动启用,一般可以维持数据中心继续运行10分钟以上,在这期间,系统会发出报警警示,如果技术人员没有及时注意到系统报警,就可能造成另一路市电未能及时切入,或发电机未能及时启动,造成掉电宕机。是否存在这样的情况,还有该数据中心下一步披露的调查结论。

2.机房设计方面——办公区是否为普通市电?双路市电真伪待查

微博4

张洋认为,还有一种可能,就是设计上的瑕疵。如果机房运行维护办公区也使用普通市电供电。市电断电时,电脑、办公系统全部失灵,工作人员之间无法交流、操控,数据中心就会全面瘫痪,报警信息无法及时处理,值班抢修人员无法及时到岗开展应急工作,最终导致数据中心掉电宕机。

在设计上,大型数据中心对每年断电时间、频率有着非常严格的要求,比一般的工业用电要求供电等级更高,而且还需要双路以上(最高等级要求四路)来源于不同区域、不同变电站的市电接入,更高一级要求上两级电力接入不允许是同一路变电站或者供电回路。

“如果不是数据中心场地高压开关房及周边事故,一般不会出现两路市电同时停电的情况。但如果两路市电同属一个上级电站,那么,当该变电站出现问题时,所谓的‘双路市电’会同时中断,这也就是业内所说的‘伪双路市电’。”张洋向中国IDC圈强调。

3.回应网友猜测——发电机故障可能性很低  高温天气无需背锅

微博5

针对一些网友提出的“发电机故障或机房方面为降低成本而延迟发动机启用”的猜测,张洋认为可能性不大。

张洋告诉中国IDC圈,对于新浪微博机房这种高等级机房来说,往往都是多台发电机并机运行,发电机采用N+1配置,即使一台发电机故障,也可以完全满足系统正常运行。一般情况下,发动机启动运行1分钟内,就能正常供电,保障数据中心的运行。启动发动机的成本并不高,只需要燃油方面的花费。即使电力供应正常,数据中心每个月都要启动发电机至少一次,每次加载运行不低于十五分钟,使发电机内部润滑等部件保持状态良好,可以随时投入应急使用。

还有网友猜测,近期北京气温上升过高,达到历史同期最高水平,炎热天气会增加数据中心负荷,导致宕机概率上升。张洋认为,该种猜测也不正确。

张洋说,天气炎热,室外温度上升,在IT负载方面不会有任何变化,变化的就是空调部分的制冷效率。温度上升,导致室外冷凝器的热交换温差降低,进而降低冷凝器热转化效率,使数据中心PUE值上涨。

一般的数据中心PUE会在1.5至2.0之间,这主要就是冬季夏季因气温引起的制冷供电功率的变化,数据中心用电设计都会保留最大用电负荷的冗余设计,所以温度高了,只会影响到用电成本的增加,不会因此宕机。

发电机启动一分钟后,就能发电供数据中心机房使用,为什么这次此次新浪微博宕机时间却长达一个多小时?

张洋解释说,掉电后,发电机一分钟发电供电是没问题的,但如果数据中心路由器、核心交换机部分没有配备机柜内备用UPS的话,掉电恢复时间可能从三五分钟达到乃至十几分钟,抑或需要从根本上人工重新恢复数据再运行。一般的服务器都会设置掉电重启,这个重启时间也会从三五分钟至十几分钟不等。如果部分服务器因掉电引起数据丢失、损坏,而需要通过其他手段进行恢复才能运行,就需要更长的时间了。

关注中国IDC圈官方微信:idc-quan或微信号:821496803 我们将定期推送IDC产业最新资讯

查看心情排行你看到此篇文章的感受是:


  • 支持

  • 高兴

  • 震惊

  • 愤怒

  • 无聊

  • 无奈

  • 谎言

  • 枪稿

  • 不解

  • 标题党
2017-07-27 10:09:00
国际资讯 维护还是宕机?俄罗斯交易平台BTC-e6.6万比特币流失
数字币交易平台BTC-e在发布维护期间,试图让网站能更好,然而仍然无法访问,到底发生了什么? <详情>
2017-07-25 18:17:35
空调制冷 机房空调漏水原因和常用处理方法
机房空调漏水不仅造成室内湿嗒嗒影响空调致冷效果,而且还会影响空调的使用寿命,成为不少数据中心运营者的烦心事。其实,机房空调漏水原因很多,安装和使用中存在的问题都 <详情>
2017-07-24 10:11:24
UPS电力 数据中心UPS验收检查与测试
为了确保数据中心UPS系统的性能符合正常运行的要求,在UPS投入数据中心带载运行前,必须对UPS及其相关的系统进行系统化测试 <详情>
2017-07-21 09:02:31
国际资讯 伊顿公司将其93PM系列UPS的容量提升到500kVA
日前据悉,全球领先的动力管理厂商伊顿公司通过大幅扩展功率范围,改善了其广受欢迎的93PM系列UPS的实用性。原有的机型的最大容量仅为200kVA,新推出的93PM系列UPS可支持30 <详情>
2017-07-21 08:55:29
运维管理 运行一个数据中心需要多少骑车的人?
如今,人们依靠前所未有的技术一直在“永远运行”的环境中工作。为了提高效率和生产力,支持企业业务运营的基础设施将全天候无故障地运行。然而,因为从来没有被关闭,人们 <详情>
2017-07-20 14:56:00
云资讯 杨志国:简洁高效、快速灵活,解读《金融业模块化机房技术白皮书》
模块化机房,我总结了一下,它有几大优势,高密度智能化的优势,随着信息高速的增长,密度越来越高,随着大数据云计算的兴起,单机柜的密度越来越高,云化的设备与服务器网 <详情>
2017-07-19 10:15:36
运维管理 机房精密空调低压报警与故障维修方法
数据中心机房专用空调低压报警是我们在日常维护中经常碰到的问题。尤其是在冬季中经常遇到。 <详情>
2017-07-17 10:37:50
运维管理 机房防雷接地规范与防雷接地方式,你知道吗?
机房屋顶应设避雷带和避雷网。避雷网的网格尺寸宜满足要求,并应与 避雷带一一焊接连通。 <详情>
2017-07-14 09:35:08
机房建设 机房为什么要装新风系统?
在信息化时代,机房作为数据中心的核心,占据着举足轻重的地位。高精密机房对周边环境的要求非常高,例如温度、湿度、电源等等,当然洁净度也是其中一个非常重要的因素,一 <详情>
2017-07-14 09:26:55
UPS电力 UPS=蓄电池+逆变器?
在早期的电信机房中,通常采用将220V交流电源经过整流,为48V电池组充电,由电池组直接给程控交换机供电。随着计算机网络和通信网络在电信机房的应用,需要为其提供高质量 <详情>

IDC圈

阅读量
阅读排行榜