业内资深人士:新浪微博机房宕机 人为原因可能性最大
昨天(6月17日)下午16点30分左右开始,新浪微博经历了“黑色一小时”,几乎全平台瘫痪,微博CIO王巍在事后回应称,这次故障的原因是“外部机房整层掉电”。
作者:IDC圈
来源:IDC圈
2017-06-19 13:08:21

昨天(6月17日)下午16点30分左右开始,新浪微博经历了“黑色一小时”,几乎全平台瘫痪,微博CIO王巍在事后回应称,这次故障的原因是“外部机房整层掉电”。作为业内人士,很难想象,支撑着上亿用户的新浪微博数据中心会出现因电力保障问题而宕机的事故。

对此,中国IDC圈第一时间联系到拥有20多年数据中心建设运维抢修经验的资深专家张洋,请他分析一下此次新浪微博机房断电宕机的可能原因。

1.人为原因方面——互锁机制流程是否顺畅?值班状态有待确认

微博3

“武装到牙齿的现代化部队,也可能存在管理漏洞,在某种情形下,被‘敌人’轻易攻陷。自动化程度很高的数据中心,在运营维护上的一点小瑕疵,就可能导致整个数据中心宕机。新浪微博机房掉电宕机,有可能是设计上存在问题,但更大的可能,则是运行维护时人为因素造成。”在电话里,张洋开门见山,认为人为原因可能性最大。

张洋向中国IDC圈记者分析说,即使数据中心有双路市电的保障,但如果一路市电失电,配电系统互锁机制方面出现问题,那么所谓双路市电只是形同虚设。正常情况下,一路市电断电,UPS将自动启用,随后另一路市电及时切入。所谓互锁机制,就是为了防止人为误操作造成两路市电之间发生短路的保障机制。

新浪微博机房这种等级的机房,一般只有两路市电都中断,才会启用发电机。如果一路市电断电时,值班人员或电力运维工程师技术能力有限,或由于其他原因应对不足,则可能直至UPS电力耗尽,仍未能切入另一路市电,最终造成数据中心电力中断。

张洋说,通常情况下,市电中断后,UPS自动启用,一般可以维持数据中心继续运行10分钟以上,在这期间,系统会发出报警警示,如果技术人员没有及时注意到系统报警,就可能造成另一路市电未能及时切入,或发电机未能及时启动,造成掉电宕机。是否存在这样的情况,还有该数据中心下一步披露的调查结论。

2.机房设计方面——办公区是否为普通市电?双路市电真伪待查

微博4

张洋认为,还有一种可能,就是设计上的瑕疵。如果机房运行维护办公区也使用普通市电供电。市电断电时,电脑、办公系统全部失灵,工作人员之间无法交流、操控,数据中心就会全面瘫痪,报警信息无法及时处理,值班抢修人员无法及时到岗开展应急工作,最终导致数据中心掉电宕机。

在设计上,大型数据中心对每年断电时间、频率有着非常严格的要求,比一般的工业用电要求供电等级更高,而且还需要双路以上(最高等级要求四路)来源于不同区域、不同变电站的市电接入,更高一级要求上两级电力接入不允许是同一路变电站或者供电回路。

“如果不是数据中心场地高压开关房及周边事故,一般不会出现两路市电同时停电的情况。但如果两路市电同属一个上级电站,那么,当该变电站出现问题时,所谓的‘双路市电’会同时中断,这也就是业内所说的‘伪双路市电’。”张洋向中国IDC圈强调。

3.回应网友猜测——发电机故障可能性很低  高温天气无需背锅

微博5

针对一些网友提出的“发电机故障或机房方面为降低成本而延迟发动机启用”的猜测,张洋认为可能性不大。

张洋告诉中国IDC圈,对于新浪微博机房这种高等级机房来说,往往都是多台发电机并机运行,发电机采用N+1配置,即使一台发电机故障,也可以完全满足系统正常运行。一般情况下,发动机启动运行1分钟内,就能正常供电,保障数据中心的运行。启动发动机的成本并不高,只需要燃油方面的花费。即使电力供应正常,数据中心每个月都要启动发电机至少一次,每次加载运行不低于十五分钟,使发电机内部润滑等部件保持状态良好,可以随时投入应急使用。

还有网友猜测,近期北京气温上升过高,达到历史同期最高水平,炎热天气会增加数据中心负荷,导致宕机概率上升。张洋认为,该种猜测也不正确。

张洋说,天气炎热,室外温度上升,在IT负载方面不会有任何变化,变化的就是空调部分的制冷效率。温度上升,导致室外冷凝器的热交换温差降低,进而降低冷凝器热转化效率,使数据中心PUE值上涨。

一般的数据中心PUE会在1.5至2.0之间,这主要就是冬季夏季因气温引起的制冷供电功率的变化,数据中心用电设计都会保留最大用电负荷的冗余设计,所以温度高了,只会影响到用电成本的增加,不会因此宕机。

发电机启动一分钟后,就能发电供数据中心机房使用,为什么这次此次新浪微博宕机时间却长达一个多小时?

张洋解释说,掉电后,发电机一分钟发电供电是没问题的,但如果数据中心路由器、核心交换机部分没有配备机柜内备用UPS的话,掉电恢复时间可能从三五分钟达到乃至十几分钟,抑或需要从根本上人工重新恢复数据再运行。一般的服务器都会设置掉电重启,这个重启时间也会从三五分钟至十几分钟不等。如果部分服务器因掉电引起数据丢失、损坏,而需要通过其他手段进行恢复才能运行,就需要更长的时间了。

关注中国IDC圈官方微信:idc-quan或微信号:821496803 我们将定期推送IDC产业最新资讯

查看心情排行你看到此篇文章的感受是:


  • 支持

  • 高兴

  • 震惊

  • 愤怒

  • 无聊

  • 无奈

  • 谎言

  • 枪稿

  • 不解

  • 标题党
2018-03-16 12:12:50
运维管理 数据中心宕机,应对的主要措施与方法有哪些
虽然数据中心的设计在理论上不会发生故障,但它确实会出现这种情况,因此数据中心运营商将面临非常严峻的情况,特别是托管数据中心。 <详情>
2018-03-09 16:16:02
运维管理 机房常见的防雷设备有哪些?
雷击可以产生不同的破坏形式,国际电工委员会已将雷电灾害称为“电子时代的一大公害”,雷击、感应雷击、电源尖波等瞬间过电压已成为破坏电子设备的罪魁祸首。从大量的通信 <详情>
2018-03-05 09:25:00
项目招标 中国联通2017-2018年UPS设备集采公示中标候选人
3月5日消息(南山)中国联通近日公告称,“2017-2018年中国联通UPS设备集中采购”已经于3月2日完成评标 <详情>
2018-03-02 10:10:18
UPS电力 国内UPS行业增速加快行业五大发展趋势分析
UPS电源最早进入中国是在1972年,美国总统尼克松访华时作为礼物送给中国政府。而中国本土企业开始办厂要到80年代末期,但受技术水平限制,在1990年以前,我国UPS产品几乎全 <详情>
2018-03-02 10:06:38
UPS电力 直流UPS定制的主要类别及主要组成部分
从主电路结构和不间断供电的运行机制来看,目前技术成熟并已经形成产品的各种UPS主要有四大类:后备式UPS,在线互动式UPS,双变换在现实UPS以及双向变换串并联补偿在线式UP <详情>
2018-02-22 10:08:08
UPS电力 蓄电池的安装与充电注意事项
新安装的电池,经过一定时间浮充运行后,浮充电压将趋于均匀,因为刚使用硫酸饱和度较高,气体复合效率差,运行后饱和度略微会下降,电池浮充电压也会均匀。 <详情>
2018-02-22 09:54:57
UPS电力 Vocus公司的一个数据中心由于UPS维护操作不当导致电力中断
据iTnews援引消息人士提供的消息称,由于数据中心UPS系统的维护操作执行不力导致Vocus通信公司在悉尼的数据中心在2月13日凌晨业务中断了几个小时。 <详情>
2018-02-14 08:57:50
空调制冷 机房不够冷?系统有问题!
机房的制冷系统一旦存在问题,就会出现诸多问题。从运行维护的角度看,影响空调制冷效果的具体因素有蒸发温度、膨胀阀开启度、冷凝压力等几个方面。 <详情>
2018-02-13 08:55:31
机房建设 这三大“监控系统”是机房重中之重?
科技改变生活,科技的发展让我们的生活越来越精彩丰富,数据中心机房监控系统也可以称为“自我监控系统”,主要是针对机房所有的设备及环境进行集中监控和管理的,其监控对 <详情>
2018-02-11 10:27:33
UPS电力 机房中铅酸蓄电池的性能参数及优缺点
随着各行业数据中心机房建设的飞速发展,数据中心机房的设备承载压力逐渐扩大,机房中铅酸蓄电池也叫阀控密封式铅酸蓄电池,高频开关电源、不间断电源(UPS)等电源设备的 <详情>

IDC圈

阅读量
阅读排行榜