业内资深人士:新浪微博机房宕机 人为原因可能性最大
昨天(6月17日)下午16点30分左右开始,新浪微博经历了“黑色一小时”,几乎全平台瘫痪,微博CIO王巍在事后回应称,这次故障的原因是“外部机房整层掉电”。
作者:IDC圈
来源:IDC圈
2017-06-19 13:08:21

昨天(6月17日)下午16点30分左右开始,新浪微博经历了“黑色一小时”,几乎全平台瘫痪,微博CIO王巍在事后回应称,这次故障的原因是“外部机房整层掉电”。作为业内人士,很难想象,支撑着上亿用户的新浪微博数据中心会出现因电力保障问题而宕机的事故。

对此,中国IDC圈第一时间联系到拥有20多年数据中心建设运维抢修经验的资深专家张洋,请他分析一下此次新浪微博机房断电宕机的可能原因。

1.人为原因方面——互锁机制流程是否顺畅?值班状态有待确认

微博3

“武装到牙齿的现代化部队,也可能存在管理漏洞,在某种情形下,被‘敌人’轻易攻陷。自动化程度很高的数据中心,在运营维护上的一点小瑕疵,就可能导致整个数据中心宕机。新浪微博机房掉电宕机,有可能是设计上存在问题,但更大的可能,则是运行维护时人为因素造成。”在电话里,张洋开门见山,认为人为原因可能性最大。

张洋向中国IDC圈记者分析说,即使数据中心有双路市电的保障,但如果一路市电失电,配电系统互锁机制方面出现问题,那么所谓双路市电只是形同虚设。正常情况下,一路市电断电,UPS将自动启用,随后另一路市电及时切入。所谓互锁机制,就是为了防止人为误操作造成两路市电之间发生短路的保障机制。

新浪微博机房这种等级的机房,一般只有两路市电都中断,才会启用发电机。如果一路市电断电时,值班人员或电力运维工程师技术能力有限,或由于其他原因应对不足,则可能直至UPS电力耗尽,仍未能切入另一路市电,最终造成数据中心电力中断。

张洋说,通常情况下,市电中断后,UPS自动启用,一般可以维持数据中心继续运行10分钟以上,在这期间,系统会发出报警警示,如果技术人员没有及时注意到系统报警,就可能造成另一路市电未能及时切入,或发电机未能及时启动,造成掉电宕机。是否存在这样的情况,还有该数据中心下一步披露的调查结论。

2.机房设计方面——办公区是否为普通市电?双路市电真伪待查

微博4

张洋认为,还有一种可能,就是设计上的瑕疵。如果机房运行维护办公区也使用普通市电供电。市电断电时,电脑、办公系统全部失灵,工作人员之间无法交流、操控,数据中心就会全面瘫痪,报警信息无法及时处理,值班抢修人员无法及时到岗开展应急工作,最终导致数据中心掉电宕机。

在设计上,大型数据中心对每年断电时间、频率有着非常严格的要求,比一般的工业用电要求供电等级更高,而且还需要双路以上(最高等级要求四路)来源于不同区域、不同变电站的市电接入,更高一级要求上两级电力接入不允许是同一路变电站或者供电回路。

“如果不是数据中心场地高压开关房及周边事故,一般不会出现两路市电同时停电的情况。但如果两路市电同属一个上级电站,那么,当该变电站出现问题时,所谓的‘双路市电’会同时中断,这也就是业内所说的‘伪双路市电’。”张洋向中国IDC圈强调。

3.回应网友猜测——发电机故障可能性很低  高温天气无需背锅

微博5

针对一些网友提出的“发电机故障或机房方面为降低成本而延迟发动机启用”的猜测,张洋认为可能性不大。

张洋告诉中国IDC圈,对于新浪微博机房这种高等级机房来说,往往都是多台发电机并机运行,发电机采用N+1配置,即使一台发电机故障,也可以完全满足系统正常运行。一般情况下,发动机启动运行1分钟内,就能正常供电,保障数据中心的运行。启动发动机的成本并不高,只需要燃油方面的花费。即使电力供应正常,数据中心每个月都要启动发电机至少一次,每次加载运行不低于十五分钟,使发电机内部润滑等部件保持状态良好,可以随时投入应急使用。

还有网友猜测,近期北京气温上升过高,达到历史同期最高水平,炎热天气会增加数据中心负荷,导致宕机概率上升。张洋认为,该种猜测也不正确。

张洋说,天气炎热,室外温度上升,在IT负载方面不会有任何变化,变化的就是空调部分的制冷效率。温度上升,导致室外冷凝器的热交换温差降低,进而降低冷凝器热转化效率,使数据中心PUE值上涨。

一般的数据中心PUE会在1.5至2.0之间,这主要就是冬季夏季因气温引起的制冷供电功率的变化,数据中心用电设计都会保留最大用电负荷的冗余设计,所以温度高了,只会影响到用电成本的增加,不会因此宕机。

发电机启动一分钟后,就能发电供数据中心机房使用,为什么这次此次新浪微博宕机时间却长达一个多小时?

张洋解释说,掉电后,发电机一分钟发电供电是没问题的,但如果数据中心路由器、核心交换机部分没有配备机柜内备用UPS的话,掉电恢复时间可能从三五分钟达到乃至十几分钟,抑或需要从根本上人工重新恢复数据再运行。一般的服务器都会设置掉电重启,这个重启时间也会从三五分钟至十几分钟不等。如果部分服务器因掉电引起数据丢失、损坏,而需要通过其他手段进行恢复才能运行,就需要更长的时间了。

关注中国IDC圈官方微信:idc-quan或微信号:821496803 我们将定期推送IDC产业最新资讯

查看心情排行你看到此篇文章的感受是:


  • 支持

  • 高兴

  • 震惊

  • 愤怒

  • 无聊

  • 无奈

  • 谎言

  • 枪稿

  • 不解

  • 标题党
2017-06-19 13:08:20
公众号 哪个数据中心坑了新浪?新浪微博今天的故障谁之过
从17日下午16:30开始,新浪微博突发大面积故障,用户无法打开微博。 <详情>
2017-06-19 10:35:30
UPS电力 数据中心供电优化升级 UPS如何与时俱进
随着数据中心的大规模建设,人能源利用效率问题成为人们关注的焦点话题,推动了数据中心供电技术的发展速度。未来市场的发展方向一定是朝着在降低前期投资成本的同时,通过 <详情>
2017-06-19 09:03:03
国内资讯 业内资深人士:新浪微博机房宕机 人为原因可能性最大
新浪微博机房掉电宕机,有可能是设计上存在问题,但更大的可能,则是运行维护时人为因素造成。 <详情>
159< /span>
2017-06-14 10:33:00
国际资讯 Vertiv公司推出业界功率密度最高的一款UPS
日前,艾默生网络能源(Vertiv)公司宣布推出一款业界功率密度最高的UPS。 <详情>
82< /span>
2017-06-12 13:10:46
公众号 UPS电源的使用经验谈
使用ups电源可以解决两个方面的问题,就是意外断电和市电品质差时,UPS电源可以提供及时的供电,保证正常的工作运行和正常的工作效率。 <详情>
UPS
36< /span>
2017-06-05 12:57:09
公众号 机房里管网气体消防和无管网气体消防有何区别?
有管网气体消防又称为有管灭火系统、有管网七氟丙烷灭火装置:是气体灭火剂储存瓶平时放置在专用钢瓶间内,通过管网连接,在火灾发生时,将灭火剂由钢瓶间,输送到需要灭火 <详情>
2017-06-02 12:07:00
公众号 你要知道的4个机房除尘小技巧
灰尘可以说是机房的劲敌,除尘如果不到位,会使灰尘夹带水分和腐蚀物质一起进入设备元件,长期积聚则导致设备工作不稳定,再好的服务器或网络设备都会出现问题。 <详情>
125< /span>
2017-05-31 11:21:00
机房建设 IDC机房最流行的微模块机房是如何建设的?
近年来数据中心建设领域取得的进展,“模块化数据中心”无疑是一个热词。 <详情>
214< /span>
2017-05-26 18:02:00
国际资讯 由于数据中心故障 Capita 的Pay360支付暂停服务
英国商务流程外包(BPO)行业Capita公司的Pay360服务,支持小型企业和市政服务机构进行在线交易,如支付停车罚款之类的,但是由于其数据中心发生故障,在英国和爱尔兰Pay36 <详情>
260< /span>
2017-05-24 10:29:00
公众号 让人烦躁的“机房空调噪音”该怎么解决?
在相关调查中显示,空调异常产生的噪音往往是消费者最难以忍受的声音污染,在机房空调工程中除了对送风的温度、湿度、风速、空气的清洁度要求外,机房空调设备(风机、冷水 <详情>
73< /span>

IDC圈

阅读量
阅读排行榜