又又又断电?从某Cloud数据中心电力故障看UPS可靠性
在数据中心大谈云化,众多厂家“无云不宣”的时候,人们却发现:理论上更加安全、更加可靠、更加便捷的Cloud DC们,却似乎变得更加脆弱了。
作者:数据中心运维管理
来源:数据中心运维管理
2017-05-03 21:33:32

数据中心大谈云化,众多厂家“无云不宣”的时候,人们却发现:理论上更加安全、更加可靠、更加便捷的Cloud DC们,却似乎变得更加脆弱了。除了服务器宕机,断网、断电等事故也时有发生,连挖土机都有可能挖断光缆。当一朵朵“云”在天上飘的时候,背后的那根“安全线”也比任何时候更加不容忽视。

2017年3月22日,青云(QingCloud)因北京2区(PEK 2)数据中心电力故障引发部分网关设备及计算节点重启,目前故障虽然已经排除,但也造成了不小的影响。

10

近年来,大家频繁听到云数据中心因异常导致业务中断的事情发生,在数字化的现代社会,数据中心的可靠性如果稍稍动摇,其造成的影响如同蝴蝶效应,不可避免会波及终端客户的正常运营和影响自身声誉。因而每一次故障的发生不仅仅需要事故方自检排查,更需要整个行业一起反思,从中获益。虽然官方没有给出确切的故障原因,本文将参照青云事后发布的故障报告,大致分析故障原因,并以此为契机,给出一些思考与建议。

据青云官方称:具体故障发生过程为,该数据中心需要对A组UPS进行定期离线维护作业所以将负载从A路UPS整体切换到B路UPS,但是3个小时之后B路电源UPS出现单台机组报故障,随后整组UPS过载。1分钟后B路UPS在进行内部旁路切换时报警显示不能进行切换,紧接着UPS就陷入异常状态。大约36分钟后UPS系统恢复正常状态后将报警还原时,电源产生了瞬断现象。将近2个小时之后为了原因调查,UPS被完全隔离。

20

虽然目前还没有正式的分析报告出来,但是从报告中我们还是可以管中窥豹,从中看出一些问题。

一、传统塔式UPS离线维护风险大。在发生故障的第一环节是离线维护引起的,研究表明有50%~60%的数据中心的停机都是由人为错误引起的,这与塔式UPS结构息息相关。

传统塔式UPS是一个整体,其内部系统复杂,UPS出了故障后,问题的定位和维修是很大的工程量,并且需要专家到现场才能定位、维修,且这个过程是离线的,此时UPS系统工作在维修旁路,这就意味着,当市电中断时,如果单机供电,负载将直接中断。

二、传统塔式UPS维护时间长。上文已经提到,塔式UPS的维护往往是个专业过程,维护工作量大,一般维护时间常常是数小时甚至数十小时,这就加大了业务中断的风险。

三、青云所用的UPS本身可靠性设计令人担忧。从报告中看 “B路电源UPS出现单台机组报故障,随后整组UPS过载。1分钟后B路UPS在进行内部旁路切换时报警显示不能进行切换,紧接着UPS就陷入异常状态。大约36分钟后UPS系统恢复正常状态后将报警还原时,电源产生了瞬断现象。”这段描述性文字可以看出,青云所用UPS在过载状态下,主旁切换逻辑出现重大问题,本身可靠性设计堪忧。

UPS发展至今,传统塔式UPS低可用性已经无法跟上数据中心IT设施的发展速度,要提升可用性,缩短故障维护时间,模块化UPS是唯一方向。模块可热插拔是所有UPS厂家对模块化UPS的基本要求,故障时通过热插拔更换模块,5分钟即可完成在线维护,这与传统塔式UPS动辄8小时以上的离线维护时间相比,是个巨大的提升,当然在线与离线相比,对负载的重要性也不言而喻;部分厂家甚至将静态旁路、控制模块等等都做了热插拔设计,进一步提升系统可用性。

此外,传统塔机单点故障多,单点故障,常常引起整个系统中断,相比而言模块化UPS关键节点可以通过冗余设计提升可靠性,在整个系统运行时,负载率一般会低于50%,此时多个模块故障,仍然可以保证UPS正常带载,直接规避了上文所说的过载问题。

最后,用户在使用UPS,进行招标时,对于UPS可靠性的要求应该更加严格,严格的标准才能大浪淘沙,让真正可靠的UPS脱颖而出,为更多的用户谋福利。

从近年来的集采可以看出,模块化UPS所占比例节节攀升,逐步成为集采主流机型,这也从侧面印证了市场趋势,从业务出发,客户也不愿意使用维修困难的UPS,正在追求更高可用性的UPS。

UPS作为电力守护者,为各个行业的关键负责设备提供稳定、不间断的电力供应。从近几年的市场表现来看,模块化UPS的可靠性正在逐步被行业认可。相对于传统的高频塔式UPS,模块化UPS可以不断电维护,单模块故障不影响系统运行,高效节能等特性更符合数据中心应用。

关注中国IDC圈官方微信:idc-quan或微信号:821496803 我们将定期推送IDC产业最新资讯

查看心情排行你看到此篇文章的感受是:


  • 支持

  • 高兴

  • 震惊

  • 愤怒

  • 无聊

  • 无奈

  • 谎言

  • 枪稿

  • 不解

  • 标题党
2022-06-20 10:09:00
国内资讯 ​发改委:国家枢纽节点数据中心规模机架数超54万台
对新基建下一步的布局规划,国家发改委将会同各地方和相关部门,重点推动两项工作。一是持续推动重点项目建设,二是营造良好的投融资环境。 <详情>
2022-06-14 10:18:13
大数据资讯 张家口怀来:推进大数据产业发展
2021年,怀来县“数据+软件”主营业务收入达21.9亿元,同比增长55.3%。预计到2025年,全县运营服务器将达300万台,从业人员5万以上。 <详情>
2022-05-10 14:39:28
市场情报 SpaceDC与奥飞国际在中国正式达成合作
2022年5月10日,SpaceDC与奥飞国际正式达成合作。 <详情>
2022-05-10 11:04:40
国际资讯 微软公布 Azure 数据中心用水量及能耗测量标准:亚太地区更需要水冷式冷水机组
众所周知,范围 3 排放(即公司整体价值链所产生的碳排放总量)是最难控制和减少的,因为我们通常只能影响其变化。 <详情>
2022-02-17 09:35:33
运营商 中国移动段晓东加入开放数据中心委员会轮值主席团
中国移动是开放数据中心委员会ODCC发起成员之一,段晓东多年来带领团队积极参与开放数据中心委员会ODCC的相关工作,结合运营商业务特点及实际部署经验,在服务器、数据中心 <详情>
2022-02-08 09:41:06
国内资讯 7.39亿拉萨数据中心新进展:一期已建成投产
该数据中心一期已建成投产,将为企事业单位提供先进的互联网及云计算服务,有效提升拉萨乃至全区的信息化服务能力。 <详情>
2022-02-08 09:32:01
国际资讯 澳洲电信投资 16 亿澳元建设国家数字基础设施
(澳洲)国家光纤网络的测试已经开始,该项目将在 22 财年末开始大规模投入使用。 <详情>
2022-02-07 09:50:00
国内资讯 数据中心:数字经济风口下的核心赛道
现阶段的数据中心是整合了服务器资源,凭借带宽优势,集中建设大型数据中心,同时利用先进的云计算、云存储技术提高服务器使用效率,从而实现单机成本降低以及使用效率的迅 <详情>
2022-02-05 10:10:20
2022-01-29 08:49:55
国内资讯 湖南省:全省在建及投产数据中心达47个,机架总规模达15万架
大数据中心已然成为湖南省新基建重点,为千行百业数字化转型提供了算力和技术支撑。 <详情>

数据中心运维管理

阅读量
阅读排行榜