近期,国内多家大厂宣布推出AIGC产品,将在大语言模型方面持续加码,这需要人工智能技术的创新发展,也需要海量算力的支撑,且此情况适用于整个数字经济,伴随数字化程度加深,作为数字经济核心生产力的算力将保持快速增长,这将推动数据中心市场规模的扩大,据科智咨询发布的《2022-2023年中国IDC行业发展研究报告》,自今年到2025年,数据中心将保持30%以上增长速度,2025年市场规模预计将达到10096.9亿元。同时,算力也早已脱离野蛮增长的时期,正向着高效、安全、绿色的方向发展,对于数据中心运维也就提出了更高的要求。
上海奎宇智能科技有限公司产品研发总监赵海峰在采访时表示:“在当前的政策背景与市场需求下,数据中心行业将面临的主要挑战,包括运营成本高、人才短缺、节能减排三个方面,解决上述挑战的核心是提升现有数据中心数字智能化能力,当然这不是一家或者两家企业可以解决的,数据中心生态圈内的所有参与者都应当进行协作配合才能实现。”
场景数字化是运维智能化的基础
数据中心全场景数字化是实现运维智能化的基础,将场景中的每一台设备实现数字化,在各个平台之间的实现人、机、物的互联互通,帮助数据中心运维人员在任何时间、任何地点,对业务过程的数字化识别、智能化感知和管理。奎宇智能自主研发的“UTP”U位精准定位产品,打通系统平台与IT设备之间“最后1厘米”,帮助数据中心实现设备的数字化。
智能化加快运维少人、无人化,解决人才短缺问题
当前,数据中心建设规模与产业规模不断扩大,且伴随新技术的持续创新突破,这增加了运维的复杂性,运维场景也大幅增加。同时,为优化土地、能源等资源配置,提升资源使用效率,我国全面启动“东数西算”工程,西部对于运维人才的需求增加,与当前的人才分布并不匹配。
赵海峰表示,在此种背景下,原有通过人工来完成的运维工作变得越来越难以为继,运维人员焦头烂额也往往无济于事。尤其在西部地区,招聘合格的运维人员变成一件很困难的事情。
市场的需求变换,加快了数据中心运维无人化、高效化的进程。数据中心运维等工作要降低人员参与度,赵海峰指出,主要加快数字智能化的发展,在4个方面实现自动化:安全保障方面,确保IT设备的安全,无异动;IT设备运行状况,特别是告警信息;应急响应方面,一旦发生告警的响应机制,保证第一时间找到故障设备并及时处理;无人值守方面,运维工作要做到无人值守;资源规划和利用方面,数据中心柜内的资源的合理规划及使用。
由此可见,智能化、无人化的发展涉及多个层面,包括安全、应急、便捷、资源利用等。目前,相关产品的研发已经有所突破,如奎宇智能研发的“数据中心基础IT设备数字一体化管理平台”,可从内而外、双管齐下的方式实现数据中心IT设备的数字化,通过全方位自动化管控,尽可能在减少运维人员数量的前提下,实现对IT设备的自动化纳管,智能规划柜内资源合理的利用;凭借奎宇在复杂电磁环境下的1CM微距移动侦测功能,能够有效保证IT设备的安全,可适用任意数据中心、任意运维场景。产品已经成熟,具备大规模应用的基础,既可单机群使用,也适应于多地多中心的场景。”
在人才短缺、数据中心对无人运维需求越发强烈的情况下,此类产品应用必然会增多,数据中心无人化运营其实已经在不远方。
智能化降本增效,实现算力稳定输出
智能化的发展推动了运维无人化,为数据中心人才短缺的问题提供了解决方案,减少了人工的投入,提升了运维效率,有利于运维成本的降低。同时,智能化有助于数据中心高效输出算力,提升算力供给能力,提高数据中心的利用效率。而高算力对于智能化也有着要求,想要通过智能化推动高算力的实现,还需要做出多项革新。
赵海峰依据企业实践指出,高算力对基础设备运维的稳定性、设备集群快速批量部署、动态规划设备分布、硬件设备故障检测等要求比以往更高。
为满足这些要求,相关厂商在相应产品上进行了多重创新突破,以奎宇智能为例,其不断更新迭代“数据中心基础IT设备数字一体化管理平台”,对数据中心IT设备进行了内外结合、双管齐下的手段,从基础着手,为客户提升算力和算效提供数字化、一体化保障。
具体来看,通过带外平台,可对IT设备内部运行状态进行监控,包括CPU、内存等部件级运行状态以及设备运行告警事件、日志等,利用软件平台,对所获取的数据进行加工、清洗、处理,为客户提供所关注数据的实时反馈和设备运行调整建议,确保IT设备始终处于良性工作状态;通过IT设备精确定位系统,从外部对IT设备位置进行实时监控,将客户业务运维能力得到及时、精准的保障和应急响应,提升客户超算能力的持续稳定。
高算力是数据中心质量变革与效率变革的重要目标,奎宇智能的实践表明智能化能够有效推动数据中心从粗放的机架规模增长向提升算力的高质量发展演进,加快提升算力算效水平和部署高性能、智能算力,推进算力供应多元化。这有利于降低算力使用成本,更有利于数字经济高质量发展。
智能化加速绿色化,推动数据中心高效制冷
绿色化是数据中心发展的必然趋势,而数据中心在运维过程中碳排高主要是能耗大。此情况下,作为IT设备以外大能耗源的制冷也就成为节能减碳的重点。当前,在提升制冷效率方面也已经有诸多研究与实践,其中,发展液冷及推动空调系统相关方面智能化得到了广泛的认可。
液冷方面,其在制冷上有着天然优势,冷却能力是空气的1000~3000倍,且液冷对环境要求低、适应性强,在数据中心呈现高密度发展趋势的当下,能够实现更低的PUE值,满足数据中心低碳高效运行的需求。
目前其研发与应用不断增多,市场规模在不断扩大,根据科智咨询发布的《中国液冷数据中心研究报告》,2023年至2025年,液冷数据中心应用增长增速将保持在40%以上,预计2025年应用规模将达到约850亿元。加码液冷的厂商也在持续增加,这其中便包括奎宇智能。赵海峰表示,奎宇智能看好液冷等技术在数据中心上的应用与创新,目前,奎宇智能正在与大型服务器及机柜厂商合作研发新型产品。
推动空调系统相关方面智能化方面,主要是通过提升对设备制冷等情况的感知,并用智能化手段实现高效制冷。当前,已有厂商展开实践,奎宇智能更是走在了前列,有了一整套解决方案。
据赵海峰介绍,经过大量的分析和实地考察,奎宇智能发现空调系统缺乏全局解决方案以及机柜气流组织不合理是高能耗的关键问题之一。针对此,奎宇智能主要采取了三方面的举措,一是加强信息设备末端运行状态的监测,将过热设备、僵尸设备、发热设备等进行自动发现并自动调整运行模式,达到降低信息设备能耗值;二是利用硬件及传感系统,实时监控柜内冷热空气状态、杜绝冷热空气短路造成的能耗损失等手段,加强机柜气流组织合理性,降低空调运行能耗;三是利用各种软硬件传感系统精确获取末端能耗数据和机柜气流与冷量参数,通过智能化调节手段,改善柜内气流组织,在不增加空调运行效率的基础上充分利用现有空调冷量,并在此基础上降低空调运行能耗。
液冷加上空调系统相关方面智能化发展,数据中心高效制冷其实已经逐步走进了现实。未来,伴随着相关解决方案的大规模应用乃至液冷与智能化更有机的结合以后,数据中心制冷必然将更加绿色、低碳且高效率。
值得一提的是,在数据中心发展的另一大方向——高安全方面,奎宇智能也已经走在了前列。赵海峰表示,奎宇智能积极响应国家“信创”战略,持续进行产品软硬件方面的“信创”适配研发工作。从硬件层面而言,奎宇智能的产品达到芯片、小到电阻电容,全部实现了国产化替代,彻底摆脱了元器件进口所面临的种种限制,如订货周期长、无法保证货源、随意加价等。从软件层面而言,奎宇智能将所有的代码进行了“信创”适配,目前已经完成了操作系统、数据库、中间件等的国产化信创产品适配和替代。
综合来看,智能化在数据中心节能减碳、降本增效、解决人才缺口方面发挥着重要作用,相关产品有效推动了数据中心高算力与高安全。赵海峰表示,未来数据中心自动化程度将越来越高,奎宇智能也会继续在智能化方向持续发力。同时,数据中心还呈现出产业迅猛发展,扩张速度快,投入巨大;节能减排成为常态和硬性指标;液冷等高新技术不断引入等趋势。基于此,奎宇智能将在三方面进行重点布局:积极响应“东数西算”工程,将在长三角、京津冀、粤港澳三大国家级数据节点进行重点布局;发展液冷,目前奎宇智能已开始进行新型产品研发;全面推动节能减排,奎宇智能当前也正在与大型集团企业联合开发新型节能产品。