分析测试百科网

搜索

喜欢作者

微信支付微信支付
×

液冷:助AI算力从源头节能

2023.8.10

原文地址:http://news.sciencenet.cn/htmlnews/2023/8/506348.shtm

自以ChatGPT为代表的人工智能(AI)大模型引爆IT圈以来,国内多家企业或机构纷纷推出相应的大模型产品,堪称“百模大战”。当人们还在比较哪家的“类ChatGPT”产品更智能之际,“曙光数创”这家IaaS公司却因其“液冷龙头”的身份率先“火”了。

据赛迪顾问《2023中国液冷应用市场研究报告》显示,2021年至2023年上半年,曙光数创以平均58.8%的市场份额,位列中国液冷数据中心基础设施市场部署规模第一,多年稳居行业头名。

这背后藏着什么样的现实逻辑?

《2023中国液冷应用市场研究报告》现场分享。曙光数创供图

部署大模型?优先选液冷

日前,曙光数创在京举办了一场战略发布会,发布其“冷平衡”战略,对标当下液冷技术在数据中心落地中的“强劲性能、绿色低碳、可控成本”的三元平衡需求。

在当天会后的媒体见面时间,曙光数创相关负责人谈到了“大模型产品陆续问世,给液冷产业带来哪些变化”的话题。

“我们感受最深的是,数据中心要解决的散热问题,变得比五年前、七八年前越来越紧迫。”曙光数创产品规划部负责人白泽阳说道,特别是大模型兴起以来,小到芯片散热、服务器功耗,大到数据中心用电,近一两年提升速率几乎超过了此前五年的增幅。

而这,也让他们坚定了“大力深耕液冷行业、不断推进液冷方向技术创新”的决心。

以ChatGPT为代表的AI大模型训练,需要极大的算力支撑。如GPT-4大模型约需要2~3万张A100卡,训练一个月左右时间。与此同时,我国算力与存力建设同样处于高速发展阶段。截至2022年底,我国在用标准机架超过650万架,算力总规模达180EFLOPS,存力总规模超过1000EB(1万亿GB)。 

一面是激增的存算基础设施,另一面则是政策对数据中心能耗更严格的限制。工信部等多部门联合印发的《绿色数据中心政府采购需求标准》已于今年6月1日施行。该文明确要求,2023年6月起,新部署数据中心PUE不高于1.4,2025年起不高于1.3。 

PUE取自数据中心总能耗与IT设备负载能耗的比值,是反映数据中心是否绿色环保的最直接指标,越接近数字“1”则显示数据中心能效水平越高。为AI大模型预训练提供算力的数据中心,往往需要大量高功率、高密度服务器,对AI算力中心而言,“低PUE部署”几乎是刚需。

“往往高功率的服务器、全闪存存储服务器等,由于芯片功耗太高了,会优先用液冷。不过,许多通用服务器也在部署液冷。”曙光数创副总裁张鹏表示,市场选择液冷服务器是出于总体考虑,包括成本、安全性和可靠性,“在选择液冷部署方面,互联网企业需求最凶”。

互联网企业对液冷的选择其实很好理解:算力需求暴增,数据中心作为“能耗巨兽”正迎来低碳节能等议题的挑战。

液冷还不是主流选择

有研究数据显示,2020年,我国仅数据中心的用电量就超过2000亿千瓦时,占国民总用电量的2.7%;预计2023年这组数据将变为2500亿千瓦时和3%,2030年达到惊人的4000亿千瓦时和3.7%。

如此巨大的能源使用,按照PUE值为1.5计算,散热系统将占到30%以上——不用还不行,如果不做好散热,将直接影响数据中心的性能、稳定性和可靠性。

绿色和发展,必须兼顾。能够精确制冷散热、相比风冷散热效率有着千百倍提升效果的液冷,事实上为算力经济可持续发展提供了一条可行的解决之道。 

不过,液冷至今还不是数据中心的主流选择。

张鹏分享的一组统计数据显示,目前95%以上的数据中心仍然选择传统的风冷散热模式——因为服务器此前都是风冷。中国每年服务器的采购量约在200~300万台之间,其中液冷散热机型的渗透率仅为5%~8%。曙光数创作为液冷龙头,约占这部分市场58.8%的份额。他认为,随着市场对液冷的认可,未来几年内这个数据可能会增长至15~30%之间。

液冷散热机型渗透率低,存在一些现实困难,比如改造成本,比如数据中心的设计规划等。 

“原来的数据中心机房,都是按照风冷散热进行规划设计的,那么它部署液冷设备就会有困难。”白泽阳告诉《中国科学报》。

不过,白泽阳也表示,机房不适于部署也会在用户接纳液冷后在设计和规划阶段解决。现在液冷部署还存在一个比较棘手的情况:缺乏统一标准。

从标准入手加点“绿”

“现行一些标准与国家对数据中心要求不匹配,比如液冷设备的供水供电,与传统风冷数据中心有些细节甚至是相左的。”白泽阳说,从曙光数创的角度,希望能联合上下游企业一起推动更适用于液冷时代的行业标准、国家标准的落地。

他们也一直朝着这个方向努力。据张鹏介绍,迄今为止,曙光参编的与液冷技术相关的标准已超20个,包括行业邀请、协会组织和一些国标的制定。但张鹏更希望,未来三年,能否把这些标准统一?

“这一定是大势所趋。”张鹏说,如果标准不一甚至“百标齐放”,不仅对IaaS厂商而言绝非好事,用户也会陷入纠结和迷茫,对液冷数据中心能否可持续打下问号;而如果统一标准,液冷数据中心的设计建设、节能设备验收、液冷机房运维等将变得清晰,势必会对行业降低部署成本、拥抱绿色计算带来更多积极意义。

在液冷技术落地方面,曙光数创拥有一定的发言权。

曙光不仅早在2011年就开始投入液冷技术研发,还早在2015年就有了第一批商用的冷板式液冷设备下线、2018年部署了第一套商用化浸没液冷设备,并各自拥有时间最长的应用案例。

在此次“冷平衡”战略发布会上,曙光数创发布了其总结多年经验的SLiquid液冷技术品牌和CloudBASE数据中心整体解决方案品牌,为相关标准的落地提供有力的技术与产品支撑。 

曙光数创“冷平衡”战略暨SLiquid品牌发布仪式。曙光数创供图

文章推荐