资讯

为了AI大模型数据中心服务器泡澡要成潮流

当AI写论文,做旅行攻略,作画,写诗能够媲美甚至超越普通人水平时,有人兴奋不已,也有人忧心忡忡。

普通人对于生成式AI可能带来的变化态度各有不同,但推动这一技术发展的研究人员和企业都有一个共同关注的问题——大模型所需的大算力需求带来的能耗问题如何解决?

以火爆全球的OpenAI公司的ChatGPT为例,两年前,微软为了满足OpenAI的GPT-3模型训练的算力需求,专门推出的超级计算机拥有28.5万个CPU核心、1万个 GPU。

巨量的CPU和GPU带来的是高昂的芯片采购和运营成本。

国盛证券报告估算,GPT-3训练一次的成本约为140 万美元。要用ChatGPT服务用户,以2023年1月的独立访客平均数1300万计算,每日电费在5万美元左右。

数据中心的能耗问题成了再一次摆在了云计算提供商面前的挑战。为了解决这一问题,无论是微软Azure、阿里云都早已让数据中心的服务器用“泡澡”的方式来散热,提升IDC的能源效率。

“我认为ChatGPT会加速液冷的发展,目前液冷几乎已经成为一个潮流。”英特尔市场营销集团副总裁、中国区数据中心销售总经理兼中国区运营商销售总经理庄秉翰在本周举行的2023英特尔可持续发展高峰论坛期间表示。

ChatGPT助推,服务器「泡澡」要成主流

服务器“泡澡”是一种比喻,实际上代表的是服务器散热液冷技术中的浸没方式,液冷技术包含了冷板、喷淋、浸没式,并非一个特别新的技术,但业界的使用率并不高。

主要原因是国内许多冷板液冷设计缺乏一个规范的验证标准,使得每个厂家设计都有差异,这使系统设计成本、验证成本比较高,因此对于最终用户而言这个方案就比较贵。”英特尔数据中心与人工智能集团副总裁兼中国区总经理陈葆立认为。

技术和标准之外,应用也是液冷技术没有大规模部署的原因。

高性能应用环节可能才需要液冷,但是大量的应用并不是那么高功耗的应用,而且在国家也提出‘双碳’战略之前,紧迫性和必要性没有那么高。”宁畅总裁秦晓宁说,“现在的情况不一样,CPU的功耗可能高达270W、300W,未来可能350W,GPU现在都400W、500W了,可能就必须应用液冷技术。”

更进一步,算力规模也是影响液冷技术大规模应用的关键。

“包括ChatGPT在内的应用带来的算力快速发展,是促使大多数客户快速从风冷技术转向更节能的液冷技术的重要原因。”新华三集团计算存储产品线副总裁刘宏程认为,“这不仅是可以节能多少的问题,还有空间浪费的问题。存量的数据中心当中无法容纳新的能耗过高的设备。比如GPU服务器会导致空间的占用,以及提高数据中心的管理和运营费用。这促使更多中国客户在快速考量更新数据中心整体设计时,转向更节能、更先进的液冷数据中心的方式来解决能耗和平衡的问题。”

当用户需求激增→标准建立→规模效应体现→整体成本自然下降的循环形成之后,可以加速推动产业从传统数据中心转向新型节能的数据中心。”刘宏程进一步表示。

数据中心的能耗从来都是挑战。信通院2022年发布的数据显示,2021年底到2022年,全国已有近520万个数据中心的基架进入部署,且过去五年的年均复合增长率达到30%。同时,全国数据中心的用电量已经达到了全国用电的2.6%,而且这个比例预估还会继续增长。

面对能源的挑战,政府指导单位也推出了一系列宏观政策指导行业的发展,包括三个重点方向:规划、能效、利用率。2022年6月工信部等六部门发布《工业能效提升行动计划》中明确规定,到2025年,新建大型、超大型数据中心PUE优于1.3。

PUE(Power Usage Effectiveness)是用于衡量IDC能源效率的指标,是用IDC总能耗除以IT设备能耗得来。

数据中心不同的散热技术直接影响PUE,采用风冷散热的数据中心PUE能到1.4-1.5,如果使用液冷散热,PUE可以做到近1.1。

破解液冷技术大规模应用的成本和标准挑战

“整体而言,我们主要从三个部分探索数据中心的绿色低碳:第一部分,处理器产品;第二部分,服务器整体设计;第三部分,软件与工具。”陈葆立指出。

要从处理器层级解决液冷的挑战,主要是技术挑战,对于强调创新的英特尔难度可控。今年1月发布的英特尔至强可扩展处理器,在深层环节已经使用了90%的可再生电力。

服务器层面的挑战就有技术和成本的挑战。

“假设管道或液体突然泄漏,整个电子器件如果说有损耗怎么办?这需要大量的验证,这是为什么我们和很多业内领先伙伴,如宁畅、新华三,一起做了非常多的试验。其实很多厂家也都提供了各种不同的方案,但是我们需要大规模验证去证明这些应用在液冷中的液体可以真正的安全的使用,并且不影响整个作业和服务。”陈葆立表示。

技术的问题相对容易解决。刘宏程就提到,在最新的服务器里面,英特尔创新地推出英特尔电源汇流排技术(Power Corridor),通过限流板的方式,针对CPU底座进行设计,可以降低整个部件级的能耗。

相比之下,成本的挑战更加巨大。使用液冷可能会带来10-20%的成本增加。

“许多冷板产品各个厂商都可以支持,但标准不统一,甚至快插的接口大小、尺寸都不一样。无论是从成本还是通用性角度,没有统一规范,对于客户是一件非常困扰的事情。因为每家服务器厂商的产品不同,有可能到了客户的机房甚至都无法使用。”秦晓宁表示。

而推动成本降低的关键是标准。英特尔携手20余位生态伙伴经过过去半年的努力,共同编纂的冷板液冷团体标准已于今年3月15日正式发布,英特尔希望通过标准化降低产业与技术门槛,推动冷板液冷技术的普及化,让所有的用户能够更普惠的使用到这项最新技术。

雷峰网(公众号:雷峰网)了解到,目前冷板的成本逐步下降,因为许多成本与量相关,冷板标准统一后,产量提升会带来成本的下降。

“浸没式液冷是一项难度系数更高的技术,我们也在研发上做出了一系列投入,目前英特尔正与国内领先伙伴就此进行联合研发,我们希望能在今年下半年把相关经验与设计规格通过分享给业界伙伴,加速浸没式液冷解决方案落地。”陈葆立透露。

庄秉翰指出,“通过这些标准可以增大整个市场产业化进程,加速产业化可以降低成本,降低成本之后才能让基于液冷的数据中心更加普及。”

如果没有形成规模,定制化的成本相对较高。”刘宏程认为,“由英特尔带动把液冷所有标准建立之后,产业链所有的供应商将用统一标准来实现互连、互操作,这能够极大降低采购成本以及在未来数据中心的运维成本,让整体液冷技术在数据中心更容易落地。”

目前,国内几个服务器使用的头部行业,如互联网、运营商、金融行业等,对液冷都已经跳过了POC阶段,进入到了规模化采用的状态。

仍需强调的一点是,液冷会在数据中心大规模应用,但并非所有数据中心都一定要用液冷。

“未来新的至强处理器可能会升级到拥有100个能效核,CPU的电源功率可能还是300W或350W。所以理论上来看,它在风冷上也可以应用。”陈葆立指出。

对于存量的数据中心市场,同样也有提升能源效率的方式。

“近期我们把绿色数据中心技术框架升级到2.0版本,拥有高能效与高功率密度、先进散热技术、基础设施智能化和材料可循环设计四个垂直领域,以及XPU、服务器、机架、数据中心四个水平方向的共13种关于节能减碳的方案。”陈葆立表示,“英特尔智慧节能解决方案基于模块化的软件设计理念,可通过软件和AI模型进行预测和干预,进而提升整体运行能效。”

据悉,英特尔和一家运营商在20个省的总共420多个机房里,通过智能节能方案把存量数据中心的PUE从1.49降到1.38,获得了可观的成本节省。

正如英特尔公司首席执行官帕特·基辛格在2023英特尔可持续发展高峰论坛上所说,“科技是实现绿色经济的唯一途径,但我们在发展数字技术的过程中也消耗着更多的能源。因此,我们的责任与机会并存,共同创造一个可持续计算的未来,责无旁贷。”雷峰网