英伟达最终活成了三芯
英伟达(NVIDIA)400亿美元收购Arm的交易还未最终达成,但并不妨碍英伟达推出其首款基于Arm架构的数据中心CPU。今年的GTC 21依旧选择了线上的方式,英伟达首席执行官黄仁勋还是在自家厨房介绍了AI、汽车、机器人、5G、实时图形、协作和数据中心等领域的最新进展。
英伟达首席执行官黄仁勋GTC 21主题演讲
虽然还是穿着皮衣的黄教主,但他今年更具摇滚气质。不仅推出了全球首款为terabyte 级别计算设计的 CPU Grace,还将英伟达的数据中心产品路线图升级为GPU+CPU+DPU,只为提供10倍甚至更高的性能,保持其在AI领域的竞争力,也推动芯片行业的竞争进入“组合拳”时代。
不要忽略,作为一家系统公司,英伟达有更高远的目标。
黄仁勋说:“NVIDIA正在为当今时代的每一位‘达芬奇’推进他们的各项研究工作,包括语言理解、药物研发或量子计算等。英伟达将助力成就他们毕生的事业。”
英伟达首款数据中心CPU性能提升一个数量级
英伟达发布的首款数据中心CPU叫做Grace,是以美国海军少将、计算机编程先驱Grace Hopper的名字命名。雷锋网了解到,Grace采用台积电5nm工艺。
注意,Grace是一款高度专用型处理器,主要面向大型数据密集型HPC和AI应用。也就是说,绝大多数的数据中心仍将继续使用现有的CPU,Grace主要将用于计算领域的细分市场,预计2023年可以供货。
Grace在计算的细分领域可以实现数量级的性能提升。黄仁勋称,基于Grace的系统与英伟达GPU紧密结合,性能将比目前最先进的NVIDIA DGX系统(在x86 CPU上运行)高出10倍。
Arm属于精简指令集,相比x86这样的复杂指令集实现高性能的挑战更大,英伟达分三步来实现超越x86 CPU的性能。
第一,Grace内置下一代Arm Neoverse内核,每个CPU能在SPECrate2017_int_base基准测试中分数超过300分,为Grace提供足够的计算性能。
第二,有了足够的计算性能,要满足AI计算的需求,内存带宽成为瓶颈。因此,Grace采用了新内存LPDDR5x技术,带宽是LPDDR4的两倍,能源效率提高了10倍。
第三,CPU和GPU之间的数据传输速度同样限制了数据密集的AI计算,Grace采用NVIDIA NVLink,可以实现从CPU到GPU连接速度超过900GB/s,相当于目前服务器14倍的带宽。
从计算性能到解决带宽问题,再到CPU和GPU的紧密结合,使得英伟达的Arm架构Grace可以实现10倍的性能提升,达到一个数量级的提升。
Grace对于英伟达而言,是保持其AI竞争力的关键。由于超大规模的模型很难完全放进GPU内存,如果存储在系统内存,访问速度则会大大受限,如果选用CPU供应商的产品,不能实现最高的性能优化。
自研一款CPU,不仅可以实现更高性能,未来的迭代,以及进行系统优化也更容易。同时,英伟达还能帮助Arm将优势拓展到移动计算之外,无论是对英伟达自身还是Arm而言都是优选。
毕竟,黄仁勋对于达成收购Arm的交易持乐观态度。在发布会后的电话会议上,黄仁勋表示目前收购工作在有序进行,相信监管部门会支持这笔收购,2022年会有积极正面的结果。
升级GPU+CPU+DPU三芯片系统公司
英伟达强劲的GPU加上最新发布的CPU Grace,再加上最新更新的Bluefield DPU,构成了英伟达最新的数据中心芯片路线图。“我们每年都会发布激动人心的新品。三类芯片,逐年飞跃,一个架构。”黄仁勋表示。
数据中心路线图包括CPU、GPU和DPU这三类芯片,而Grace和BlueField是其中必不可少的关键组成部分。每个芯片架构历经两年的打磨周期(周期内可能出现转变),一年专注于 x86 平台,另一年专注于 Arm 平台。
“目前市场上每年交付的 3000 万台数据中心服务器中,有 1/3 用于运行软件定义的数据中心堆栈,其负载的增长速度远远快于摩尔定律。除非我们找到加速的办法,否则用于运行应用的算力将会越来越少。”黄仁勋说,“新时代的计算机需要新的芯片、新的系统架构、新的网络、新的软件和工具。”
显然,英伟达推出自家的Arm架构CPU并非要与x86阵营的AMD和Intel争夺市场,而是面向新兴的细分市场,通过三种芯片的组合实现差异化,并保持竞争力。
GPU是英伟达AI领导力的基石,黄仁勋说:“只需一张 GeForce 显卡,每个学生都可以拥有一台超级计算机,这正是 Alex Krizhevsky、Ilya 和 Hinton 当年训练 AI 模型 AlexNet 的方式。”
在今天的GTC上,英伟达还更新了DPU(Data processing unit,数据处理单元)。“现代超大规模云技术推动数据中心从基础上走向了新的架构, 利用一种专门针对数据中心基础架构软件而设计的新型处理器, 来卸载和加速由虚拟化、网络、存储、安全和云原生AI服务产生的巨大计算负荷。BlueField DPU正是为此而生。”黄仁勋如此解释。
去年10月,英伟达发布首代DPU BlueField-2,能够卸载相当于30个CPU核的工作负载。今天发布的最新一代BlueField-3 DPU,是专为AI和加速计算设计,实现了10倍的性能提升,有16个Arm A78 CPU核,和4倍的加密速度,能够替代300个CPU核,能以400Gbps的速率,对网络流量进行保护、卸载和加速。
BlueField-3通过NVIDIA DOCA(集数据中心于芯片的架构)软件开发包为开发者提供一个完整、开放的软件平台,新一代DPU预计将于2022年第一季度发布样品。
包括黄仁勋在内的多位英伟达发言人曾不止一次表示,英伟达是一家系统公司。作为系统公司,软件自然也是重点。
GTC 21上,黄仁勋发布了用于训练Transformers的框架—— 英伟达Megatron。Transformers能够生成文档摘要、将电子邮件中的短语补充完整、对测验进行评分、生成体育赛事现场评论、甚至生成代码,已经帮助开发者在自然语言处理领域取得了突破性进展。
他还介绍了英伟达用于计算药物研发加速库Clara Discovery的一些新模型。
还有量子电路模拟器提供加速cuQuantum,目标是为加快有赖于量子位(或量子比特,能作为单个的0或1存在,也可以同时作为二者存在)的量子计算研究,帮助研究人员设计出更完善的量子计算机。
针对数据中心的安全,英伟达也推出了Morpheus数据中心安全平台,基于英伟达AI、BlueField、Net-Q网络遥测软件和EGX而构建,能够对完整的数据包进行实时检测。
面向会话式AI,英伟达Jarvis已经可用,其能够实现语音识别、语言理解、翻译和表达性语音。雷锋网了解到,Jarvis支持五种语言。
为加快包括搜索、广告、在线购物等推荐系统的速度,黄仁勋宣布NVIDIA Merlin现可通过NGC(NVIDIA的深度学习框架容器目录)获取。
还有,为了帮助客户将自身专业知识应用于AI领域,黄仁勋发布了NVIDIA TAO,可以运用客户和合作伙伴的数据,对NVIDIA预训练模型进行微调和适配,同时保护数据隐私。
英伟达的“三芯”时代
有了全新的数据中心芯片路线图,匹配丰富的软件,英伟达能做什么?
首先是获益的就是数据中心。黄仁勋透露,基于今天新发布的Grace CPU以及下一代GPU,瑞士国家超级计算中心、苏黎世联邦理工大学将构建一台名为阿尔卑斯的超级计算机,算力 20Exaflops(目前全球第一超算富岳的算力约为0.537Exaflops),将实现两天训练一次GPT-3模型的能力,比目前基于英伟达GPU打造的 Selene 超级计算机快7倍。
另外,美国能源部下属的洛斯阿拉莫斯国家实验室也将在2023年推出一台基于Grace 的超级计算机。
更进一步,英伟达可以扩展Arm从云到边缘的市场,包括将基于AWS Graviton2的Amazon EC2实例与NVIDIA GPU相结合;通过新HPC开发者套件,为科学和AI应用的开发提供支持;提升边缘视频分析和安全功能;打造新一类基于Arm并搭载NVIDIA RTX GPU的新款PC。
除了在高性能计算市场,英伟达的三芯片组合也能提升其在自动驾驶汽车市场的竞争力。基于英伟达新一代GPU架构、全新Arm CPU以及深度学习和计算机视觉加速器,黄仁勋推出了新一代面向自动驾驶汽车的NVIDIA DRIVE Atlan,该处理器性能最高达每秒超过1000万亿次(TOPS)运算,约是上一代Orin处理器的4倍,超过了绝大多数L5无人驾驶出租车的总计算能力。
DRIVE Atlan SoC也集成BlueField DPU,可以支持自动驾驶汽车中的复杂计算和AI工作负载。预计DRIVE Atlan将搭载在多家汽车制造商的2025年车型上。
“对于汽车而言,更高的算力意味着更加智能化,开发者们也能让产品更快迭代。TOPS 就是新的马力。”黄仁勋说。
不仅如此,英伟达还推出了Hyperion 8 AV平台,这是一个先进的数据采集、开发和测试平台,包含参考传感器、自动驾驶汽车和中央计算机、3D地面真实数据记录仪、网络以及所有必要的软件。
不难发现,面向AI、数据中心、自动驾驶这些新兴市场,再强大的单芯片也很难满足需求,因此,英伟达将其数据中心芯片路线图升级为GPU+CPU+DPU,匹配的丰富软件,进行系统优化,能够帮助英伟达保持领先地位。
小结
对于以GPU见长的英伟达发布CPU,许多人可能会表示惊讶。其实,去年以CPU见长的英特尔也发布了自研GPU。AMD也在拥有CPU和GPU的基础上要收购FPGA。巨头们都做出了相同的选择,意味着的是芯片行业的竞争已经进入了新的阶段,靠单一的芯片已经很难满足AI、5G、自动驾驶等应用的需求,组合拳以及系统优化是未来的重点。
英伟达的优势在于,通过GPU+CPU+DPU的产品组合,能够最大程度维持其在AI领域优势,加上软件和系统的优化,更好地满足新兴应用的需求,在新的市场占据领导力,而非与竞争对手抢夺已有的市场。比如,用英伟达Omniverse创建共享虚拟3D世界。
芯片行业新的竞争格局正在形成。
注,文中配图来自英伟达 雷锋网