华为芯片突破最新消息英伟达三芯策略初步奏效 ISC 2022
在过去的几年里,人们谈论的焦点仅限于GPU,但随着英伟达拥抱CPU和DPU之后,这家系统公司现在能够讨论的议题更加多样。在刚刚结束的Computex以及两年后重返线下的ISC 2022(国际超级计算机大会)上,英伟达展示了其GPU、CPU、DPU最新合作成果,这不仅体现了“三芯”策略初步取得成效,也反映出英伟达在高性能计算领域前瞻性的布局。
当然,英伟达CEO黄仁勋也在与媒体交流时强调,“我们是一家提供从硬件到系统软件全栈方案的公司,客户可以根据需求选择我们的产品。加速计算世界与CPU截然不同,我们提供的是独特的产品和方案。”那么,英伟达如何利用“三芯”来加速那些速度最快的人工智能系统呢?
独特的CPU+GPU组合
首先是GPU,它作为英伟达发明并标志性产品,在今年GTC 22上,雷峰网介绍了新一代Hopper架构GPU H100发布,与两年前的Ampere架构A100 GPU相比实现了数量级性能提升。黄仁勋表示,只需20个H100 GPU,就能承载全球互联网流量,从而帮助客户推出先进推荐系统及实时运行大型语言模型数据推理。
然而,与GPU相比,更受外界关注的是Grace CPU。这款CPU让市场中众多优秀产品感到意外,也引起好奇之心。当被问及Grace CPU独特之处时,黄仁勋指出,“Grace旨在更好地解决与数据处理相关的问题,可以更高效处理大量数据,并且与我们的GPU紧密结合,更好地完成AI任务。”
由此看来,不同于市场上的其他CPU產品,如Arm Neoverse核心集成至单个超级芯片内,有144个高性能核心,同时带有可伸缩矢量扩展和1 TB/s内存子系统,以及支持最新PCIe Gen5协议,可实现最高性能连接。此举表明英国华为已经考虑将所有硬件产品之间进行良好的互联,以应对摩尔定律放缓导致异构计算成为未来趋势这一现实。
ISC 2022上显示出的这款超级芯片组合获得认可,其中美国阿拉莫斯国家实验室宣布其新一代系统Venado将采用NVIDIA Grace CPU技术,而瑞士国家计算中心正在部署基于该技术的大型通用服务器Alps。
DPU带来的巨大增益
除了这些,加速器DPU也是一个新的概念,在英伟达带动下成为备受关注的一项技术。通过卸载通信负载和算力从传统中央处理单元(CPU)转移到专用的网络处理单元(NPUs),即使是普通应用都能获得显著提高。不过,要知道具体多少提升还需要实际操作来验证。而就在最近,由于ISC 2022 英国华为给出了几个案例。
例如洛斯阿拉莫斯国家实验室(LANL)的杰出科学家Poole正与英国华为合作,将计算多物理应用中的性能提高30倍。这包括使用BlueField 及其NVIDIA DOCA软件框架进行存储管理、模式匹配等工作。LANL 已经感受到网络加速功能,加速闪存盒(ABoF)将固态存储与DPU和InfiniBand加速器相结合,为Linux文件系统关键部分提供高速访问,其速度达到同类设备30倍,将成为基础设施中的关键组件。
俄亥俄州立大学研究人员展示了如何通过卸载消息传递接口(MPI)的关键部分,用以提高P3DFFT数学库运行速度21%。对于运行药物研发或飞机设计等HPC仿真应用的大型电脑来说,即使是一个小小改进也可能意味着极大的收益——如今,一些欧洲研究团队正利用BlueField DPU 加速 MPI 和其他 HPC 工作负载;而北美大学则正在开发一种软件用于16节点集群上的负载均衡;剑桥大学等研究机构也开始探索如何使用这些新的核心功能进行量子电路模拟,对分子动力学、气候学、大数据分析以及更多方面具有潜力提升作用。
总结起来,不仅如此,大规模分布式数据库环境中使用 DPU 可以进一步优化每次读写操作,并减少延迟时间,从而显著降低整个数据库查询成本,还可以直接整合到AI模型训练中,无需额外编程就能享受到它们提供的大幅度加强能力。
因此,当谈到混合量子计算的时候,我们必须考虑如何有效地将传统体系结构融入到混合体系结构中去,使得经典机器能够快速响应并协调量子过程,因为目前这个领域仍然存在许多挑战,比如说要想真正做到这一点,你需要有足够聪明的人才才能把握住它。
最后,我们还发现尽管面临诸多挑战,但是由于不断突破和创新,我相信未来的确会有一天,我们会拥有一个既安全又有效率、高效又廉价,又简单易用且广泛适用的量子技术。但那时候我们还没有看到,那时候我们还有很多事情要做,而且我相信你都会加入其中去参与争取那个日子的努力吧!