中国芯片新篇章黄仁勋烤箱奇迹7nm巨轮航向全球英伟达A100启航AI新纪元算力霸主再起
在全球疫情的阴影下,英伟达CEO黄仁勋居家工作四十五天后,以视频形式发布了2020 GTC主题演讲和新品发布。他的三个视频记录了他如何在家里的厨房提前录制这些内容。这是对AI技术影响力的一次巨大展示,同时也凸显了英伟达作为全球领先AI硬件供应商的地位。
最引人注目的是安培架构GPU A100,这是一款目前全球最大的7nm芯片,面积高达826平方毫米,集成了540亿个晶体管。相比Volta架构,它实现了高达20倍的性能提升,并且能够同时满足AI训练和推理的需求。由8个安培A100 GPU打造的NVIDIA DGX A100 AI系统单节点性能达到创纪录的5 petaflops。
第八代安培GPU架构带来了性能飞跃
黄仁勋宣布:“Ampere架构为英伟达第八代GPU提供了迄今为止最大的性能飞跃,既能处理AI训练,也能进行推理。此外,其性能相比于前代产品提升了高达20倍。”这标志着一个平台上横向扩展和纵向扩展负载加速的大突破。
新的特性包括TF32第三代Tensor Core核心,更灵活、快速且易于使用;多实例GPU-MG技术,可以将单个A100 GPU分割为多达七个独立实例,为不同规模任务提供不同的计算力;第三代 NVIDIA NVLInk使得服务器之间高速连接增加两倍;结构化稀疏效率技术利用AI数学固有的稀疏性,使得性能得到一倍提升。
TF32支持FP64精度,对HPC应用提供更强计算能力,与之前提高2.5倍。
此外,由于基于Volta架构DGX-1和DGX-2系统与基于安培架构DGXA100系统之间存在对比,该20%提升更有意义。
通过其弹性计算、多实例GPU功能以及能够执行训练和推理任务,A100成为各种复杂工作负载,如BERT模型训练和推理等领域中不可或缺的选择。它对BERT模型进行培训时表现出6倍增长,对BERT模型进行推理时则表现出7倍增长。
为了应对不断增长的数据量及算法复杂度,英伟达发表第三代AI系统DGX A100,每秒可完成创纪录5 Petaflops AI运算。这意味着企业可以在一个完全集成软件定义平台上优化资源,加快数据分析、训练及推理速度。而DGXA100拥有六大关键特点:8 x NVIDIA A100 TensorCore GPU, 320GB内存, 每秒12.4TB带宽; 六组NVLink互联结构; 九组MeLLanox ConnectX-6 HDR 200Gb/s网络接口;15TB Gen4 NVMe内存; NVIDIA DGX软件堆栈以最大化效能; 起售价19.9万美元,可替换价值1100万美元现有数据中心,而功耗降低至28kW,从630kW减少到1/20。