中国芯片新篇章黄仁勋烤箱奇迹7nm巨轮航向全球英伟达A100启航AI新纪元算力霸主再起

在全球疫情的阴影下，英伟达CEO黄仁勋居家工作四十五天后，以视频形式发布了2020 GTC主题演讲和新品发布。他的三个视频记录了他如何在家里的厨房提前录制这些内容。这是对AI技术影响力的一次巨大展示，同时也凸显了英伟达作为全球领先AI硬件供应商的地位。

最引人注目的是安培架构GPU A100，这是一款目前全球最大的7nm芯片，面积高达826平方毫米，集成了540亿个晶体管。相比Volta架构，它实现了高达20倍的性能提升，并且能够同时满足AI训练和推理的需求。由8个安培A100 GPU打造的NVIDIA DGX A100 AI系统单节点性能达到创纪录的5 petaflops。

第八代安培GPU架构带来了性能飞跃

黄仁勋宣布：“Ampere架构为英伟达第八代GPU提供了迄今为止最大的性能飞跃，既能处理AI训练，也能进行推理。此外，其性能相比于前代产品提升了高达20倍。”这标志着一个平台上横向扩展和纵向扩展负载加速的大突破。

新的特性包括TF32第三代Tensor Core核心，更灵活、快速且易于使用；多实例GPU-MG技术，可以将单个A100 GPU分割为多达七个独立实例，为不同规模任务提供不同的计算力；第三代 NVIDIA NVLInk使得服务器之间高速连接增加两倍；结构化稀疏效率技术利用AI数学固有的稀疏性，使得性能得到一倍提升。

TF32支持FP64精度，对HPC应用提供更强计算能力，与之前提高2.5倍。

此外，由于基于Volta架构DGX-1和DGX-2系统与基于安培架构DGXA100系统之间存在对比，该20%提升更有意义。

通过其弹性计算、多实例GPU功能以及能够执行训练和推理任务，A100成为各种复杂工作负载，如BERT模型训练和推理等领域中不可或缺的选择。它对BERT模型进行培训时表现出6倍增长，对BERT模型进行推理时则表现出7倍增长。

为了应对不断增长的数据量及算法复杂度，英伟达发表第三代AI系统DGX A100，每秒可完成创纪录5 Petaflops AI运算。这意味着企业可以在一个完全集成软件定义平台上优化资源，加快数据分析、训练及推理速度。而DGXA100拥有六大关键特点：8 x NVIDIA A100 TensorCore GPU, 320GB内存, 每秒12.4TB带宽; 六组NVLink互联结构; 九组MeLLanox ConnectX-6 HDR 200Gb/s网络接口;15TB Gen4 NVMe内存; NVIDIA DGX软件堆栈以最大化效能; 起售价19.9万美元，可替换价值1100万美元现有数据中心，而功耗降低至28kW，从630kW减少到1/20。