黄仁勋带领中国芯片革命全球最大7nm芯片在烤箱里诞生英伟达A100发布AI算力爆增20倍
在全球疫情的阴影下,英伟达CEO黄仁勋带领团队发表了令人瞩目的新一代GPU架构安培(Ampere)及其基于此架构的GPU A100。这个7nm芯片面积高达826平方毫米,集成了540亿个晶体管,是目前全球最大的7nm芯片。相比Volta架构,它实现了高达20倍的性能提升,并且能够同时满足AI训练和推理的需求。
第八代安培GPU架构性能提升高达20倍
安培是英伟达继2018发布的Turing(图灵)架构之后的最新一代GPU架构,也是英伟达推出的第八代GPU架构。黄仁勋表示:“Ampere架構的突破性設計為英偉達第八代GPU提供了迄今為止最大的性能飞跃,集AI訓練和推理于一身,並且其性能相比於前代產品提升了高達20倍。这是有史以來首次,可以在一個平台上實現對橫向擴展以及縱向擴展負荷加速。”A100將在提高吞吐量同時,降低數據中心成本。
除了这些关键特性外,这款芯片还具备TF32支持、多实例GPU-MG技术、第三代NVLInk互联技术和结构化稀疏效率技术。此外,TensorCore核心现在支持FP64精度,与HPC应用相关计算力增加2.5倍。在与Volta比较时,以2017年发布为基准,其对BERT模型训练性能提升6倍,对BERT模型推理性能提升7倍。
DGX A100单节点性能达到创纪录5 Petaflops
为了更好地应对复杂多样化增长中的AI算法需求,以及云计算、汽车、零售等众多领域中不断增加的人工智能应用,英伟达推出了第三代AI系统DGX A100。这款系统不仅拥有320GB内存用于训练最大型数据集,还配备200Gbps MeLLanox HDR互连,以及可分割成56个实例进行加速处理的小型工作负载。
总结来说,DGX A100拥有六大技术特点:8个NVIDIA A100 TensorCore GPU, Al 性能达到5PetafLops, GPU 内存共320GB ,每秒12.4TB带宽;6个采用第三代NVIDIA NVLink技术的NVIDIA NVSwitch互联结构,每秒双向4.8TB带宽;9个MeLLanox ConnectX-6 HDR 200Gb/s网络接口,每秒双向3.6TB带宽;15TB Gen4 NVMe 内存,比Gen3 NVMe SSDs 快2倍;以及专为AI和数据科学优化软件,使企业获得更快投资回报。
尽管价格昂贵,但通过一个价值1百万美元由五台DGXA100组成机框,可以取替现有的1100万美元由50台DGX-1及600颗CPU组成25台机箱强大的数据中心,从而显著减少成本与功耗。此举意味着该系统可以实现相同功能但耗电量仅为现有系统的一分之一、二分之一空间、三分之一成本。