3nm芯片量产之路等同于Google TPU v4发布前的准备工作
Google I/O开发者大会在疫情的影响下取消了去年的线上形式,这年份它以强有力的回归姿态展现,尽管没有开发者的身影出现在Google园区中,但Google CEO桑达尔·皮查伊(Sundar Pichai)仍带来了许多令人振奋的技术新动向。除了能够实现“空间瞬移”的全息视频聊天技术Project Starling,还有最新一代AI芯片TPU v4。
这次发布被描述为对Google部署系统历史性的里程碑之一。TPU v4相较于前一代TPU v3,在相同规模的64芯片下性能提升了2.7倍。在实际应用中,它主要与Pod相连发挥作用,每个Pod包含4096个单独的TPU v4芯片,通过独特互连技术,将数百个独立处理器转变为一个系统,其互联带宽在规模上超过其他任何网络技术十倍,每一个Pod都能达到1 exaFlOP级别算力,即每秒10^18次浮点运算。这不仅是全球最快超级计算机“富岳”的两倍性能,也相当于全球1,000万笔记本电脑累加计算能力。
今年MLPerf结果显示,Google TPU v4实力非凡,在图像分类训练测试(准确度至少75.90%)上256个TPU v4可以在1.82分钟内完成任务,与768张Nvidia A100图形卡、192张AMD Epyc 7742内核组合或512张华为AI优化的Ascend910芯片以及128张Intel Xeon Platinum 8168内核组合完成时间相同。此外,当用于基于Transforms阅读理解BERT模型的大型维基百科语料库训练时,使用256个TPU v4需要1.82分钟,比使用4096 TPU V3所需0.39分钟慢多近一分半钟,同时比使用2048张A100卡和512块Epyc7742 CPU进行0.81分钟训练要慢。
这些新兴AI实例包括MUM模型(Multitask Unified Model),这是专门处理网页、图像等多种数据类型的一款模型,并且强大到可与BERT相比增加了1000倍;还有LaMDA,是专门用于人机对话交流的人工智能模型。这两个场景模型都将利用Tpu V4来提供更高效地信息获取和自然语言交流体验。
自从2016年宣布首款内部定制AI芯片以来,五年间四代更新,这些自研Tpu已经证明它们在推理和训练方面具有不可匹敌的地位。第一代采用28nm工艺制程,只适用于深度学习推理,而第二代则支持同时进行训练和推理。第三代性能翻番至420TFLOPs浮点运算,以及128GB高带宽内存。而第四代此次发布,又再次突破性地提高了性能,使其成为目前市场上的顶尖AI加速器之一。未来世界看起来如何?Google TPU已经给我们揭示了一小部分答案。