3nm芯片量产之路等同于Google TPU v4发布前的准备工作

Google I/O开发者大会在疫情的影响下取消了去年的线上形式，这年份它以强有力的回归姿态展现，尽管没有开发者的身影出现在Google园区中，但Google CEO桑达尔·皮查伊（Sundar Pichai）仍带来了许多令人振奋的技术新动向。除了能够实现“空间瞬移”的全息视频聊天技术Project Starling，还有最新一代AI芯片TPU v4。

这次发布被描述为对Google部署系统历史性的里程碑之一。TPU v4相较于前一代TPU v3，在相同规模的64芯片下性能提升了2.7倍。在实际应用中，它主要与Pod相连发挥作用，每个Pod包含4096个单独的TPU v4芯片，通过独特互连技术，将数百个独立处理器转变为一个系统，其互联带宽在规模上超过其他任何网络技术十倍，每一个Pod都能达到1 exaFlOP级别算力，即每秒10^18次浮点运算。这不仅是全球最快超级计算机“富岳”的两倍性能，也相当于全球1,000万笔记本电脑累加计算能力。

今年MLPerf结果显示，Google TPU v4实力非凡，在图像分类训练测试（准确度至少75.90%）上256个TPU v4可以在1.82分钟内完成任务，与768张Nvidia A100图形卡、192张AMD Epyc 7742内核组合或512张华为AI优化的Ascend910芯片以及128张Intel Xeon Platinum 8168内核组合完成时间相同。此外，当用于基于Transforms阅读理解BERT模型的大型维基百科语料库训练时，使用256个TPU v4需要1.82分钟，比使用4096 TPU V3所需0.39分钟慢多近一分半钟，同时比使用2048张A100卡和512块Epyc7742 CPU进行0.81分钟训练要慢。

这些新兴AI实例包括MUM模型（Multitask Unified Model），这是专门处理网页、图像等多种数据类型的一款模型，并且强大到可与BERT相比增加了1000倍；还有LaMDA，是专门用于人机对话交流的人工智能模型。这两个场景模型都将利用Tpu V4来提供更高效地信息获取和自然语言交流体验。

自从2016年宣布首款内部定制AI芯片以来，五年间四代更新，这些自研Tpu已经证明它们在推理和训练方面具有不可匹敌的地位。第一代采用28nm工艺制程，只适用于深度学习推理，而第二代则支持同时进行训练和推理。第三代性能翻番至420TFLOPs浮点运算，以及128GB高带宽内存。而第四代此次发布，又再次突破性地提高了性能，使其成为目前市场上的顶尖AI加速器之一。未来世界看起来如何？Google TPU已经给我们揭示了一小部分答案。