半导体领域里程碑之作Google TPU v4发布性能如同超算级别的两翼翱翔天际

Google I/O开发者大会今年在疫情的阴影下举行，线上形式的重返无疑是科技巨头的一个重要里程碑。在这场没有现场观众的盛会中，Google CEO桑达尔·皮查伊宣布推出了一系列革命性的技术，其中包括全息视频聊天技术Project Starling和最新一代AI芯片TPU v4。

TPU v4：性能超越历史性里程碑

“这是我们在Google上部署的最快系统，对我们来说是一个具有历史意义的里程碑。”皮查伊对这一成就表示了激动。

与前代相比，TPU v4在相同数量（64）的芯片规模下平均提升了2.7倍。实际应用中，它主要与Pod配合使用，每个Pod包含4096个单独的TPU v4芯片，并通过独特互连技术将数百个独立处理器转换为一个系统。这使得每个Pod能够达到1 exaFlOP级别算力，即全球最快超级计算机“富岳”的两倍性能。

MLPerf结果显示，Google TPU v4展现出了强大的实力。在图像分类训练测试（准确度至少75.90%）方面，256个TPU v4可以在1.82分钟内完成任务，这几乎等同于768块Nvidia A100图形卡、192块AMD Epyc 7742核心或512块华为AI优化Ascend910芯片以及128块Intel Xeon Platinum 8168核心组合在一起所需时间。

此外，当用于基于Transform阅读理解BERT模型的大型维基百科语料库训练时，TPU v4也表现出色。使用256个TPU v4进行训练需要1.82分钟，比使用4096 TPU v3所需0.39分钟慢1分多钟，同时要比2048张A100卡和512 AMD Epyc 7742 CPU内核组合使用Nvidia硬件所需0.81分钟慢较多。

MUM模型和LaMDA都能利用到这些新兴AI能力。MUM模型适合搜索引擎赋能用户快速获取信息，而LaMDA则可实现人类对话交流，不间断地与用户交谈。

自研AI芯片五年更新四代

Google自2016年宣布首款内部定制AI芯片以来，一直以一年的频率更新其产品线。一路走来，从28nm工艺制程到180TFLOPs浮点运算能力，再至420TFLOPs浮点运算及128GB高带宽内存，全都是为了缩短机器学习模型训练时间并提高效率。此次发布的是第四代产品，也标志着公司持续创新、保持领先地位的一贯态度。