半导体领域里程碑之作Google TPU v4发布性能如同超算级别的两翼翱翔天际
Google I/O开发者大会今年在疫情的阴影下举行,线上形式的重返无疑是科技巨头的一个重要里程碑。在这场没有现场观众的盛会中,Google CEO桑达尔·皮查伊宣布推出了一系列革命性的技术,其中包括全息视频聊天技术Project Starling和最新一代AI芯片TPU v4。
TPU v4:性能超越历史性里程碑
“这是我们在Google上部署的最快系统,对我们来说是一个具有历史意义的里程碑。”皮查伊对这一成就表示了激动。
与前代相比,TPU v4在相同数量(64)的芯片规模下平均提升了2.7倍。实际应用中,它主要与Pod配合使用,每个Pod包含4096个单独的TPU v4芯片,并通过独特互连技术将数百个独立处理器转换为一个系统。这使得每个Pod能够达到1 exaFlOP级别算力,即全球最快超级计算机“富岳”的两倍性能。
MLPerf结果显示,Google TPU v4展现出了强大的实力。在图像分类训练测试(准确度至少75.90%)方面,256个TPU v4可以在1.82分钟内完成任务,这几乎等同于768块Nvidia A100图形卡、192块AMD Epyc 7742核心或512块华为AI优化Ascend910芯片以及128块Intel Xeon Platinum 8168核心组合在一起所需时间。
此外,当用于基于Transform阅读理解BERT模型的大型维基百科语料库训练时,TPU v4也表现出色。使用256个TPU v4进行训练需要1.82分钟,比使用4096 TPU v3所需0.39分钟慢1分多钟,同时要比2048张A100卡和512 AMD Epyc 7742 CPU内核组合使用Nvidia硬件所需0.81分钟慢较多。
MUM模型和LaMDA都能利用到这些新兴AI能力。MUM模型适合搜索引擎赋能用户快速获取信息,而LaMDA则可实现人类对话交流,不间断地与用户交谈。
自研AI芯片五年更新四代
Google自2016年宣布首款内部定制AI芯片以来,一直以一年的频率更新其产品线。一路走来,从28nm工艺制程到180TFLOPs浮点运算能力,再至420TFLOPs浮点运算及128GB高带宽内存,全都是为了缩短机器学习模型训练时间并提高效率。此次发布的是第四代产品,也标志着公司持续创新、保持领先地位的一贯态度。