TPU v4芯片的强劲一击它像跑道上的马匹超算级别的性能跃升
Google I/O开发者大会在疫情的影响下改为线上形式举行,Google CEO桑达尔·皮查伊宣布推出多项新技术,包括全息视频聊天技术Project Starling和最新一代AI芯片TPU v4。
TPU v4性能提升2倍,是“历史意义的里程碑”
官方介绍,相比上一代TPU v3,在相同64芯片规模下,不考虑软件带来的改善,性能平均提升2.7倍。每个Pod中有4096个单芯片TPU v4,可以实现1 exaFlOP级算力,每秒10的18次方浮点运算,这是全球最快超级计算机“富岳”的两倍性能。
今年MLPerf结果显示,256个TPU v4在1.82分钟内完成图像分类训练测试,与768个Nvidia A100图形卡、192个AMD Epyc 7742内核组合速度相当。在BERT模型训练时,比使用4096 TPU v3快1分多钟,而要达到0.81分钟需要2048张A100卡和512个AMD Epyc 7742 CPU内核。
Google展示了能够用到TPU v4的具体AI实例,如MUM模型和LaMDA,对话系统。这些未向外出售的芯片将首先部署在Google数据中心,其中90%将使用绿能源。此外,Google表示,将于今年晚些时候开放给Cloud客户。
自研TPU五年更新四代
第一代TPU于2016年发布,以28nm工艺制程功耗约40w,只适用于深度学习推理。第二代可进行训练与推理,并且具有180TFLOPs浮点运算能力。第三代则提高至420TFLOPs,以及128GB高带宽内存。而第四代,即现在发布的v4,则进一步提升了性能。
发展五年的Google TPU依然保持强劲竞争力,为未来世界提供了一部分答案。