比喻科技奇迹Google TPU v4诞生性能如同雄鹰般俯冲天际单一节点功率超越世界顶尖机器的双倍飞
技术奇迹再现:Google TPU v4强势登场,性能如同猎鹰般俯冲天际!单一节点算力超越全球顶尖机器的两倍飞跃
在无人的Google园区内,Google CEO桑达尔·皮查伊宣布推出多项全新技术,其中包括能够实现“空间瞬移”的全息视频聊天技术Project Starling,以及最新一代AI芯片TPU v4。皮查伊表示:“这是我们在Google上部署的最快的系统,对我们来说是一个具有历史意义的里程碑。”
TPU v4性能提升2.7倍
Google官方介绍,在相同的64芯片规模下,不考虑软件带来的改善,TPU v4相较于上一代TPU v3性能平均提升2.7倍。在实际应用中,TPU v4主要与Pod相连发挥作用,每一个Pod中有4096个TPU v4单芯片,由于其独特的互连技术,可以将数百个独立处理器转变为一个系统,其互连带宽在规模上是其他任何网络技术的10倍,每一个Pod就能达到1 exaFlOP级别算力,这甚至是全球最快超级计算机“富岳”的两倍性能。
MLPerf结果显示优势
今年MLPerf结果表明,Google TPU v4实力的不容小觑,在使用ImageNet数据集进行图像分类训练测试(准确度至少75.90%),256 个TPU v4在1.82分钟内完成了这一任务,这几乎与768个Nvidia A100图形卡、192个AMD Epyc 7742内核、512个华为AI优化Ascend910芯片以及128个Intel Xeon Platinum 8168内核组合起来所需时间一样快。
负责大型维基百科语料库上的BERT模型训练时,使用256个TPU V4需要1.82分钟,比使用4096 TPU V3需要0.39分钟要慢,而如果想要用Nvidia硬件达到0.81分钟则需要2048张A100卡和512个AMD Epyc 7742 CPU内核。
展示具体AI实例
I/O大会上还展示了能够用到TPU V4 的具体AI实例,如MUM模型(Multitask Unified Model)和专为对话设计LaMDA等。前者比阅读理解模型BERT强1000倍,可用于赋能搜索引擎帮助用户高效获取信息;后者则可以与人类进行不间断对话交流。
自研五年更新四代
自2016年首款内部定制AI芯片发布以来,五年更新至今已推出了四代产品。第一代采用28nm工艺制程仅适用于深度学习推理。而第二代发布于2017年5月,可实现机器学习模型训练和推理,并且第三代发布于2018年5月,又进一步提高了性能。此外,即便是在未按计划更新到第四代的情况下,在I/O大会上也展现了第二、三代结合的大型配置方案,以缩短复杂模型训练所需时间。
发展五年的Google TPU仍保持竞争力,为未来世界提供了一部分答案。