TPU v4芯片封装技术犹如航天飞机的升级版让计算能力飞跃到新高度单个Pod性能强大如同一只巨龙在全
Google I/O开发者大会在疫情的影响下改为线上形式举行,Google CEO桑达尔·皮查伊宣布推出多项新技术,包括全息视频聊天技术Project Starling和最新一代AI芯片TPU v4。这是Google部署的最快系统,对公司来说是一个历史性的里程碑。
TPU v4性能大幅提升
相比于上一代TPU v3,TPU v4在相同规模的64芯片下平均性能提升2.7倍。在实际应用中,每个Pod中有4096个单独的TPU v4芯片,可以将数百独立处理器转变为一个系统。由于其独特的互连技术,其带宽在规模上远超其他网络技术,每个Pod都能达到1 exaFlOP级算力,即全球最快超级计算机“富岳”的两倍性能。
MLPerf结果显示,Google TPU v4实力强劲,在使用ImageNet数据集进行图像分类训练测试(准确度至少75.90%)时,只需1.82分钟完成任务,这与768个Nvidia A100图形卡、192个AMD Epyc 7742内核、512个华为AI优化Ascend910芯片以及128个Intel Xeon Platinum 8168内核组合时间相当快。此外,在基于Transform阅读理解BERT模型的大型维基百科语料库训练时,使用256个TPU v4需要1.82分钟,比使用4096 TPU V3所需0.39分钟要慢约1分多钟。
展示具体AI实例
I/O大会还展示了能够用到TPU V4的具体AI实例,如MUM模型(Multitask Unified Model),专为对话打造LaMDA等场景模型。MUM模型比阅读理解模型BERT强1000倍,适用于赋能搜索引擎帮助用户高效获取信息;LaMDA则可以与人类进行不间断对话交流。
自研Chip五年更新四代
Google自2016年宣布首款内部定制AI芯片以来,就一直以每年更新一次新的版本来保持竞争力。第一代采用28nm工艺制程仅适用于深度学习推理,而第二代能够实现机器学习模型训练和推理。第三代又进一步提高了性能,并且发布了配置超过1000颗TPUs的大型Pod,以缩短复杂模型训练所需时间。
发展五年的Google TPU依然保持着强劲竞争力,将继续在未来的世界中发挥重要作用。