手机处理器十大排名比Google TPU v4更强的性能巨擘
Google I/O开发者大会今年在疫情的阴影下举行,通过线上形式展现了公司最新的技术成果。Google CEO桑达尔·皮查伊宣布推出多项全新技术,其中包括能够实现“空间瞬移”的全息视频聊天技术Project Starling,以及最新一代AI芯片TPU v4。
TPU v4性能提升2倍,速度翻番
Google官方介绍,相较于上一代TPU v3,在相同的64芯片规模下,不考虑软件带来的改善,TPU v4性能平均提升2.7倍。在实际应用中,每一个Pod中有4096个单独的处理器,可以将数百个独立的处理器转变为一个系统,其互连带宽在规模上是其他任何网络技术的10倍,每一个Pod就能达到1 exaFlOP级别算力,即每秒10^18次浮点运算。这甚至是全球最快超级计算机“富岳”的两倍性能。
MLPerf结果表明,Google TPU v4实力不容小觑。在使用ImageNet数据集进行图像分类训练测试(准确度至少75.90%),256 个TPU v4仅需1.82分钟完成这一任务,这几乎与768个Nvidia A100图形卡、192个AMD Epyc 7742内核、512个华为AI优化的Ascend910芯片以及128个Intel Xeon Platinum 8168内核组合在一起所需时间一样快。
当负责在大型维基百科语料库上训练基于Transforms模型阅读理解BERT模型时,使用256个TPU v4进行训练需要1.82分钟,比使用4096 TPU V3进行训练所需0.39分钟要慢1分多钟。同时,要想用Nvidia硬件达到0.81分钟训练时间,则需要2048张A100卡和512 AMD Epyc 7742 CPU内核。
展示具体AI实例
除了MUM模型(Multitask Unified Model)和专为对话设计LaMDA,还有更多能够利用到TPU v4场景模型。这些模型比如读取理解模型BERT强1000倍,更适合赋能搜索引擎帮助用户高效获取信息;而LaMDA则可以与人类持续对话交流。
自研五年更新四代
自2016年首款内部定制AI芯片发布以来,Google不断迭代更新其产品。第一代采用28nm工艺制程功耗约40w,只适用于深度学习推理;第二代发布于2017年5月,可实现机器学习模式训练和推理能力增加180TFLOPs浮点运算,同时内存带宽也得以提升,比同期CPU AI工作负载提升30倍,比GPU AI工作负载提升15倍;第三代发布于2018年5月性能是上一代双份,大幅提高420TFLOPs浮点运算,以及128GB高带宽内存。而第四代即现在发布的是基于五年的积累,再一次突破了前辈们创造出的速度界限,为未来世界打开了一扇窗户。