手机处理器十大排名比Google TPU v4更强的性能巨擘

Google I/O开发者大会今年在疫情的阴影下举行，通过线上形式展现了公司最新的技术成果。Google CEO桑达尔·皮查伊宣布推出多项全新技术，其中包括能够实现“空间瞬移”的全息视频聊天技术Project Starling，以及最新一代AI芯片TPU v4。

TPU v4性能提升2倍，速度翻番

Google官方介绍，相较于上一代TPU v3，在相同的64芯片规模下，不考虑软件带来的改善，TPU v4性能平均提升2.7倍。在实际应用中，每一个Pod中有4096个单独的处理器，可以将数百个独立的处理器转变为一个系统，其互连带宽在规模上是其他任何网络技术的10倍，每一个Pod就能达到1 exaFlOP级别算力，即每秒10^18次浮点运算。这甚至是全球最快超级计算机“富岳”的两倍性能。

MLPerf结果表明，Google TPU v4实力不容小觑。在使用ImageNet数据集进行图像分类训练测试（准确度至少75.90%），256 个TPU v4仅需1.82分钟完成这一任务，这几乎与768个Nvidia A100图形卡、192个AMD Epyc 7742内核、512个华为AI优化的Ascend910芯片以及128个Intel Xeon Platinum 8168内核组合在一起所需时间一样快。

当负责在大型维基百科语料库上训练基于Transforms模型阅读理解BERT模型时，使用256个TPU v4进行训练需要1.82分钟，比使用4096 TPU V3进行训练所需0.39分钟要慢1分多钟。同时，要想用Nvidia硬件达到0.81分钟训练时间，则需要2048张A100卡和512 AMD Epyc 7742 CPU内核。

展示具体AI实例

除了MUM模型（Multitask Unified Model）和专为对话设计LaMDA，还有更多能够利用到TPU v4场景模型。这些模型比如读取理解模型BERT强1000倍，更适合赋能搜索引擎帮助用户高效获取信息；而LaMDA则可以与人类持续对话交流。

自研五年更新四代

自2016年首款内部定制AI芯片发布以来，Google不断迭代更新其产品。第一代采用28nm工艺制程功耗约40w，只适用于深度学习推理；第二代发布于2017年5月，可实现机器学习模式训练和推理能力增加180TFLOPs浮点运算，同时内存带宽也得以提升，比同期CPU AI工作负载提升30倍，比GPU AI工作负载提升15倍；第三代发布于2018年5月性能是上一代双份，大幅提高420TFLOPs浮点运算，以及128GB高带宽内存。而第四代即现在发布的是基于五年的积累，再一次突破了前辈们创造出的速度界限，为未来世界打开了一扇窗户。