TPU v4强势登场Google的这款芯片如同攀登智能手机CPU性能天梯的高山侠单个性能达到了世界第

Google I/O开发者大会今年在疫情的阴影下举行，通过线上形式展现了公司最新的技术成果。Google CEO桑达尔·皮查伊宣布推出多项全新技术，其中包括能够实现“空间瞬移”的全息视频聊天技术Project Starling，以及最新一代AI芯片TPU v4。

TPU v4强劲发力，速度提升2倍，性能提升10倍

Google官方介绍，在相同的64芯片规模下，不考虑软件带来的改善，TPU v4相较于上一代TPU v3性能平均提升2.7倍。在实际应用中，每一个单独的处理器都有4096个TPU v4单芯片，它们通过独特的互连技术，将数百个独立的处理器转变为一个系统。这意味着每一个Pod都能达到1 exaFlOP级别算力，即每秒10^18次浮点运算，这比全球最快超级计算机“富岳”还要强大两倍。

如果现在有1千万人同时使用笔记本电脑，其累加计算能力刚好就能够达到1 exaFLOP。之前要达到这样的水平可能需要定制专门的一个超级计算机。而现在，由于Google TPU v4 Pod可以轻松实现这一目标，它几乎缩短了我们对超级计算机概念的一切理解和期待。

今年MLPerf结果显示了Google TPU v4实力的非凡表现。在图像分类训练测试（准确度至少75.90%）方面，256 个TPU v4仅需1.82分钟完成任务，与768个Nvidia A100图形卡、192个AMD Epyc 7742内核、512个华为AI优化的Ascend910芯片以及128个Intel Xeon Platinum 8168内核组合起来所需时间相仿。

当负责在大型维基百科语料库上训练基于Transforms读取理解BERT模型时，使用256个TPU v4进行训练需要1.82分钟，比使用4096 TPU V3所需0.39分钟慢了一分多钟。若想使用Nvidia硬件以0.81分钟完成同样的任务，则需要2048张A100卡和512台Epyc 7742 CPU内核。

除了用于MUM模型（Multitask Unified Model）和LaMDA等场景外，这款未向公众销售但将部署到数据中心并覆盖90%绿色能源利用率的人工智能加速器也将开放给部分云端客户。此前自2016年首次发布以来，每五年一次更新至今，现在已经迎来了第五代产品——Tpu V5.