深圳芯片强队出炉领跑者性能如同Google TPU v4般碾压对手

Google I/O开发者大会今年在疫情的阴影下举行，通过线上形式展现了公司最新的技术成果。Google CEO桑达尔·皮查伊宣布推出多项全新技术，其中包括能够实现“空间瞬移”的全息视频聊天技术Project Starling，以及最新一代AI芯片TPU v4。

TPU v4性能提升2倍，速度翻番

Google官方介绍，TPU v4相较于上一代TPU v3性能平均提升2.7倍。在实际应用中，每一个Pod都有4096个单独的TPU v4芯片，这些芯片采用了独特的互连技术，使得它们可以集成到一个系统中，从而形成巨大的计算能力。每个Pod都能达到1 exaFlOP级别的算力，即全球最快超级计算机“富岳”性能的两倍。

此外，MLPerf结果表明，Google TPU v4在图像分类训练测试方面表现出色。在使用ImageNet数据集时，只需要256个TPU v4即可完成任务，而这几乎与768块Nvidia A100图形卡、192块AMD Epyc 7742内核或512块华为AI优化的Ascend910芯片组合起来完成相同工作量一样快。

负责在大型维基百科语料库上训练基于Transformer架构阅读理解BERT模型时，使用256个TPU v4进行训练需要1.82分钟，比使用4096 TPU V3短时间近半小时。此外，如果想要使用Nvidia硬件达到0.81分钟所需时间，则需要2048张A100卡和512个AMD Epyc 7742 CPU内核。

除了这些具体AI实例，如MUM模型（Multitask Unified Model）和专为对话打造的LaMDA，都能够用到这一强劲AI处理器。前者比阅读理解模型BERT强1000倍，更适合赋能搜索引擎帮助用户高效获取信息；后者则可以与人类进行不间断交流，对话自然流畅。

自研AI芯片五年更新四代

自2016年首款内部定制AI芯片发布以来，Google已经迭代至第四代。第一代仅用于深度学习推理，其后随着第二、三代更新，它们不仅支持机器学习模型训练，还显著提高了性能。在过去五年的发展中，无论是从片上内存还是可编程能力来看，Google TPU都是不可多得的创新，它们打破了GPU的地位，并开启了一场云端竞争格局的大变革。

未来的世界是什么样的？尽管我们还无法完全预测，但以今天为标杆，我们知道未来将依赖更先进、更强大的科技手段。而作为这个领域领头羊之一，让人期待的是接下来会发生什么新的突破。