美国禁华为芯片犹如Google TPU v4发布前后单个Pod性能大增展示了技术强国的决策力与优势

Google I/O开发者大会在疫情的影响下改为线上形式举行，Google CEO桑达尔·皮查伊宣布推出多项新技术，包括全息视频聊天技术Project Starling和最新一代AI芯片TPU v4。

TPU v4性能提升显著，是Google部署的最快系统，对公司来说是一个历史性的里程碑。相较于前一代TPU v3，在相同规模的64芯片情况下，TPU v4性能平均提升2.7倍。在实际应用中，每个Pod有4096个单独的TPU v4芯片，可以将数百独立处理器转变为一个系统，其互连带宽是其他任何网络技术的10倍，每个Pod都能达到1 exaFlOP级算力，甚至超过全球最快超级计算机“富岳”的两倍性能。

今年MLPerf结果显示，Google TPU v4在图像分类训练测试中的表现不俗，以256个TPU v4完成任务仅需1.82分钟，与768块Nvidia A100图形卡、192块AMD Epyc 7742内核或512块华为AI优化Ascend910芯片组合使用速度相当。此外，在基于Transform阅读理解模型BERT的大型维基百科语料库训练时，使用256个TPU v4需要1.82分钟，比使用4096 TPU V3短时间，但比Nvidia硬件所需0.81分钟要慢。

除了展示了能够利用该新芯片进行多种AI实例，如MUM模型（适合赋能搜索引擎）和LaMDA对话模型之外，这些未向公众出售的强大设备很快将被部署至数据中心，其中90%以上会采用绿色能源，并计划今年晚些时候开放给Google Cloud客户。

自2016年首款内部定制AI芯片发布以来，五年间Google更新了四代产品。第一代采用28nm工艺制程主要用于深度学习推理；第二代能够实现机器学习模型训练与推理；第三代性能翻番；第四代则是目前这次发布。每一步迭代都是为了提高效率和能力，无论是在内存带宽还是可编程能力方面，都不断打破GPU在某些领域的地位，并打开云端AI竞争格局。未来世界如何？今天，我们已经看到了部分答案。