CPU排行榜2023天梯图揭秘Google TPU v4如同超算中的神话生物单机性能跃居顶峰

Google I/O开发者大会在疫情的阴影下重燃希望，线上形式的回归标志着科技巨头对未来发展的坚定信心。CEO桑达尔·皮查伊在没有开发者见证的情况下宣布推出多项创新技术，其中包括全息视频聊天技术Project Starling和最新一代AI芯片TPU v4。

TPU v4：性能翻番，超算级别算力

“这是我们在Google上部署的最快系统，对我们来说是一个具有历史意义的里程碑。”皮查伊对此进行了介绍。TPU v4相较于前代TPU v3，在相同规模（64芯片）下的性能提升平均为2.7倍。在实际应用中，每个Pod包含4096个单独的TPU v4芯片，这些芯片通过独特互连技术结合成一个系统，其带宽远超过其他任何网络技术，达到1 exaFlOP级别算力，即每秒10^18次浮点运算。这一水平甚至超过全球最快超级计算机“富岳”的两倍。

如果有100万台笔记本电脑同时使用，它们累加起来也只能达到1 exaFLOP。而之前要达到这一水平需要专门定制一个超级计算机。今年MLPerf结果显示，Google TPU v4实力的确令人瞩目，在图像分类训练测试（至少75.90%准确度）中256个TPU v4仅需1.82分钟完成任务，与768张Nvidia A100、192颗AMD Epyc 7742内核或128颗Intel Xeon Platinum 8168内核组合速度相当。此外，用于BERT模型训练时使用256个TPU v4比使用4096 TPU V3慢了一分多钟，但仍然高于2048张A100卡和512颗Epyc 7742 CPU内核所需0.81分钟。

具体应用与展望

I/O大会上展示了能够利用TPU V4的人工智能实例，如MUM模型（Multitask Unified Model），适合赋能搜索引擎提高用户体验；LaMDA则是专为对话设计的人工智能，可以与人类无间断交流。这些模型都可以从Google Cloud客户手中获得，并将主要运行绿色能源。此外，将会开放给更多客户，以支持不断增长的人工智能需求。

自研AI芯片五年更新四代

自2016年首款内部定制AI芯片发布以来，Google一直保持着领先地位。第一代采用28nm工艺制程，只适用于深度学习推理，而第二代则实现了180TFLOPs浮点运算能力，以及内存带宽提升，使其成为当时市场上的佼佼者。第三代进一步提升至420TFLOPs，并提供128GB高带宽内存。而第四代，即现在发布的是基于5年持续迭代更新后的产品，其竞争力依旧强劲且不断进化。

未来的世界何去何从？虽然无法预知，但以目前看来，人工智能领域将继续迎接快速发展，而Google TPU正站在这场变革之巅，为整个行业树立新的标准和可能性的窗口。本文参考链接：