TPU v4芯片科技界的马拉松跑者超算世界的新风景线

Google I/O开发者大会在疫情的阴影下重燃希望，线上形式的回归标志着科技界的一次重要里程碑。在这场没有现场观众的盛会中，Google CEO桑达尔·皮查伊宣布了一系列令人瞩目的新技术，其中包括全息视频聊天技术Project Starling和最新一代AI芯片TPU v4。

TPU v4：超算世界中的新风景线

TPU v4是Google部署的最快系统，对公司来说是一个历史性的里程碑。与其前代相比，这款芯片性能提升了2.7倍，每个Pod包含4096块单独的TPU v4芯片，可以实现1 exaFlOP级别的算力，甚至超过全球最快超级计算机“富岳”的两倍性能。

实际应用中，每一个Pod相当于拥有数百个独立处理器，可通过独特互连技术实现高带宽连接。这种架构使得单个Pod可以达到1 exaFLOP级别，即便是全球每个人同时使用笔记本电脑累加计算能力也只能达到此水平，而之前要达到这样的性能需要专门定制一个超级计算机。

MLPerf结果显示，Google TPU v4在图像分类训练测试方面表现出色，在使用ImageNet数据集时，与768块Nvidia A100图形卡、192块AMD Epyc 7742内核或128块Intel Xeon Platinum 8168内核组合起来取得相同成绩。这证明了TPU v4在速度和效率上的优势，它能够更快速地完成复杂任务，比如BERT模型训练。

除了用于读取理解模型BERT外，TPU v4还能用于MUM模型（Multitask Unified Model）以及LaMDA对话模型等多种AI实例。这些实例展示了如何利用这一强大工具来提高搜索引擎功能和实现人类与人工智能之间无缝交流。

自研五年更新四代

自2016年宣布首款内部定制AI芯片以来，Google一直致力于推动这一领域。第一代TPU采用28nm工艺制程，大约40w功耗，只适用于深度学习推理。而第二代则结合训练和推理功能，并且内存带宽得到提升，使其成为当时市场上最先进的人工智能硬件之一。

随后第三代发布，其性能再次翻番至420TFLOPs浮点运算，以及128GB高带宽内存。此后一年一度更新节奏下，一直到目前为止，Google TPU已经展现出其不可忽视的地位，不仅打破了GPU在某些应用中的“垄断”，而且开启了云端AI硬件竞争新的格局。未来的世界是什么样？答案部分由Google TPU给出了。