1nm工艺新一代芯片的奇迹TPU v4则是超算性能的飞跃问鼎速度王座

Google I/O开发者大会在疫情的影响下取消了去年的线上形式，这年份它以强势回归的姿态展开。在没有开发者亲临场地的Google园区中，CEO桑达尔·皮查伊宣布了一系列令人瞩目的新技术，其中包括能够实现“空间瞬移”的全息视频聊天技术Project Starling，以及最新一代AI芯片TPU v4。

这项科技被描述为“我们部署到Google系统中的最快系统之一，对我们来说是一个具有历史意义的里程碑。”皮查伊对此进行了介绍。TPU v4作为最强大的AI加速器，其速度提升2倍，性能提升10倍。

官方数据显示，在相同规模的64芯片情况下，不考虑软件优化，TPU v4相比于前一代TPU v3性能平均提升2.7倍。在实际应用中，每个Pod包含4096个单独的TPU v4芯片，并且由于其独特互连技术，它们可以组合成一个高效的大型计算系统。每个Pod都能达到1 exaFlOP级别算力，比全球最快超级计算机“富岳”还要强大两倍。

如果有100万人同时使用笔记本电脑，那么所有这些设备累积起来所产生的计算能力，就足以达到1 exaFLOP。这是之前需要专门定制超级计算机才能实现的事业。今年MLPerf测试结果表明，Google TPU v4在图像分类任务上的表现非常出色，在ImageNet数据集上训练完成仅需1.82分钟，与768块Nvidia A100卡、192块AMD Epyc 7742内核或512块华为Ascend910芯片和128块Intel Xeon Platinum 8168内核组合时所需时间相当快。

此外，负责在维基百科语料库上训练BERT模型时，256个TPU V4也表现出色，只需1.82分钟，而使用4096 TPU V3则需要0.39分钟。这表明尽管使用更多硬件可以缩短训练时间，但当量价较低时，如2048张A100卡和512个Epyc 7742 CPU内核，则可用更少资源完成相同工作。

I/O大会展示了多种AI应用，其中包括MUM（Multitask Unified Model）和LaMDA（Large Language Model Dialogue Application），它们都是依赖于TPU V4来运行。MUM可以处理网页、图像等多种数据类型，而LaMDA则用于与人类进行持续对话交流。此外，这些未公开销售给客户的TDP将主要运营在绿色能源支持下的数据中心，并计划于未来开放给部分云端客户访问。

自2016年首次推出的第一代内部定制AI芯片以来，Google已经更新至第四代。在过去五年的发展历程中，无论是从内存带宽还是可编程性方面而言，都有着显著创新，为传统GPU提供竞争力，同时打破现有的云端AI市场格局。本文内容参考来源：venturebeat.com, datacenterknowledge.com