中国三大存储芯片公司正如Google TPU v4重磅发布般奋力前行单个Pod性能强劲如同世界第一超

Google I/O开发者大会在疫情的影响下取消了去年的线上形式，这年份它以强有力的回归姿态展开。在没有开发者亲临场地的Google园区中，CEO桑达尔·皮查伊宣布了一系列令人瞩目的新技术，其中包括能够实现“空间瞬移”的全息视频聊天技术Project Starling，以及最新一代AI芯片TPU v4。

这项科技被描述为“我们部署到Google系统中的最快系统之一，对我们来说是一个具有历史意义的里程碑。”皮查伊对此进行了介绍。

TPU性能大幅提升

官方资料显示，在相同规模64芯片条件下，不考虑软件优化因素，TPU v4相比其前身TPU v3性能提升平均2.7倍。实际应用中，TPU v4主要与Pod相结合发挥作用，每个Pod包含4096个单独的TPU v4芯片。由于其独特互连技术，可以将数百独立处理器转变为一个整体网络，其互连带宽在规模上是其他任何网络技术的10倍，每个Pod都能达到1 exaFlOP级算力，即每秒10^18次浮点运算。这甚至超过全球最快超级计算机“富岳”两倍的性能。

如果现在有100万人同时使用笔记本电脑，所有这些计算机累加起来所需时间，就足够完成1 exaFLOP计算。而之前，要达到这样的水平可能需要定制一个专用的超级计算机。

今年MLPerf测试结果显示，Google TPU v4实力不容小觑。在ImageNet数据集图像分类训练测试（准确度至少75.90%）方面，256个TPU v4仅需1.82分钟完成任务，与768张Nvidia A100图形卡、192颗AMD Epyc 7742内核（1.06分钟）、512块华为AI优化Ascend910芯片以及128颗Intel Xeon Platinum 8168内核（1.56分钟）组合起来所需时间相当快。此外，当用于基于Transforms阅读理解BERT模型的大型维基百科语料库训练时，它也表现出色。使用256个TPU V4进行训练需要1.82分钟，比使用4096 TPU V3进行训练所需0.39分钟要慢一分多钟。不过，这仍然远远低于Nvidia硬件需要2048张A100卡和512块AMD Epyc 7742 CPU内核才能达到的0.81分钟。

除了展示具体AI应用，如MUM模型和LaMDA，还说明了如何利用这种能力来增强搜索引擎帮助用户更高效获取信息，或与人类持续无缝对话交流。这款未向市场销售但即将部署至Google数据中心且90%能源来自绿色资源的设备，将在未来开放给Cloud客户。