中国半导体新星闪耀TPU v4发布性能如同奔跑的麒麟与世界超算相提并论

Google I/O开发者大会今年在疫情的阴影下举行，通过线上形式展现了公司最新的技术成果。Google CEO桑达尔·皮查伊宣布推出多项全新技术，其中包括能够实现“空间瞬移”的全息视频聊天技术Project Starling，以及最新一代AI芯片TPU v4。

TPU v4性能提升2倍，速度翻番

Google官方介绍，TPU v4相较于上一代TPU v3性能平均提升2.7倍。在实际应用中，每一个Pod都有4096个单独的TPU v4芯片，这些芯片采用了独特的互连技术，使得它们可以集成到一个系统中，从而形成巨大的计算能力。每个Pod都能达到1 exaFlOP级别的算力，即全球最快超级计算机“富岳”性能的两倍。

此外，MLPerf结果表明，Google TPU v4在图像分类训练测试方面表现出色。在使用ImageNet数据集时，只需要256个TPU v4即可完成任务，而这几乎与768块Nvidia A100图形卡、192块AMD Epyc 7742内核或512块华为AI优化的Ascend910芯片组合起来完成相同工作量一样快。

负责在大型维基百科语料库上训练基于Transformer模型读取理解BERT模型时，由于使用256个TPUv4进行训练需要1.82分钟，比使用4096 TPUv3所需时间长1分多钟。这与2048张A100卡和512个AMD Epyc 7742 CPU内核共同完成0.81分钟训练任务相比，更显其强劲性能。

除了这些应用示例之外，MUM（Multitask Unified Model）和LaMDA（Large Language Model Dialog Application）等场景模型也将利用这一强大的新一代AI芯片。MUM比BERT强1000倍，是为了赋能搜索引擎帮助用户更高效地获取信息；LaMDA则能够与人类进行不间断对话交流。

虽然这款非公开销售的硬件将首先部署在Google数据中心，并且90%左右会使用绿色能源，但预计今年晚些时候将开放给Google Cloud客户。此前五年里，每隔一年更新一次，其影响力已超过GPU并打破了云端AI硬件市场竞争格局。未来世界看起来如何？Google TPU已经向我们展示了一小部分答案。