中国半导体新星闪耀TPU v4发布性能如同奔跑的麒麟与世界超算相提并论
Google I/O开发者大会今年在疫情的阴影下举行,通过线上形式展现了公司最新的技术成果。Google CEO桑达尔·皮查伊宣布推出多项全新技术,其中包括能够实现“空间瞬移”的全息视频聊天技术Project Starling,以及最新一代AI芯片TPU v4。
TPU v4性能提升2倍,速度翻番
Google官方介绍,TPU v4相较于上一代TPU v3性能平均提升2.7倍。在实际应用中,每一个Pod都有4096个单独的TPU v4芯片,这些芯片采用了独特的互连技术,使得它们可以集成到一个系统中,从而形成巨大的计算能力。每个Pod都能达到1 exaFlOP级别的算力,即全球最快超级计算机“富岳”性能的两倍。
此外,MLPerf结果表明,Google TPU v4在图像分类训练测试方面表现出色。在使用ImageNet数据集时,只需要256个TPU v4即可完成任务,而这几乎与768块Nvidia A100图形卡、192块AMD Epyc 7742内核或512块华为AI优化的Ascend910芯片组合起来完成相同工作量一样快。
负责在大型维基百科语料库上训练基于Transformer模型读取理解BERT模型时,由于使用256个TPUv4进行训练需要1.82分钟,比使用4096 TPUv3所需时间长1分多钟。这与2048张A100卡和512个AMD Epyc 7742 CPU内核共同完成0.81分钟训练任务相比,更显其强劲性能。
除了这些应用示例之外,MUM(Multitask Unified Model)和LaMDA(Large Language Model Dialog Application)等场景模型也将利用这一强大的新一代AI芯片。MUM比BERT强1000倍,是为了赋能搜索引擎帮助用户更高效地获取信息;LaMDA则能够与人类进行不间断对话交流。
虽然这款非公开销售的硬件将首先部署在Google数据中心,并且90%左右会使用绿色能源,但预计今年晚些时候将开放给Google Cloud客户。此前五年里,每隔一年更新一次,其影响力已超过GPU并打破了云端AI硬件市场竞争格局。未来世界看起来如何?Google TPU已经向我们展示了一小部分答案。