深圳芯片强队出炉领跑者性能如同Google TPU v4般碾压对手
Google I/O开发者大会今年在疫情的阴影下举行,通过线上形式展现了公司最新的技术成果。Google CEO桑达尔·皮查伊宣布推出多项全新技术,其中包括能够实现“空间瞬移”的全息视频聊天技术Project Starling,以及最新一代AI芯片TPU v4。
TPU v4性能提升2倍,速度翻番
Google官方介绍,TPU v4相较于上一代TPU v3性能平均提升2.7倍。在实际应用中,每一个Pod都有4096个单独的TPU v4芯片,这些芯片采用了独特的互连技术,使得它们可以集成到一个系统中,从而形成巨大的计算能力。每个Pod都能达到1 exaFlOP级别的算力,即全球最快超级计算机“富岳”性能的两倍。
此外,MLPerf结果表明,Google TPU v4在图像分类训练测试方面表现出色。在使用ImageNet数据集时,只需要256个TPU v4即可完成任务,而这几乎与768块Nvidia A100图形卡、192块AMD Epyc 7742内核或512块华为AI优化的Ascend910芯片组合起来完成相同工作量一样快。
负责在大型维基百科语料库上训练基于Transformer架构阅读理解BERT模型时,使用256个TPU v4进行训练需要1.82分钟,比使用4096 TPU V3短时间近半小时。此外,如果想要使用Nvidia硬件达到0.81分钟所需时间,则需要2048张A100卡和512个AMD Epyc 7742 CPU内核。
除了这些具体AI实例,如MUM模型(Multitask Unified Model)和专为对话打造的LaMDA,都能够用到这一强劲AI处理器。前者比阅读理解模型BERT强1000倍,更适合赋能搜索引擎帮助用户高效获取信息;后者则可以与人类进行不间断交流,对话自然流畅。
自研AI芯片五年更新四代
自2016年首款内部定制AI芯片发布以来,Google已经迭代至第四代。第一代仅用于深度学习推理,其后随着第二、三代更新,它们不仅支持机器学习模型训练,还显著提高了性能。在过去五年的发展中,无论是从片上内存还是可编程能力来看,Google TPU都是不可多得的创新,它们打破了GPU的地位,并开启了一场云端竞争格局的大变革。
未来的世界是什么样的?尽管我们还无法完全预测,但以今天为标杆,我们知道未来将依赖更先进、更强大的科技手段。而作为这个领域领头羊之一,让人期待的是接下来会发生什么新的突破。