芯片大国之争Google TPU v4如同雄鹰俯冲单机性能超越世界第一超算的双翼翱翔
Google I/O开发者大会在疫情的阴影下重燃希望,线上形式的回归标志着科技巨头对未来创新战略的一次重大布局。在没有开发者亲临场地的情况下,Google CEO桑达尔·皮查伊(Sundar Pichai)带领团队宣布了一系列革命性的技术,其中包括全息视频聊天技术Project Starling和最新一代AI芯片TPU v4。
TPU v4:速度翻倍、性能十倍的强大AI加速器
Google官方介绍,TPU v4相比于前一代TPU v3,在相同规模64芯片配置下,其性能平均提升了2.7倍。与此同时,每个Pod中包含4096个单独的TPU v4芯片,这些芯片通过独特的互连技术能够形成一个系统,其互连带宽远超其他任何网络技术。这使得每一个Pod都能达到1 exaFlOP级别算力,即全球最快超级计算机“富岳”的两倍水平。
如果将1千万台笔记本电脑累计计算能力进行比较,我们会发现这相当于1 exaFLOP。之前要达到这样的算力,通常需要定制专门用于超级计算的大型机。而现在,这一切都可以由256个TPU v4完成,就像768块Nvidia A100图形卡、192块AMD Epyc 7742内核或512块华为AI优化Ascend910芯片以及128块Intel Xeon Platinum 8168内核组合起来一样快速。
MLPerf测试结果显示,使用ImageNet数据集进行图像分类训练测试时,256个TPU v4仅需1.82分钟,而使用768个Nvidia A100图形卡、192个AMD Epyc 7742内核或128个Intel Xeon Platinum 8168内核所需时间分别是1.06分钟、0.39分钟和0.81分钟。对于BERT模型在大型维基百科语料库上的训练任务而言,与使用4096 TPU V3相比,虽然以2048张A100卡和512 AMD Epyc 7742 CPU内核为基础可实现更短时间,但仍然落后于256 TPU V4。
多种AI应用利用Google自研TPU
除了其极高的性能外,Google展示了多种实际应用案例,如MUM模型(Multitask Unified Model),该模型能够处理网页、图像等多种数据类型,并且拥有阅读理解模型BERT强度近乎10倍;LaMDA是一个专为对话设计的人工智能,它能够与人类进行不间断交流。这两款基于新的硬件支持,以往无法实现的事情如今变得轻而易举。
自2016年首次推出第一代内部定制AI芯片以来,每隔一年更新一次新一代产品,如第二代(2017)、第三代(2018)和第四代(2021)。这一迭代周期体现了Google在AI领域持续创新并保持竞争力的决心。此外,由于90%以上的这些新设备将运行绿色能源,因此也展现了公司环保意识的一部分。此设备预计今年晚些时候将开放给云服务客户使用。