美国禁华为芯片犹如Google TPU v4发布前后单个Pod性能大增展示了技术强国的决策力与优势
Google I/O开发者大会在疫情的影响下改为线上形式举行,Google CEO桑达尔·皮查伊宣布推出多项新技术,包括全息视频聊天技术Project Starling和最新一代AI芯片TPU v4。
TPU v4性能提升显著,是Google部署的最快系统,对公司来说是一个历史性的里程碑。相较于前一代TPU v3,在相同规模的64芯片情况下,TPU v4性能平均提升2.7倍。在实际应用中,每个Pod有4096个单独的TPU v4芯片,可以将数百独立处理器转变为一个系统,其互连带宽是其他任何网络技术的10倍,每个Pod都能达到1 exaFlOP级算力,甚至超过全球最快超级计算机“富岳”的两倍性能。
今年MLPerf结果显示,Google TPU v4在图像分类训练测试中的表现不俗,以256个TPU v4完成任务仅需1.82分钟,与768块Nvidia A100图形卡、192块AMD Epyc 7742内核或512块华为AI优化Ascend910芯片组合使用速度相当。此外,在基于Transform阅读理解模型BERT的大型维基百科语料库训练时,使用256个TPU v4需要1.82分钟,比使用4096 TPU V3短时间,但比Nvidia硬件所需0.81分钟要慢。
除了展示了能够利用该新芯片进行多种AI实例,如MUM模型(适合赋能搜索引擎)和LaMDA对话模型之外,这些未向公众出售的强大设备很快将被部署至数据中心,其中90%以上会采用绿色能源,并计划今年晚些时候开放给Google Cloud客户。
自2016年首款内部定制AI芯片发布以来,五年间Google更新了四代产品。第一代采用28nm工艺制程主要用于深度学习推理;第二代能够实现机器学习模型训练与推理;第三代性能翻番;第四代则是目前这次发布。每一步迭代都是为了提高效率和能力,无论是在内存带宽还是可编程能力方面,都不断打破GPU在某些领域的地位,并打开云端AI竞争格局。未来世界如何?今天,我们已经看到了部分答案。