TPU v4强势登场Google的这款芯片如同攀登智能手机CPU性能天梯的高山侠单个性能达到了世界第
Google I/O开发者大会今年在疫情的阴影下举行,通过线上形式展现了公司最新的技术成果。Google CEO桑达尔·皮查伊宣布推出多项全新技术,其中包括能够实现“空间瞬移”的全息视频聊天技术Project Starling,以及最新一代AI芯片TPU v4。
TPU v4强劲发力,速度提升2倍,性能提升10倍
Google官方介绍,在相同的64芯片规模下,不考虑软件带来的改善,TPU v4相较于上一代TPU v3性能平均提升2.7倍。在实际应用中,每一个单独的处理器都有4096个TPU v4单芯片,它们通过独特的互连技术,将数百个独立的处理器转变为一个系统。这意味着每一个Pod都能达到1 exaFlOP级别算力,即每秒10^18次浮点运算,这比全球最快超级计算机“富岳”还要强大两倍。
如果现在有1千万人同时使用笔记本电脑,其累加计算能力刚好就能够达到1 exaFLOP。之前要达到这样的水平可能需要定制专门的一个超级计算机。而现在,由于Google TPU v4 Pod可以轻松实现这一目标,它几乎缩短了我们对超级计算机概念的一切理解和期待。
今年MLPerf结果显示了Google TPU v4实力的非凡表现。在图像分类训练测试(准确度至少75.90%)方面,256 个TPU v4仅需1.82分钟完成任务,与768个Nvidia A100图形卡、192个AMD Epyc 7742内核、512个华为AI优化的Ascend910芯片以及128个Intel Xeon Platinum 8168内核组合起来所需时间相仿。
当负责在大型维基百科语料库上训练基于Transforms读取理解BERT模型时,使用256个TPU v4进行训练需要1.82分钟,比使用4096 TPU V3所需0.39分钟慢了一分多钟。若想使用Nvidia硬件以0.81分钟完成同样的任务,则需要2048张A100卡和512台Epyc 7742 CPU内核。
除了用于MUM模型(Multitask Unified Model)和LaMDA等场景外,这款未向公众销售但将部署到数据中心并覆盖90%绿色能源利用率的人工智能加速器也将开放给部分云端客户。此前自2016年首次发布以来,每五年一次更新至今,现在已经迎来了第五代产品——Tpu V5.
从28nm工艺制程开始至今发展到了当前这般强大的状态,无疑是科技进步的一道亮丽风景线。未来世界看起来会是什么样?答案正在被这个不断进化的人工智能加速器不断地书写着。