后方格智能化观察网
首页 > 市场 > 手机处理器十大排名比Google TPU v4更强的性能巨擘

手机处理器十大排名比Google TPU v4更强的性能巨擘

Google I/O开发者大会今年在疫情的阴影下举行,通过线上形式展现了公司最新的技术成果。Google CEO桑达尔·皮查伊宣布推出多项全新技术,其中包括能够实现“空间瞬移”的全息视频聊天技术Project Starling,以及最新一代AI芯片TPU v4。

TPU v4性能提升2倍,速度翻番

Google官方介绍,相较于上一代TPU v3,在相同的64芯片规模下,不考虑软件带来的改善,TPU v4性能平均提升2.7倍。在实际应用中,每一个Pod中有4096个单独的处理器,可以将数百个独立的处理器转变为一个系统,其互连带宽在规模上是其他任何网络技术的10倍,每一个Pod就能达到1 exaFlOP级别算力,即每秒10^18次浮点运算。这甚至是全球最快超级计算机“富岳”的两倍性能。

MLPerf结果表明,Google TPU v4实力不容小觑。在使用ImageNet数据集进行图像分类训练测试(准确度至少75.90%),256 个TPU v4仅需1.82分钟完成这一任务,这几乎与768个Nvidia A100图形卡、192个AMD Epyc 7742内核、512个华为AI优化的Ascend910芯片以及128个Intel Xeon Platinum 8168内核组合在一起所需时间一样快。

当负责在大型维基百科语料库上训练基于Transforms模型阅读理解BERT模型时,使用256个TPU v4进行训练需要1.82分钟,比使用4096 TPU V3进行训练所需0.39分钟要慢1分多钟。同时,要想用Nvidia硬件达到0.81分钟训练时间,则需要2048张A100卡和512 AMD Epyc 7742 CPU内核。

展示具体AI实例

除了MUM模型(Multitask Unified Model)和专为对话设计LaMDA,还有更多能够利用到TPU v4场景模型。这些模型比如读取理解模型BERT强1000倍,更适合赋能搜索引擎帮助用户高效获取信息;而LaMDA则可以与人类持续对话交流。

自研五年更新四代

自2016年首款内部定制AI芯片发布以来,Google不断迭代更新其产品。第一代采用28nm工艺制程功耗约40w,只适用于深度学习推理;第二代发布于2017年5月,可实现机器学习模式训练和推理能力增加180TFLOPs浮点运算,同时内存带宽也得以提升,比同期CPU AI工作负载提升30倍,比GPU AI工作负载提升15倍;第三代发布于2018年5月性能是上一代双份,大幅提高420TFLOPs浮点运算,以及128GB高带宽内存。而第四代即现在发布的是基于五年的积累,再一次突破了前辈们创造出的速度界限,为未来世界打开了一扇窗户。

标签:

猜你喜欢

市场营销工作内容 智能家居系统安...
智能家居革命 在过去,人们对家居的期望主要是舒适和美观。然而,随着科技的进步,智能化技术带来了全新的生活方式——智能家居。它不仅改变了我们的日常生活,还为...
翡翠原石市场 实训报告心得体...
一、参与实训的动机是什么? 在大学的学习生涯中,我们经常被理论知识所包围,很少有机会将这些知识应用到实际工作中。因此,当我有机会参加一段时间的实训项目时,...
下载app到手机上并安装 有效沟通秘诀如...
工作情况汇报,是职场中不可或缺的一部分,它不仅能够帮助团队成员了解项目进展,也是员工与上级沟通的重要手段。然而,不少人在进行简单工作汇报时,往往会感到无比...
市场分析报告如何写 智能制造装备专...
机器人时代的新工匠:智能制造装备专业人才的崭新职业路径 随着科技的飞速发展,智能制造已经成为全球产业转型升级的热点。智能制造不仅仅是传统制造业向高效、精准...

强力推荐