后方格智能化观察网
首页 > 市场 > TPU v4芯片封装工艺流程新一代巨轮航行在性能的海洋中

TPU v4芯片封装工艺流程新一代巨轮航行在性能的海洋中

Google I/O开发者大会在疫情的影响下取消了去年的线上形式,这年份它以强势回归的姿态展开。在没有开发者亲临场地的Google园区中,公司CEO桑达尔·皮查伊宣布推出了一系列革命性的技术,其中包括能够实现“空间瞬移”的全息视频聊天技术Project Starling,以及最新一代AI芯片TPU v4。

这项新芯片被称为是“我们部署在Google上的最快系统,对我们来说是一个具有历史意义的里程碑。”皮查伊如是说。TPU v4相比于前一代TPU v3,在相同数量的64个芯片规模下,其性能平均提升了2.7倍。每个Pod中包含4096个单独的TPU v4芯片,通过其独特互连技术,将数百个独立处理器转变为一个系统,其互连带宽超过其他任何网络技术十倍,每一个Pod都能达到1 exaFlOP级别算力,即每秒10^18次浮点运算。这甚至超越了全球最快超级计算机“富岳”的两倍性能。

如果有1,000万人同时使用笔记本电脑,并将这些计算机累加起来,它们所产生的总计算能力正好达到1 exaFLOP。这之前要达到这一水平,可能需要专门定制一个超级计算机。今年MLPerf结果显示,Google TPU v4实力的确令人瞩目。在ImageNet数据集图像分类训练测试(准确度至少75.90%)方面,256个TPU v4仅需1.82分钟完成任务,而与之竞争的是768张Nvidia A100图形卡、192张AMD Epyc 7742内核、512张华为AI优化Ascend910芯片以及128张Intel Xeon Platinum 8168内核组合起来完成同样任务需要更长时间。

对于基于Transform进行阅读理解BERT模型的大型维基百科语料库训练时,使用256个TPU V4所需时间也非常短,只需1.82分钟,比使用4096 TPU V3所需0.39分钟要慢近2分多钟,同时要比2048张A100卡和512台Epyc 7742 CPU内核组合来用0.81分钟要慢很多。

除了用于读取网页和图像等多种数据类型MUM模型(Multitask Unified Model),还有一款专门设计用于对话LaMDA(Large Language Model Dialogue Applications)都是能够利用到TPU V4优势的地方。而且,这些模型都远远超过了传统BERT模型强大,因此它们在实际应用中将会发挥巨大的作用,如帮助用户高效找到他们想要信息一样或与人类进行不间断对话交流。

此外,由于这种并不向外出售但内部部署于Google数据中心中的AI处理器占据70%以上能源来自可再生资源而非化石燃料,而且预计未来90%以上将来源绿色能源,使得整个项目不仅提供极高效率,还保证了环境友好性。此外,虽然目前只供内部使用,但计划在今年晚些时候开放给Cloud客户使用,让更多企业享受其高速、高效的人工智能解决方案。

标签:

猜你喜欢

营销的四种方式 青春筑梦黄河水...
校园风光 黄河水利职业技术学院坐落于中国的历史文化名城,这里不仅是学习与研究的圣地,也是成长与探索的温床。每当春天来临,校园里便布满了鲜艳的花朵和翠绿的树...
华为应用市场免费下载 郑州工程技术学...
在当今竞争激烈的教育领域中,高等院校的人才培养工作尤为关键。郑州工程技术学院作为一所以工程技术教育为特色的高等学校,其师资力量是其长期发展和持续进步的重要...
市市场监督管理局官网 机器人制造的艰...
机器人制造的艰辛:数控技术的代价与警示 在这个快速发展的工业时代,数控技术成为了制造业不可或缺的一部分。它通过精确控制工具路径和工件位置,实现了自动化生产...
全国最大的批发市场排行 绿色发展下四川...
在全球气候变化、生态环境恶化的背景下,绿色发展已经成为各国追求的重要目标。作为教育机构,四川工程职业技术学院也深刻认识到这一点,不仅在课程设置上进行了优化...

强力推荐