后方格智能化观察网
首页 > 市场 > 中国三大存储芯片公司正如Google TPU v4重磅发布般奋力前行单个Pod性能强劲如同世界第一超

中国三大存储芯片公司正如Google TPU v4重磅发布般奋力前行单个Pod性能强劲如同世界第一超

Google I/O开发者大会在疫情的影响下取消了去年的线上形式,这年份它以强有力的回归姿态展开。在没有开发者亲临场地的Google园区中,CEO桑达尔·皮查伊宣布了一系列令人瞩目的新技术,其中包括能够实现“空间瞬移”的全息视频聊天技术Project Starling,以及最新一代AI芯片TPU v4。

这项科技被描述为“我们部署到Google系统中的最快系统之一,对我们来说是一个具有历史意义的里程碑。”皮查伊对此进行了介绍。

TPU性能大幅提升

官方资料显示,在相同规模64芯片条件下,不考虑软件优化因素,TPU v4相比其前身TPU v3性能提升平均2.7倍。实际应用中,TPU v4主要与Pod相结合发挥作用,每个Pod包含4096个单独的TPU v4芯片。由于其独特互连技术,可以将数百独立处理器转变为一个整体网络,其互连带宽在规模上是其他任何网络技术的10倍,每个Pod都能达到1 exaFlOP级算力,即每秒10^18次浮点运算。这甚至超过全球最快超级计算机“富岳”两倍的性能。

如果现在有100万人同时使用笔记本电脑,所有这些计算机累加起来所需时间,就足够完成1 exaFLOP计算。而之前,要达到这样的水平可能需要定制一个专用的超级计算机。

今年MLPerf测试结果显示,Google TPU v4实力不容小觑。在ImageNet数据集图像分类训练测试(准确度至少75.90%)方面,256个TPU v4仅需1.82分钟完成任务,与768张Nvidia A100图形卡、192颗AMD Epyc 7742内核(1.06分钟)、512块华为AI优化Ascend910芯片以及128颗Intel Xeon Platinum 8168内核(1.56分钟)组合起来所需时间相当快。此外,当用于基于Transforms阅读理解BERT模型的大型维基百科语料库训练时,它也表现出色。使用256个TPU V4进行训练需要1.82分钟,比使用4096 TPU V3进行训练所需0.39分钟要慢一分多钟。不过,这仍然远远低于Nvidia硬件需要2048张A100卡和512块AMD Epyc 7742 CPU内核才能达到的0.81分钟。

除了展示具体AI应用,如MUM模型和LaMDA,还说明了如何利用这种能力来增强搜索引擎帮助用户更高效获取信息,或与人类持续无缝对话交流。这款未向市场销售但即将部署至Google数据中心且90%能源来自绿色资源的设备,将在未来开放给Cloud客户。

标签:

猜你喜欢

市场营销大专毕业论文 智能装备主要学...
引言 在当今这个高速发展的科技时代,智能装备已经成为各行各业不可或缺的一部分。从工业制造到医疗健康,从军事应用到日常生活,智能装备无处不在,它们通过集成先...
市场部组织架构图 新乡职业技术学...
新乡职业技术学院,这个名字在我耳边回响,似乎是在提醒我,那些曾经的日子,都是我人生旅途中不可或缺的一部分。那是一段充满挑战和成长的时光,我从一个不谙世事的...
市场监督管理局电话12345 岁月静好的苹果...
岁月静好的苹果树:古典品种与现代奇迹的对比 在一个宁静的秋日,阳光透过淡黄色的云层洒在了郁郁葱葱的果园里。这里是苹果树的王国,古老而又新鲜,每一棵树都有着...
市场工作总结个人心得 国际视野下的专...
在全球化的背景下,高等教育面临着前所未有的挑战与机遇。作为一所专注于石油行业人才培养的高等院校,天津石油职业技术学院(以下简称“天京学”)深刻认识到提升自...

强力推荐