后方格智能化观察网
首页 > 市场 > 芯片封测龙头股排名前十突破新里程碑单个公司性能强劲超越行业前辈稳坐榜首

芯片封测龙头股排名前十突破新里程碑单个公司性能强劲超越行业前辈稳坐榜首

Google I/O开发者大会今年在疫情的影响下转为线上形式,CEO桑达尔·皮查伊宣布推出多项新技术,其中包括全息视频聊天技术Project Starling和最新一代AI芯片TPU v4。TPU v4是Google部署最快系统之一,对Google来说是一个历史性的里程碑。

TPU v4性能提升显著,单个Pod性能超越全球最快超算“富岳”两倍

与前一代TPU相比,TPU v4在相同规模64芯片时平均性能提升2.7倍。在实际应用中,每个4096个单芯片组成的Pod拥有独特互连技术,可以将数百独立处理器转变为一个系统,其互连带宽在规模上超过其他任何网络技术十倍,每个Pod能达到1 exaFlOP级别算力,即每秒10^18次浮点运算。这超过了全球最强超级计算机“富岳”的两倍性能。

MLPerf结果显示Google TPU v4实力强劲,在图像分类训练测试(ImageNet数据集)中256个TPU v4仅需1.82分钟完成任务,这速度几乎与768块Nvidia A100、192块AMD Epyc 7742内核、512块华为Ascend910以及128块Intel Xeon Platinum 8168内核组合的时间相当。

负责大型维基百科语料库上的BERT模型训练时,使用256个TPU v4需要1.82分钟,比使用4096 TPU v3所需0.39分钟要慢近二分之一,同时若想用Nvidia硬件达到0.81分钟的训练时间,则需要2048张A100卡和512块Epyc 7742 CPU内核。

展现于I/O大会的具体AI应用案例包括MUM模型(多任务统一模型),专门用于对话交流LaMDA都能够利用到TPU V4。MUM比阅读理解模型BERT强大1000倍,更适合赋能搜索引擎提高用户信息获取效率;而LaMDA则可实现人类对话交流。这些不向外出售的TSP,将主要部署于Google数据中心,并90%以上采用绿色能源。此外,预计将于稍后开放给Google Cloud客户使用。

自2016年首款内部定制AI芯片至今五年更新四代

第一代28nm工艺制程40W功耗仅适用于深度学习推理,而第二代能够实现机器学习模型训练和推理,以180TFLOPs浮点运算能力表现突出。第三代更是实现420TFLOPs浮点运算,以及128GB高带宽内存。而第四代即本次发布的TPU V4,不断打破GPU“垄断”,开启云端AI竞争格局新篇章。

未来世界何去何从?通过不断创新如今日之广泛展示,我们已有了一小部分答案。

标签:

猜你喜欢

全国最大的零食批发市场排名 新品上市抢先体...
首次触摸感知 在这款新产品的发布会上,我有幸作为一名媒体代表,亲自试用了这款革命性的智能家居设备。它以其简洁的外观和高科技感吸引了我。我轻轻地触碰屏幕,它...
华为应用市场 数字化转型信息...
数字化转型:信息技术如何重塑我们的工作与生活方式 在当今这个快速发展的时代,信息技术(IT)正在不断地改变着我们的世界。从个人生活到商业运作,再到社会结构...
全国衣服批发市场 广东科学技术职...
在当今快速发展的时代,科技和创新成为了推动社会进步的重要力量。广东作为中国南部的一个经济发达省份,其高等教育体系也在不断地发展和完善中。其中,广东科学技术...
产品市场需求分析怎么写 安徽电子信息职...
未来科技的孵化地:深度探究安徽电子信息职业技术学院的教育实践与创新发展 在这个快速变化的时代,科技成为了推动社会进步的关键引擎。作为一所培养电子信息专业人...

强力推荐