后方格智能化观察网
首页 > 市场 > 3nm芯片量产之路等同于Google TPU v4发布前的准备工作

3nm芯片量产之路等同于Google TPU v4发布前的准备工作

Google I/O开发者大会在疫情的影响下取消了去年的线上形式,这年份它以强有力的回归姿态展现,尽管没有开发者的身影出现在Google园区中,但Google CEO桑达尔·皮查伊(Sundar Pichai)仍带来了许多令人振奋的技术新动向。除了能够实现“空间瞬移”的全息视频聊天技术Project Starling,还有最新一代AI芯片TPU v4。

这次发布被描述为对Google部署系统历史性的里程碑之一。TPU v4相较于前一代TPU v3,在相同规模的64芯片下性能提升了2.7倍。在实际应用中,它主要与Pod相连发挥作用,每个Pod包含4096个单独的TPU v4芯片,通过独特互连技术,将数百个独立处理器转变为一个系统,其互联带宽在规模上超过其他任何网络技术十倍,每一个Pod都能达到1 exaFlOP级别算力,即每秒10^18次浮点运算。这不仅是全球最快超级计算机“富岳”的两倍性能,也相当于全球1,000万笔记本电脑累加计算能力。

今年MLPerf结果显示,Google TPU v4实力非凡,在图像分类训练测试(准确度至少75.90%)上256个TPU v4可以在1.82分钟内完成任务,与768张Nvidia A100图形卡、192张AMD Epyc 7742内核组合或512张华为AI优化的Ascend910芯片以及128张Intel Xeon Platinum 8168内核组合完成时间相同。此外,当用于基于Transforms阅读理解BERT模型的大型维基百科语料库训练时,使用256个TPU v4需要1.82分钟,比使用4096 TPU V3所需0.39分钟慢多近一分半钟,同时比使用2048张A100卡和512块Epyc7742 CPU进行0.81分钟训练要慢。

这些新兴AI实例包括MUM模型(Multitask Unified Model),这是专门处理网页、图像等多种数据类型的一款模型,并且强大到可与BERT相比增加了1000倍;还有LaMDA,是专门用于人机对话交流的人工智能模型。这两个场景模型都将利用Tpu V4来提供更高效地信息获取和自然语言交流体验。

自从2016年宣布首款内部定制AI芯片以来,五年间四代更新,这些自研Tpu已经证明它们在推理和训练方面具有不可匹敌的地位。第一代采用28nm工艺制程,只适用于深度学习推理,而第二代则支持同时进行训练和推理。第三代性能翻番至420TFLOPs浮点运算,以及128GB高带宽内存。而第四代此次发布,又再次突破性地提高了性能,使其成为目前市场上的顶尖AI加速器之一。未来世界看起来如何?Google TPU已经给我们揭示了一小部分答案。

标签:

猜你喜欢

手机应用市场 苹果新品发布会...
生活中,音乐成为了我离不开的伴侣,尤其是在家中的自由空间里,音乐总能给予我一种优雅、放松的独特体验。便于移动的蓝牙音箱就成了很多人选择的一种方式。在苹果新...
国内小商品批发市场 华为11月28...
华为即将在11月28日召开发布会,预计将推出多款新品。如同世界杯期间扫地机器人包揽了家务,这次华为的新品也或许能在科技领域再添佳兵,为消费者带来全新的体验...
市场调研数据网站 智能家居新星平...
iF设计奖,以其严谨的评审标准和对创新设计的倡导,已经成为全球认可的顶尖设计荣誉。自1953年成立以来,它一直是工业设计领域最具影响力的奖项之一。这次,一...
市场营销3000字论文 中国半导体产业...
随着全球科技大战的加剧,中国半导体行业正迎来新的发展机遇。近期,国内外多项消息不断传出,为此,我们一一梳理并分析这些重要动向。 首先,国家层面的支持政策不...

强力推荐