后方格智能化观察网
首页 > 市场 > 1nm工艺新一代芯片的奇迹TPU v4则是超算性能的飞跃问鼎速度王座

1nm工艺新一代芯片的奇迹TPU v4则是超算性能的飞跃问鼎速度王座

Google I/O开发者大会在疫情的影响下取消了去年的线上形式,这年份它以强势回归的姿态展开。在没有开发者亲临场地的Google园区中,CEO桑达尔·皮查伊宣布了一系列令人瞩目的新技术,其中包括能够实现“空间瞬移”的全息视频聊天技术Project Starling,以及最新一代AI芯片TPU v4。

这项科技被描述为“我们部署到Google系统中的最快系统之一,对我们来说是一个具有历史意义的里程碑。”皮查伊对此进行了介绍。TPU v4作为最强大的AI加速器,其速度提升2倍,性能提升10倍。

官方数据显示,在相同规模的64芯片情况下,不考虑软件优化,TPU v4相比于前一代TPU v3性能平均提升2.7倍。在实际应用中,每个Pod包含4096个单独的TPU v4芯片,并且由于其独特互连技术,它们可以组合成一个高效的大型计算系统。每个Pod都能达到1 exaFlOP级别算力,比全球最快超级计算机“富岳”还要强大两倍。

如果有100万人同时使用笔记本电脑,那么所有这些设备累积起来所产生的计算能力,就足以达到1 exaFLOP。这是之前需要专门定制超级计算机才能实现的事业。今年MLPerf测试结果表明,Google TPU v4在图像分类任务上的表现非常出色,在ImageNet数据集上训练完成仅需1.82分钟,与768块Nvidia A100卡、192块AMD Epyc 7742内核或512块华为Ascend910芯片和128块Intel Xeon Platinum 8168内核组合时所需时间相当快。

此外,负责在维基百科语料库上训练BERT模型时,256个TPU V4也表现出色,只需1.82分钟,而使用4096 TPU V3则需要0.39分钟。这表明尽管使用更多硬件可以缩短训练时间,但当量价较低时,如2048张A100卡和512个Epyc 7742 CPU内核,则可用更少资源完成相同工作。

I/O大会展示了多种AI应用,其中包括MUM(Multitask Unified Model)和LaMDA(Large Language Model Dialogue Application),它们都是依赖于TPU V4来运行。MUM可以处理网页、图像等多种数据类型,而LaMDA则用于与人类进行持续对话交流。此外,这些未公开销售给客户的TDP将主要运营在绿色能源支持下的数据中心,并计划于未来开放给部分云端客户访问。

自2016年首次推出的第一代内部定制AI芯片以来,Google已经更新至第四代。在过去五年的发展历程中,无论是从内存带宽还是可编程性方面而言,都有着显著创新,为传统GPU提供竞争力,同时打破现有的云端AI市场格局。本文内容参考来源:venturebeat.com, datacenterknowledge.com

标签:

猜你喜欢

华为应用市场 在实施一卡通支...
随着科技的不断进步和智能交通系统的发展,天津市政府推出了一个名为“一卡通”的智能支付系统。这个系统不仅可以让乘客更方便地购买车票,而且还能实时监控交通流量...
二手平台买卖网 芯片概念股一览...
本周三,鸿海精密与国巨集团宣布联合成立一家半导体合资公司——国瀚半导体,以切入半导体产品的开发与销售领域。该公司将聚焦于功率与模拟半导体产品,初期生产基地...
安卓应用商店 医院中应用的多...
医院中应用的多种可穿戴技术设备简介 心率监测手表 在医院,心率监测手表是常见的一种可穿戴设备。这些手表通过心电图(ECG)或其他传感器来监测患者的心脏活动...
营销与市场的关系 人工智能一般去...
机器学习的新征程:从企业到政府如何应用AI技术 随着人工智能(AI)技术的迅猛发展,越来越多的单位开始探索和利用这些先进工具。人工智能一般去什么单位?答案...

强力推荐