1nm工艺新一代芯片的奇迹TPU v4则是超算性能的飞跃问鼎速度王座
Google I/O开发者大会在疫情的影响下取消了去年的线上形式,这年份它以强势回归的姿态展开。在没有开发者亲临场地的Google园区中,CEO桑达尔·皮查伊宣布了一系列令人瞩目的新技术,其中包括能够实现“空间瞬移”的全息视频聊天技术Project Starling,以及最新一代AI芯片TPU v4。
这项科技被描述为“我们部署到Google系统中的最快系统之一,对我们来说是一个具有历史意义的里程碑。”皮查伊对此进行了介绍。TPU v4作为最强大的AI加速器,其速度提升2倍,性能提升10倍。
官方数据显示,在相同规模的64芯片情况下,不考虑软件优化,TPU v4相比于前一代TPU v3性能平均提升2.7倍。在实际应用中,每个Pod包含4096个单独的TPU v4芯片,并且由于其独特互连技术,它们可以组合成一个高效的大型计算系统。每个Pod都能达到1 exaFlOP级别算力,比全球最快超级计算机“富岳”还要强大两倍。
如果有100万人同时使用笔记本电脑,那么所有这些设备累积起来所产生的计算能力,就足以达到1 exaFLOP。这是之前需要专门定制超级计算机才能实现的事业。今年MLPerf测试结果表明,Google TPU v4在图像分类任务上的表现非常出色,在ImageNet数据集上训练完成仅需1.82分钟,与768块Nvidia A100卡、192块AMD Epyc 7742内核或512块华为Ascend910芯片和128块Intel Xeon Platinum 8168内核组合时所需时间相当快。
此外,负责在维基百科语料库上训练BERT模型时,256个TPU V4也表现出色,只需1.82分钟,而使用4096 TPU V3则需要0.39分钟。这表明尽管使用更多硬件可以缩短训练时间,但当量价较低时,如2048张A100卡和512个Epyc 7742 CPU内核,则可用更少资源完成相同工作。
I/O大会展示了多种AI应用,其中包括MUM(Multitask Unified Model)和LaMDA(Large Language Model Dialogue Application),它们都是依赖于TPU V4来运行。MUM可以处理网页、图像等多种数据类型,而LaMDA则用于与人类进行持续对话交流。此外,这些未公开销售给客户的TDP将主要运营在绿色能源支持下的数据中心,并计划于未来开放给部分云端客户访问。
自2016年首次推出的第一代内部定制AI芯片以来,Google已经更新至第四代。在过去五年的发展历程中,无论是从内存带宽还是可编程性方面而言,都有着显著创新,为传统GPU提供竞争力,同时打破现有的云端AI市场格局。本文内容参考来源:venturebeat.com, datacenterknowledge.com