2023年28纳米芯国产光刻机技术新里程碑照亮中国半导体之路
2023年,Google在其年度开发者大会上宣布推出全新一代AI芯片TPU v4,这款芯片的性能强劲到令人瞩目。根据GoogleCEO桑达尔·皮查伊的介绍,这是他们部署在Google上的最快系统,对他们来说是一个具有历史意义的里程碑。
相较于前一代TPU v3,TPU v4在相同的64芯片规模下性能提升了2.7倍。在实际应用中,TPU v4主要与Pod相连发挥作用,每一个Pod中有4096个单独的TPU v4单芯片,由于其独特的互连技术,它们能够将数百个独立处理器转变为一个系统。这样的互连带宽在规模上是其他任何网络技术的10倍,每一个Pod都能达到1 exaFlOP级别算力,即每秒10^18次浮点运算。这甚至超过了全球最快超级计算机“富岳”的两倍性能。
如果现在有1千万人同时使用笔记本电脑,那么所有这些计算机累加起来所产生的计算能力刚好就能够达到1 exaFLOP算力。而之前要达到这个水平可能需要专门定制一个超级计算机。今年MLPerf结果表明,Google TPU v4实力的确不容小觑。在ImageNet数据集图像分类训练测试(准确度至少75.90%)中,256个TPU V4只需1.82分钟完成任务,与768块Nvidia A100图形卡、192块AMD Epyc 7742内核以及128块Intel Xeon Platinum 8168内核组合使用时间相当。
此外,在大型维基百科语料库上进行基于Transform阅读理解BERT模型训练时,使用256个TPU V4需要1.82分钟,比使用4096 TPU V3所需0.39分钟慢了一分多钟,同时比2048张A100卡和512个AMD Epyc 7742 CPU内核共用0.81分钟还要慢一些。
除了用于训练和推理AI模型之外,Google同样展示了利用这款新型AI芯片实现具体AI应用,如MUM模型(Multitask Unified Model),它可以同时处理网页、图像等多种数据,以及LaMDA对话模型,可以与人类进行不间断交流。这些场景都适合利用新的TVPv4来优化它们的人工智能工作流程。
值得注意的是,这些并不向外出售的硬件很快将被部署到Google数据中心,其中90%左右将采用绿色能源。此外,加州初创公司DeepMind也计划采纳这项技术以支持其深度学习研究工作,并且计划开放给更广泛用户群体,不久后会提供给Google Cloud客户使用。