2023年28纳米芯国产光刻机技术新里程碑照亮中国半导体之路

2023年，Google在其年度开发者大会上宣布推出全新一代AI芯片TPU v4，这款芯片的性能强劲到令人瞩目。根据GoogleCEO桑达尔·皮查伊的介绍，这是他们部署在Google上的最快系统，对他们来说是一个具有历史意义的里程碑。

相较于前一代TPU v3，TPU v4在相同的64芯片规模下性能提升了2.7倍。在实际应用中，TPU v4主要与Pod相连发挥作用，每一个Pod中有4096个单独的TPU v4单芯片，由于其独特的互连技术，它们能够将数百个独立处理器转变为一个系统。这样的互连带宽在规模上是其他任何网络技术的10倍，每一个Pod都能达到1 exaFlOP级别算力，即每秒10^18次浮点运算。这甚至超过了全球最快超级计算机“富岳”的两倍性能。

如果现在有1千万人同时使用笔记本电脑，那么所有这些计算机累加起来所产生的计算能力刚好就能够达到1 exaFLOP算力。而之前要达到这个水平可能需要专门定制一个超级计算机。今年MLPerf结果表明，Google TPU v4实力的确不容小觑。在ImageNet数据集图像分类训练测试（准确度至少75.90%）中，256个TPU V4只需1.82分钟完成任务，与768块Nvidia A100图形卡、192块AMD Epyc 7742内核以及128块Intel Xeon Platinum 8168内核组合使用时间相当。

此外，在大型维基百科语料库上进行基于Transform阅读理解BERT模型训练时，使用256个TPU V4需要1.82分钟，比使用4096 TPU V3所需0.39分钟慢了一分多钟，同时比2048张A100卡和512个AMD Epyc 7742 CPU内核共用0.81分钟还要慢一些。

除了用于训练和推理AI模型之外，Google同样展示了利用这款新型AI芯片实现具体AI应用，如MUM模型（Multitask Unified Model），它可以同时处理网页、图像等多种数据，以及LaMDA对话模型，可以与人类进行不间断交流。这些场景都适合利用新的TVPv4来优化它们的人工智能工作流程。