2022年芯片行情Google TPU v4发布性能如同奔跑的马匹一跃超越众多竞争者

2022年，Google I/O开发者大会以线上形式回归，展示了多项新技术，其中包括全息视频聊天技术Project Starling和最新一代AI芯片TPU v4。Google CEO桑达尔·皮查伊宣布TPU v4是公司部署的最快系统，是一个具有历史意义的里程碑。

TPU v4性能大幅提升

相比于上一代TPU v3，Google官方表示在相同规模下（64芯片），不考虑软件优化，TPU v4性能平均提升2.7倍。在实际应用中，每个Pod包含4096个单独的TPU v4单芯片，并且通过独特互连技术，将数百个独立处理器转变为一个系统，其互连带宽在规模上是其他任何网络技术的10倍，每一个Pod达到1 exaFlOP级算力，即每秒10^18次浮点运算，这超过了全球最快超级计算机“富岳”的两倍性能。

MLPerf结果显示Google TPU v4实力强劲

今年MLPerf测试结果表明，在使用ImageNet数据集进行图像分类训练测试（准确度至少75.90%）时，256 个TPU v4只需要1.82分钟完成任务，与768个Nvidia A100图形卡、192个AMD Epyc 7742内核、512个华为AI优化的Ascend910芯片以及128个Intel Xeon Platinum 8168内核组合速度相当。而在BERT模型训练中，使用256个TPU v4需要1.82分钟，比使用4096 TPU V3需要0.39分钟慢1分多钟，但仍然与2048张A100卡和512 AMD Epyc 7742 CPU内核所需0.81分钟差不多。

具体AI应用展示

I/O大会还展示了能够利用到TPU V4 的具体AI实例，如MUM模型（Multitask Unified Model, 多任务统一模型）和专为对话设计的LaMDA。MUM比阅读理解模型BERT强1000倍，可用于赋能搜索引擎提高用户信息获取效率；而LaMDA则可以与人类进行持续无间断对话交流。

自研五年更新四代

自2016年首款内部定制AI芯片发布以来，Google已经发布了四代产品，每一次更新都代表着更高效能和更低功耗。从28nm工艺制程到180TFLOPs浮点运算能力，再到420TFLOPs，以及目前可实现420TFLOPs浮点运算及128GB高带宽内存等系列升级，这些创新让谷歌Tinu变得不可或缺，无论是在推理还是训练方面都占据领先地位。此外，由于其节能优势，大部分将采用绿色能源运行，使得这些硬件成为云端服务提供商们竞争力的关键因素之一。