芯片封测龙头股排名前十突破新里程碑单个公司性能强劲超越行业前辈稳坐榜首

Google I/O开发者大会今年在疫情的影响下转为线上形式，CEO桑达尔·皮查伊宣布推出多项新技术，其中包括全息视频聊天技术Project Starling和最新一代AI芯片TPU v4。TPU v4是Google部署最快系统之一，对Google来说是一个历史性的里程碑。

TPU v4性能提升显著，单个Pod性能超越全球最快超算“富岳”两倍

与前一代TPU相比，TPU v4在相同规模64芯片时平均性能提升2.7倍。在实际应用中，每个4096个单芯片组成的Pod拥有独特互连技术，可以将数百独立处理器转变为一个系统，其互连带宽在规模上超过其他任何网络技术十倍，每个Pod能达到1 exaFlOP级别算力，即每秒10^18次浮点运算。这超过了全球最强超级计算机“富岳”的两倍性能。

MLPerf结果显示Google TPU v4实力强劲，在图像分类训练测试（ImageNet数据集）中256个TPU v4仅需1.82分钟完成任务，这速度几乎与768块Nvidia A100、192块AMD Epyc 7742内核、512块华为Ascend910以及128块Intel Xeon Platinum 8168内核组合的时间相当。

负责大型维基百科语料库上的BERT模型训练时，使用256个TPU v4需要1.82分钟，比使用4096 TPU v3所需0.39分钟要慢近二分之一，同时若想用Nvidia硬件达到0.81分钟的训练时间，则需要2048张A100卡和512块Epyc 7742 CPU内核。

展现于I/O大会的具体AI应用案例包括MUM模型（多任务统一模型），专门用于对话交流LaMDA都能够利用到TPU V4。MUM比阅读理解模型BERT强大1000倍，更适合赋能搜索引擎提高用户信息获取效率；而LaMDA则可实现人类对话交流。这些不向外出售的TSP，将主要部署于Google数据中心，并90%以上采用绿色能源。此外，预计将于稍后开放给Google Cloud客户使用。

自2016年首款内部定制AI芯片至今五年更新四代