2022年芯片行情Google TPU v4发布性能如同奔跑的马匹一跃超越众多竞争者
2022年,Google I/O开发者大会以线上形式回归,展示了多项新技术,其中包括全息视频聊天技术Project Starling和最新一代AI芯片TPU v4。Google CEO桑达尔·皮查伊宣布TPU v4是公司部署的最快系统,是一个具有历史意义的里程碑。
TPU v4性能大幅提升
相比于上一代TPU v3,Google官方表示在相同规模下(64芯片),不考虑软件优化,TPU v4性能平均提升2.7倍。在实际应用中,每个Pod包含4096个单独的TPU v4单芯片,并且通过独特互连技术,将数百个独立处理器转变为一个系统,其互连带宽在规模上是其他任何网络技术的10倍,每一个Pod达到1 exaFlOP级算力,即每秒10^18次浮点运算,这超过了全球最快超级计算机“富岳”的两倍性能。
MLPerf结果显示Google TPU v4实力强劲
今年MLPerf测试结果表明,在使用ImageNet数据集进行图像分类训练测试(准确度至少75.90%)时,256 个TPU v4只需要1.82分钟完成任务,与768个Nvidia A100图形卡、192个AMD Epyc 7742内核、512个华为AI优化的Ascend910芯片以及128个Intel Xeon Platinum 8168内核组合速度相当。而在BERT模型训练中,使用256个TPU v4需要1.82分钟,比使用4096 TPU V3需要0.39分钟慢1分多钟,但仍然与2048张A100卡和512 AMD Epyc 7742 CPU内核所需0.81分钟差不多。
具体AI应用展示
I/O大会还展示了能够利用到TPU V4 的具体AI实例,如MUM模型(Multitask Unified Model, 多任务统一模型)和专为对话设计的LaMDA。MUM比阅读理解模型BERT强1000倍,可用于赋能搜索引擎提高用户信息获取效率;而LaMDA则可以与人类进行持续无间断对话交流。
自研五年更新四代
自2016年首款内部定制AI芯片发布以来,Google已经发布了四代产品,每一次更新都代表着更高效能和更低功耗。从28nm工艺制程到180TFLOPs浮点运算能力,再到420TFLOPs,以及目前可实现420TFLOPs浮点运算及128GB高带宽内存等系列升级,这些创新让谷歌Tinu变得不可或缺,无论是在推理还是训练方面都占据领先地位。此外,由于其节能优势,大部分将采用绿色能源运行,使得这些硬件成为云端服务提供商们竞争力的关键因素之一。