芯片封测龙头股排名前十突破新里程碑单个公司性能强劲超越行业前辈稳坐榜首
Google I/O开发者大会今年在疫情的影响下转为线上形式,CEO桑达尔·皮查伊宣布推出多项新技术,其中包括全息视频聊天技术Project Starling和最新一代AI芯片TPU v4。TPU v4是Google部署最快系统之一,对Google来说是一个历史性的里程碑。
TPU v4性能提升显著,单个Pod性能超越全球最快超算“富岳”两倍
与前一代TPU相比,TPU v4在相同规模64芯片时平均性能提升2.7倍。在实际应用中,每个4096个单芯片组成的Pod拥有独特互连技术,可以将数百独立处理器转变为一个系统,其互连带宽在规模上超过其他任何网络技术十倍,每个Pod能达到1 exaFlOP级别算力,即每秒10^18次浮点运算。这超过了全球最强超级计算机“富岳”的两倍性能。
MLPerf结果显示Google TPU v4实力强劲,在图像分类训练测试(ImageNet数据集)中256个TPU v4仅需1.82分钟完成任务,这速度几乎与768块Nvidia A100、192块AMD Epyc 7742内核、512块华为Ascend910以及128块Intel Xeon Platinum 8168内核组合的时间相当。
负责大型维基百科语料库上的BERT模型训练时,使用256个TPU v4需要1.82分钟,比使用4096 TPU v3所需0.39分钟要慢近二分之一,同时若想用Nvidia硬件达到0.81分钟的训练时间,则需要2048张A100卡和512块Epyc 7742 CPU内核。
展现于I/O大会的具体AI应用案例包括MUM模型(多任务统一模型),专门用于对话交流LaMDA都能够利用到TPU V4。MUM比阅读理解模型BERT强大1000倍,更适合赋能搜索引擎提高用户信息获取效率;而LaMDA则可实现人类对话交流。这些不向外出售的TSP,将主要部署于Google数据中心,并90%以上采用绿色能源。此外,预计将于稍后开放给Google Cloud客户使用。
自2016年首款内部定制AI芯片至今五年更新四代
第一代28nm工艺制程40W功耗仅适用于深度学习推理,而第二代能够实现机器学习模型训练和推理,以180TFLOPs浮点运算能力表现突出。第三代更是实现420TFLOPs浮点运算,以及128GB高带宽内存。而第四代即本次发布的TPU V4,不断打破GPU“垄断”,开启云端AI竞争格局新篇章。
未来世界何去何从?通过不断创新如今日之广泛展示,我们已有了一小部分答案。