TPU v4芯片内部结构图如同心脏的重塑赋能计算之旅
Google I/O开发者大会在疫情的影响下改为线上形式举行,Google CEO桑达尔·皮查伊宣布推出多项新技术,包括全息视频聊天技术Project Starling和最新一代AI芯片TPU v4。
TPU v4是Google部署的最快系统,对Google来说是一个具有历史意义的里程碑。官方介绍称,在相同的64芯片规模下,不考虑软件带来的改善,TPU v4相较于上一代TPU v3性能平均提升2.7倍。在实际应用中,每一个TPU v4 Pod有4096个单独的TPU v4单芯片,可以将数百个独立处理器转变为一个系统,其互连带宽在规模上是其他任何网络技术的10倍,每一个Pod就能达到1 exaFlOP级别算力,性能超过全球最快超级计算机“富岳”的两倍。
今年MLPerf结果显示,256 个 TPUs 在 1.82 分钟内完成了ImageNet数据集图像分类训练测试,这与768个Nvidia A100图形卡、192个AMD Epyc 7742内核或512个华为AI优化Ascend910芯片及128个Intel Xeon Platinum 8168内核组合起来完成同样的任务速度相当。对于BERT模型进行大型维基百科语料库训练时,使用256 TPU需要1.82分钟,比使用4096 TPUv3所需0.39分钟慢近2分钟,但比2048张A100卡和512 AMD Epyc 7742 CPU需要0.81分钟要长。
此外,这款未向外出售但将被部署在Google数据中心并且90%左右利用绿色能源的大型AI加速器,将于今年晚些时候开放给Google Cloud客户。此前自研第一代至今已五年更新四代,以区别于传统CPU+GPU架构,为深度学习推理提供支持,并助力AlphaGo打败李世石,最终使得非专门定制超级计算机也能实现类似水平算力的运算。