CPU排行榜2023天梯图揭秘Google TPU v4如同超算中的神话生物单机性能跃居顶峰
Google I/O开发者大会在疫情的阴影下重燃希望,线上形式的回归标志着科技巨头对未来发展的坚定信心。CEO桑达尔·皮查伊在没有开发者见证的情况下宣布推出多项创新技术,其中包括全息视频聊天技术Project Starling和最新一代AI芯片TPU v4。
TPU v4:性能翻番,超算级别算力
“这是我们在Google上部署的最快系统,对我们来说是一个具有历史意义的里程碑。”皮查伊对此进行了介绍。TPU v4相较于前代TPU v3,在相同规模(64芯片)下的性能提升平均为2.7倍。在实际应用中,每个Pod包含4096个单独的TPU v4芯片,这些芯片通过独特互连技术结合成一个系统,其带宽远超过其他任何网络技术,达到1 exaFlOP级别算力,即每秒10^18次浮点运算。这一水平甚至超过全球最快超级计算机“富岳”的两倍。
如果有100万台笔记本电脑同时使用,它们累加起来也只能达到1 exaFLOP。而之前要达到这一水平需要专门定制一个超级计算机。今年MLPerf结果显示,Google TPU v4实力的确令人瞩目,在图像分类训练测试(至少75.90%准确度)中256个TPU v4仅需1.82分钟完成任务,与768张Nvidia A100、192颗AMD Epyc 7742内核或128颗Intel Xeon Platinum 8168内核组合速度相当。此外,用于BERT模型训练时使用256个TPU v4比使用4096 TPU V3慢了一分多钟,但仍然高于2048张A100卡和512颗Epyc 7742 CPU内核所需0.81分钟。
具体应用与展望
I/O大会上展示了能够利用TPU V4的人工智能实例,如MUM模型(Multitask Unified Model),适合赋能搜索引擎提高用户体验;LaMDA则是专为对话设计的人工智能,可以与人类无间断交流。这些模型都可以从Google Cloud客户手中获得,并将主要运行绿色能源。此外,将会开放给更多客户,以支持不断增长的人工智能需求。
自研AI芯片五年更新四代
自2016年首款内部定制AI芯片发布以来,Google一直保持着领先地位。第一代采用28nm工艺制程,只适用于深度学习推理,而第二代则实现了180TFLOPs浮点运算能力,以及内存带宽提升,使其成为当时市场上的佼佼者。第三代进一步提升至420TFLOPs,并提供128GB高带宽内存。而第四代,即现在发布的是基于5年持续迭代更新后的产品,其竞争力依旧强劲且不断进化。
未来的世界何去何从?虽然无法预知,但以目前看来,人工智能领域将继续迎接快速发展,而Google TPU正站在这场变革之巅,为整个行业树立新的标准和可能性的窗口。本文参考链接:
https://venturebeat.com/2021/05/18/google-details-new-ai-accelerator-chips/
https://www.datacenterknowledge.com/machine-learning/google-more-doubles-its-ai-chip-performance-tpu-v4
相关文章:
硅光单芯片初创公司吸引比尔盖茨投资
Google AI Chip Performance Doubled
雷锋网