数字芯片领域迎来新王者Google TPU v4发布如同航天飞机冲破大气层开启了全新的计算时代单个P
数字芯片领域迈出新里程碑,Google TPU v4强势登场!这颗AI芯片如同一枚穿越时空的火箭,将性能提升至前所未有的高度。在没有开发者亲临现场的情况下,Google CEO桑达尔·皮查伊宣布TPU v4的诞生,这是一次具有历史意义的技术突破。
TPU v4:速度翻倍、性能增十倍
Google官方表示,在相同规模的64芯片配置下,不考虑软件优化,TPU v4相较于上一代TPU v3表现出显著提升,其平均性能增幅达到了2.7倍。这个数字意味着在实际应用中,每个Pod中的4096个单独的TPU v4能够组合成一个系统,其互连带宽是其他任何网络技术的10倍。这种架构使得每个Pod都能达到1 exaFlOP级别算力,即全球最快超级计算机“富岳”的两倍之力。
以往要想达到1 exaFLOP,需要专门定制一个超级计算机。而现在,只需将100万台笔记本电脑累加起来,就能实现这一目标。这体现了TPU v4在处理能力上的巨大飞跃。
MLPerf测试结果令人瞩目
今年MLPerf测试结果显示,256个TPU v4在完成ImageNet数据集图像分类训练任务时只需1.82分钟,而使用768块Nvidia A100图形卡或192块AMD Epyc 7742内核则分别需要1.06分钟和0.39分钟。对于BERT模型训练而言,与使用4096块TPUv3相比,虽然时间略有延长,但仍然展现了其强大的处理能力。
具体AI实例展示潜力
除了读取和分析网页内容外,MUM模型(Multitask Unified Model)还能够处理多种类型数据,如图像等。此外,LaMDA对话模型能够与人类进行持续无缝交流。这些实例凸显了如何利用最新一代AI芯片来提高效率和创造新的用户体验。
自研五年更新四代
从2016年的首款内部定制AI芯片到今天,全方位更新四代,我们可以看出Google在推动科技进步方面不遗余力。第一代采用28nm工艺制程仅用于深度学习推理,而第二、三代分别实现了180TFLOPs和420TFLOPs浮点运算能力,以及128GB高带宽内存。不断迭代,使得Google TPU成为行业领先者,并打破GPU垄断地位,为云端AI竞争格局注入活力。
未来世界答案已揭晓
通过五年的发展历程,我们已经看到Google TPU给予我们的一部分答案——即便是在挑战性的场景中,它依然保持着强劲竞争力的关键性角色。这不仅是对传统GPU技术的一次重大挑战,也预示着更广泛、更深层次的人工智能应用将会随之而来。