TPU v4芯片封装工艺流程新一代巨轮航行在性能的海洋中
Google I/O开发者大会在疫情的影响下取消了去年的线上形式,这年份它以强势回归的姿态展开。在没有开发者亲临场地的Google园区中,公司CEO桑达尔·皮查伊宣布推出了一系列革命性的技术,其中包括能够实现“空间瞬移”的全息视频聊天技术Project Starling,以及最新一代AI芯片TPU v4。
这项新芯片被称为是“我们部署在Google上的最快系统,对我们来说是一个具有历史意义的里程碑。”皮查伊如是说。TPU v4相比于前一代TPU v3,在相同数量的64个芯片规模下,其性能平均提升了2.7倍。每个Pod中包含4096个单独的TPU v4芯片,通过其独特互连技术,将数百个独立处理器转变为一个系统,其互连带宽超过其他任何网络技术十倍,每一个Pod都能达到1 exaFlOP级别算力,即每秒10^18次浮点运算。这甚至超越了全球最快超级计算机“富岳”的两倍性能。
如果有1,000万人同时使用笔记本电脑,并将这些计算机累加起来,它们所产生的总计算能力正好达到1 exaFLOP。这之前要达到这一水平,可能需要专门定制一个超级计算机。今年MLPerf结果显示,Google TPU v4实力的确令人瞩目。在ImageNet数据集图像分类训练测试(准确度至少75.90%)方面,256个TPU v4仅需1.82分钟完成任务,而与之竞争的是768张Nvidia A100图形卡、192张AMD Epyc 7742内核、512张华为AI优化Ascend910芯片以及128张Intel Xeon Platinum 8168内核组合起来完成同样任务需要更长时间。
对于基于Transform进行阅读理解BERT模型的大型维基百科语料库训练时,使用256个TPU V4所需时间也非常短,只需1.82分钟,比使用4096 TPU V3所需0.39分钟要慢近2分多钟,同时要比2048张A100卡和512台Epyc 7742 CPU内核组合来用0.81分钟要慢很多。
除了用于读取网页和图像等多种数据类型MUM模型(Multitask Unified Model),还有一款专门设计用于对话LaMDA(Large Language Model Dialogue Applications)都是能够利用到TPU V4优势的地方。而且,这些模型都远远超过了传统BERT模型强大,因此它们在实际应用中将会发挥巨大的作用,如帮助用户高效找到他们想要信息一样或与人类进行不间断对话交流。
此外,由于这种并不向外出售但内部部署于Google数据中心中的AI处理器占据70%以上能源来自可再生资源而非化石燃料,而且预计未来90%以上将来源绿色能源,使得整个项目不仅提供极高效率,还保证了环境友好性。此外,虽然目前只供内部使用,但计划在今年晚些时候开放给Cloud客户使用,让更多企业享受其高速、高效的人工智能解决方案。