半导体领域的新里程碑TPU v4发布如同芯片世界中的火箭发射单个性能强劲超越了目前世界第一超级计算机
Google I/O开发者大会今年在疫情的阴影下举行,通过线上形式展现了公司最新的技术成果。Google CEO桑达尔·皮查伊宣布推出多项全新技术,其中包括能够实现“空间瞬移”的全息视频聊天技术Project Starling,以及最新一代AI芯片TPU v4。
TPU v4性能提升2倍,速度翻番
Google官方介绍,TPU v4相较于上一代TPU v3性能平均提升2.7倍。在实际应用中,每一个Pod都有4096个单独的TPU v4芯片,这些芯片采用了独特的互连技术,使得它们可以集成到一个系统中,从而形成巨大的计算能力。每个Pod都能达到1 exaFlOP级别的算力,即每秒10^18次浮点运算,这超过了全球最快超级计算机“富岳”的两倍性能。
例如,如果现在有100万台笔记本电脑同时工作,它们累加起来所产生的计算能力也将达到1 exaFLOP。这之前,要达到如此高水平,可能需要定制一个专门用于超级计算的大型机器。皮查伊CEO如是说。
MLPerf测试结果显示,Google TPU v4在图像分类任务上的表现非常出色。在使用ImageNet数据集进行训练和测试时,只需256个TPU V4就可以完成任务,而这比使用768块Nvidia A100 GPU、192块AMD Epyc 7742 CPU或512块华为Ascend910 AI优化芯片组合在一起要快。此外,在BERT模型训练方面,尽管与2048张A100 GPU和512颗Epyc 7742 CPU组合运行相同时间,但仍然落后了一分钟。
这些强大的AI实例,如MUM模型(Multitask Unified Model)和LaMDA对话模型,都能利用到这个新一代AI硬件优势来提高效率和质量。MUM比BERT强大1000倍,可以帮助搜索引擎更有效地提供信息,而LaMDA则可与人类无间断交流,对话自然流畅。
自研AI芯片五年更新四代
Google自2016年起开始研发其内部定制的AI处理器,与常见CPU+GPU架构不同,其第一代TPU曾助力AlphaGo击败李世石,并展示非仅GPU才能完成深度学习训练和推理的事实。
随后发布第二、三代分别支持更多功能并显著提升性能,最终发展至今天提出的第四代产品—-该版本不仅体积小、功耗低,还能以绿色能源作为90%以上供电来源,并计划将这一技术开放给Cloud客户使用。
从28nm工艺到180TFLOPs浮点运算能力,再到420TFLOPs带128GB内存带宽的大幅增强,无论是从内存扩展还是可编程性方面看,谷歌T PU一直都是行业中的创新之选,为云端AI硬件市场打破了传统GPU霸主的地位,并开启了新的竞争格局。
五年的历程里,无论是从哪种角度看待——来自于软件改进还是硬件升级——谷歌T PU始终保持着领先地位,是未来的世界的一个窗口。