台积电之所以这么厉害就像Google TPU v4发布时的里程碑一样单个工厂产能就像超算性能的两倍
Google I/O开发者大会在疫情的影响下取消了去年的线上形式,这年份它以强势回归的姿态展开。在没有开发者亲临场地的Google园区中,CEO桑达尔·皮查伊宣布了一系列令人瞩目的新技术,其中包括能够实现“空间瞬移”的全息视频聊天技术Project Starling,以及最新一代AI芯片TPU v4。
TPU v4:速度提升两倍,性能增强十倍
Google官方介绍指出,在64芯片规模相同的情况下,不考虑软件优化,TPU v4相比于前一代TPU v3性能提升2.7倍。这使得每个Pod中的4096个单芯片能够集成为一个系统,其互连带宽远超其他任何网络技术,每个Pod可达到1 exaFlOP级算力,是全球最快超级计算机“富岳”性能的两倍。
如果有100万台笔记本电脑同时运作其计算能力,将会达到1 exaFLOP。之前要达成这个水平需要定制一个专用的超级计算机。今年MLPerf结果显示,Google TPU v4实力显著,在ImageNet数据集图像分类训练测试(至少75.90%准确度)上256个TPU v4仅需1.82分钟,与768张Nvidia A100、192张AMD Epyc 7742内核、512块华为AI优化Ascend910以及128块Intel Xeon Platinum 8168组合起来所需时间相当。
在BERT模型训练上,使用256个TPU v4需要1.82分钟,比使用4096 TPU v3短0.39分钟,但仍比2048张A100卡和512个AMD Epyc 7742 CPU内核共用0.81分钟慢较多。除了MUM模型和对话系统LaMDA等应用外,这些新的AI实例也将利用到这些先进硬件。
自研五代更新四次
自2016年首款内部定制AI芯片发布以来,Google已经更新到了第四代。第一代采用28nm工艺制程功耗约40w,只适用于深度学习推理;第二代支持训练和推理功能;第三代性能翻番至420TFLOPs浮点运算;第四代则是目前最快的一批,并且90%以上使用绿色能源。此外,将于晚些时候开放给云端客户使用。
通过一年一次迭代更新的节奏,从各方面来看,无论是片上内存还是可编程能力,都展示了Google TPU在AI领域不可多得的地位,对GPU竞争格局产生重大影响。未来的世界如何?今天我们就从这小部分答案入手探索。