台积电之所以这么厉害就像Google TPU v4发布时的里程碑一样单个工厂产能就像超算性能的两倍

Google I/O开发者大会在疫情的影响下取消了去年的线上形式，这年份它以强势回归的姿态展开。在没有开发者亲临场地的Google园区中，CEO桑达尔·皮查伊宣布了一系列令人瞩目的新技术，其中包括能够实现“空间瞬移”的全息视频聊天技术Project Starling，以及最新一代AI芯片TPU v4。

TPU v4：速度提升两倍，性能增强十倍

Google官方介绍指出，在64芯片规模相同的情况下，不考虑软件优化，TPU v4相比于前一代TPU v3性能提升2.7倍。这使得每个Pod中的4096个单芯片能够集成为一个系统，其互连带宽远超其他任何网络技术，每个Pod可达到1 exaFlOP级算力，是全球最快超级计算机“富岳”性能的两倍。

如果有100万台笔记本电脑同时运作其计算能力，将会达到1 exaFLOP。之前要达成这个水平需要定制一个专用的超级计算机。今年MLPerf结果显示，Google TPU v4实力显著，在ImageNet数据集图像分类训练测试（至少75.90%准确度）上256个TPU v4仅需1.82分钟，与768张Nvidia A100、192张AMD Epyc 7742内核、512块华为AI优化Ascend910以及128块Intel Xeon Platinum 8168组合起来所需时间相当。

在BERT模型训练上，使用256个TPU v4需要1.82分钟，比使用4096 TPU v3短0.39分钟，但仍比2048张A100卡和512个AMD Epyc 7742 CPU内核共用0.81分钟慢较多。除了MUM模型和对话系统LaMDA等应用外，这些新的AI实例也将利用到这些先进硬件。