芯片大国之争Google TPU v4如同雄鹰俯冲单机性能超越世界第一超算的双翼翱翔

Google I/O开发者大会在疫情的阴影下重燃希望，线上形式的回归标志着科技巨头对未来创新战略的一次重大布局。在没有开发者亲临场地的情况下，Google CEO桑达尔·皮查伊（Sundar Pichai）带领团队宣布了一系列革命性的技术，其中包括全息视频聊天技术Project Starling和最新一代AI芯片TPU v4。

TPU v4：速度翻倍、性能十倍的强大AI加速器

Google官方介绍，TPU v4相比于前一代TPU v3，在相同规模64芯片配置下，其性能平均提升了2.7倍。与此同时，每个Pod中包含4096个单独的TPU v4芯片，这些芯片通过独特的互连技术能够形成一个系统，其互连带宽远超其他任何网络技术。这使得每一个Pod都能达到1 exaFlOP级别算力，即全球最快超级计算机“富岳”的两倍水平。

如果将1千万台笔记本电脑累计计算能力进行比较，我们会发现这相当于1 exaFLOP。之前要达到这样的算力，通常需要定制专门用于超级计算的大型机。而现在，这一切都可以由256个TPU v4完成，就像768块Nvidia A100图形卡、192块AMD Epyc 7742内核或512块华为AI优化Ascend910芯片以及128块Intel Xeon Platinum 8168内核组合起来一样快速。

MLPerf测试结果显示，使用ImageNet数据集进行图像分类训练测试时，256个TPU v4仅需1.82分钟，而使用768个Nvidia A100图形卡、192个AMD Epyc 7742内核或128个Intel Xeon Platinum 8168内核所需时间分别是1.06分钟、0.39分钟和0.81分钟。对于BERT模型在大型维基百科语料库上的训练任务而言，与使用4096 TPU V3相比，虽然以2048张A100卡和512 AMD Epyc 7742 CPU内核为基础可实现更短时间，但仍然落后于256 TPU V4。

多种AI应用利用Google自研TPU

除了其极高的性能外，Google展示了多种实际应用案例，如MUM模型（Multitask Unified Model），该模型能够处理网页、图像等多种数据类型，并且拥有阅读理解模型BERT强度近乎10倍；LaMDA是一个专为对话设计的人工智能，它能够与人类进行不间断交流。这两款基于新的硬件支持，以往无法实现的事情如今变得轻而易举。

自2016年首次推出第一代内部定制AI芯片以来，每隔一年更新一次新一代产品，如第二代（2017）、第三代（2018）和第四代（2021）。这一迭代周期体现了Google在AI领域持续创新并保持竞争力的决心。此外，由于90%以上的这些新设备将运行绿色能源，因此也展现了公司环保意识的一部分。此设备预计今年晚些时候将开放给云服务客户使用。

标签：市场细分的方法、安卓软件商店、地摊货批发网、市场翻译、十大批发网站进货