在社会的舞台上Imagination性能高达600 TOPS的终极AI加速器将如何挑战Nvidia芯

在科技的浪潮中，Imagination Technologies，一度统治着手机GPU IP市场，现在以36%的市场占有率继续影响移动GPU领域。其在汽车GPU领域更是领先，占据43%的市场份额。近期，Imagination发布了经过两年研发的新一代神经网络加速器（NNA）产品IMG Series4，这款全新的多核架构性能强大，可提供600 TOPS甚至更高的超高性能，主要针对先进驾驶辅助系统（ADAS）和自动驾驶应用。

作为低功耗专家，Imagination推出了一个极具挑战性的终极AI加速器，其性能如何面对自动驾驶汽车芯片市场领导者的Nvidia？这次发布的是耗时两年的终极AI加速器，它是在2017年推出首代神经网络加速器PowerVR 2NX后，由于单核性能从1TOPS提升到4.1TOPS，再由2018年的PowerVR 3NX单核性能从0.6TOPS增至10TOPS，并且多核产品从20TOPS增加到160TOPS。

第三代NNA产品4NX不仅保持了前两代所展现出的巨大增长，也更加注重全新的多核架构，每个单核能够以不到1瓦功耗提供12.5 TOPS 的表现力。这一次设计支持灵活分配和同步工作负载，使得每个集群可以配置2、4、6或8内核，每个8内核集群可达100 TOPS，而配有六个这样的集群则能达到600 TOPS。

Gilberto Rodriguez表示：“我们的软件提供精细控制能力，并通过批处理、拆分和调度提高灵活性，可以在任意数量内核上使用。”该系列不仅比嵌入式GPU快20倍以上，比嵌入式CPU快1000倍，而且满足L2+级别驱动员检测及语音/手势控制需要10 TOPS，而L3-L4级别自动驾驶需求50-100 TOPs，以及L5级别500+ TOPs。

Andrew Grant解释说：“虽然已经存在满足自动驾驶需求的AI芯片，但它们通常功耗过大。我们基于客户需求，在低功耗基础上开发出了高性能低功耗的4NX系列产品，同时也适用于数据中心和桌面级GPU。”

尽管实现了高性能与低功耗并存，但对于这一目标来说，还有一些技术上的挑战。例如，当处理大量数据时，对带宽要求很高。此时，就需要采用Tensor Tiling技术来减少带宽使用。在这个过程中，将特征图融合到硬件流水线中的不同层次，以此减少外部存储交换，从而节省带宽。此外，该技术还允许将任务分成小型网络进行并行处理，从而进一步降低延迟。

对于是否能有效减少数据搬移的问题，Gilberto Rodriguez回答说：“答案是肯定的。一方面Tensor Tiling让待处理数据通过内存带宽传输减少；另一方面利用重复使用神经网络权重给处理器核心传输次数也减少，这样就可以有效地减少数据搬运。”

由于Imagination是一家IP供应商，不直接生产芯片，因此它可以与领先的车辆行业颠覆者、一级供应商以及整车厂合作，为这些公司提供竞争力的解决方案。此次推出的Series 4 NNA包括IP安全功能，并符合ISO 26262标准，以确保安全地进行神经网络推理，同时保护编译后的网络及其执行过程免受攻击。

随着授权开始并计划2020年底全面进入市场，此款新产品预计将成为紧迫挑战Nvidia的地标性事件之一。在智能化不断发展的大背景下，看似只是简单的一个终极AI加速器，却可能引发深远的人工智能革命。而对于追求卓越效率与安全性的用户来说，他们无疑会期待更多关于这种革命性的故事发生。