机器人

Arm全新NPU性能提升4倍支持Transformer边缘生成式AI时代指日可待

生成式AI在经历了火热的百模大战之后,开始进入落地阶段。

以工业机器视觉、可穿戴设备和消费者机器人为代表的边缘应用,无疑是生成式AI落地的重要场景。

本周,Arm宣布推出了性能相比前代提升4倍的Arm Ethos-U85神经网络处理器 (NPU),这是一款硬件支持Transformer 架构和卷积神经网络 (CNN)的AI加速器,能够以高能效实现边缘侧AI推理。

Arm物联网事业部业务拓展副总裁马健表示,“生态系统中的开发者在树莓派设备上评估运行包括 LLaMA 等在内的大模型。边缘部署大模型和生成式AI用例指日可待,Arm已经为此做好准备。”

全新NPU原生支持Transformer 

Ethos-U NPU系列是Arm推出的AI微加速器,主要是满足边缘边缘AI和嵌入式AI的市场需求,此前已经发布了Ethos-U55、Ethos-U65,并且已经有多个量产产品。

本周最新发布的Ethos-U85,与上一代产品相比,Ethos-U85 性能提升4倍,同时能效提高了20%,可以满足工厂自动化和商用或智能家居摄像头等物联网应用不断攀升的性能需求。

Ethos-U85的主要特性包括:

  • 单周期支持从 128 到 2048 个 MAC单元的配置——在 1GHz 时,算力可支持从 256 GOPS 到 4 TOPS。
  • 支持 int8 权重和 int8 或 int16 激活。
  • 支持 Transformer 架构网络,以及 CNN 和 RNN。
  • 硬件原生支持 2/4 稀疏性,使吞吐量翻倍。
  • 内部 SRAM 为 29 至 267 KB,多达六个 128 位 AXI5 接口。
  • 支持权重压缩,采用标准和快速权重编码器。
  • 支持扩展压缩。

对于Arm来说,设计出一款高性能的产品难度不大,关键在于产品的定义,Ethos-U85相比此前同系列产品一个明显的不同是支持Transformer模型。

具体实现上,Ethos-U85除了支持Ethos-U55和Ethos-U65 目前支持的算子,通过支持TRANSPOSE、GATHER、MATMUL、RESIZE BILINEAR和 ARGMAX等运算,Ethos-U85实现了对Transformer模型和DeeplabV3语义分割网络的原生硬件支持。

更高的性能往往意味着更高功耗,为了兼顾性能和能效,更好满足边缘和端侧AI应用的需求,Ethos-U85通过支持元素级算子链化提升效率。

通过链化将元素级运算与先前的运算相结合,SRAM不必先写入再读取中间张量。由此减少NPU和内存之间数据传输量,提高NPU的效率。

相比Ethos-U65,链化是Ethos-U85在效率提升上的新功能之一,此外还有快速的权重编码器、优化的 MAC 阵列能效,以及提升的元素效率。

参考设计加速边缘生成式AI落地

目前,Arm Ethos NPU系列产品已有逾20家授权许可合作伙伴,Alif Semiconductor和英飞凌是全新Arm Ethos-U85 NPU的早期采用者。

对于大量边缘设备的开发者来说,基于Arm Ethos-U85 NPU开发和设计产品依旧有比较高的开发门槛。

降低AI开发门槛最一个直接的方式就是提供参考设计。

与Ethos-U85同时推出的是Arm Corstone-320物联网参考设计平台。这一全新的参考设计平台集成了Arm最高性能的Cortex-M CPU——Cortex-M85、Mali-C55 ISP和全新的Ethos-U85 NPU。

除了IP,Corstone-320物联网参考设计平台还有软件套件,包括固件、所有 IP 的驱动程序、中间件、实时操作系统 (RTOS) 和云集成、ML 模型和参考应用程序。

有了配套的软件套件,软件开发者能够轻松选择其特定细分市场所需的组件,并使用所选开发工具为该设备构建物联网堆栈。开源应用程序演示了关键词识别、语音识别和目标识别用例。

还附带了仿真Corstone-320完整系统的Arm虚拟硬件(Arm Virtual Hardware),以及单独的 CPU和NPU的固定虚拟平台 (FVP) 模型,能简化开发并加速产品设计,支持软硬件并行协同开发。

为了支持中国广大的物联网嵌入式开发者,我们将Arm虚拟硬件落地在了百度云上,正在实现与百度BML和EasyDL工具链的组合,使基于Arm技术的AI开发可以在百度飞桨 (PaddlePaddle)上变得更加容易,且实现软硬件协同开发。”马健说,“在基于 Arm 最新 IP 量产芯片就绪之前,就可以预先做软件应用的开发以及 AI/ML 算法的开发和优化。”

Arm在软件和生态方面还有一个显著的优势,那就是Arm 在数据中心、云、边、端都有统一的工具链支持,开发者可以使用已经熟知的工具链,具有投资复用、上手容易等优势。

Corstone-320能够加速语音、音频和视觉系统,比如智能家居、智能零售、智能工业制造领域的AI落地。

即便Corstone-320中的Cortex-M85不满足边缘AI的需求,Arm也支持从基于 Cortex-A 的系统直接驱动 Ethos-U85 的功能,大幅增加Ethos-U85的适用范围。

如何应对碎片化和RISC-V挑战?

性能提升4倍的全新NPU和全新的参考设计平台,是Arm能够对外提供的能力。

但要在边缘市场落地生成式AI,依旧面临着模型成熟度、边缘AI平台的开发,以及生态链对大模型量化和部署支持的问题。

还有不可避免的边缘市场碎片化的问题,以及RISC-V的竞争。

马健说,“Arm始终聚焦软件生态标准以及硬件标准的投入,帮助整个生态减少碎片化。”

比如,Arm建立了SystemReady标准,以实现在不同的Arm计算平台和芯片平台上,有标准的软件包。

另外,Arm还创立了PSA Certified认证标准,让通过PSA Certified 认证的产品和系统有最基本的安全和合规的保证。

AI方面,Arm提供标准的生态工具以及软件工具链。

“期待未来通过大模型和多模态,物联网碎片化问题可以得到更好的改进。AI 会从单一功能到多功能,甚至是向通用AI的方向演进。”马健也表示。

至于如何应对RISC-V在边缘AI市场的竞争?

马健对雷峰网(公众号:雷峰网)说,“我们的战略一直非常简单,专注做好最优秀的产品,使产品更加易用,以及持续打造强大的生态系统。历史经验告诉我们,只要我们专注做好这三件事情,整个行业就能够以互相合作的方式来共同前进,我们会继续坚持这一策略,在AI甚至未来的其他市场上取得更大的成功。”