难道不是芯片内部结构图的优化满足了2020年15亿个AI终端市场需求的定制趋势吗
随着AI算法的逐步成熟以及芯片算力的提升,历经几年的热潮之后,AI技术只有落地应用才能获得进一步的发展。不过,算法需求与芯片算力不匹配的需求成为了AI落地的一大障碍,AI软硬一体化成为关键。但在软硬一体化提高效率的同时,如何满足多样化的需求也非常关键,定制化成为了趋势。
AI终端市场的多样化需求
这一轮AI热潮,不仅让越来越多的人认识和了解了AI技术,AI也正在成为每台智能设备日常工作的一部分。事实证明,深度神经网络(DNN)非常有用,但是AI的进一步发展和落地仍有很多挑战。比如,如何使得现有解决方案跟上发展趋势?如何扩展解决方案?如何以成熟的工具链缩短TTM(Time to Market)和降低成本?
面对这些问题,我们需要整个产业链协作共同满足市场要求。在全球范围内到2022年,由于计算机视觉/机器视觉相继出现规模将超过15亿个,这包括智能手机、安防、消费电子、汽车图像传感器、工业等。这就意味着,在边缘端实现更好的数据处理能力是当前的一个重要任务,而这正是CEVA营销副总裁Moshe Sheier所强调的问题,即数据量太大且运算太复杂。
CEVA营销副总裁Moshe Sheier
破解带宽难题
在采访中,Moshe Sheier指出,对于这些挑战,他认为最直接有效的手段就是加强与芯片公司之间合作,使得设计能够更好地满足算法要求。他还提到,“我们希望看到更多来自算法公司对于我们设计师团队提出具体建议,以便我们的产品能更加符合他们实际使用情况。”
他特别提到了视频DSP在此过程中的作用,并且认为“视频DSP在这个新时代中扮演着至关重要角色”,因为它可以帮助处理复杂的事务,如物品分割检测分类等高级功能。NeuPro-S系列处理器通过其独特架构,将NPS1000, NPS2000, 和NPS4000预配置为各自拥有1000, 2000及4000个8位MAC单元,每种型号都支持不同的神经网络模型,同时提供了高度可扩展性。
根据官方信息,与之前版本相比,其性能平均提升50%,内存带宽和功耗分别降低40%和30%。
这种性能提升主要来源于硬件还是软件优化?Moshe Sheier回答说:“主要是由硬件因素决定,因为我们增加了离线权重压缩以及硬件权重解压缩。”他解释说,这是因为尽管图片很小,但卷积后的数据量巨大,因此带宽成了一个瓶颈。而CEVA采用了多重权重压缩减少对带宽依赖。
除了支持多级内存系统,还加入L2缓存支持,让用户可以尽可能把数据放在L2中减少外部SDRAM使用,从而降低传输成本。
因此,在NeuPro-S上进行的是带宽优化,以达到理论利用率。在设计时,最关注的问题就是乘法利用率。借助丰富经验所创造出的神经网络引擎理论乘法利用率80%-90%,虽然实际可能略低于理论值,但NeuPro-S增大的带宽能减少数据等待时间提高乘法利用率。
最终,它们能够对边缘设备中的视频图像进行分割检测分类,为系统感知提供显著提升。此外,它还支持多级内存系统以减少高成本传输,以及各种压缩选项和异构可扩展性,以应对不同场景下不断变化的情况。
目前,该架构已经经过车规验证,并已授权给领先客户用于汽车摄像头应用领域。
定制并非简单追求速度,而是一种针对特定场景下的精细调整策略,可以通过单个统一架构实现不同组合,如结合CEVA-XM6视觉DSP或NeuPro-S内核或定制引擎。这不仅允许我们通过不同的组合适应市场需要,而且还有统一软件平台,有助于降低开发者部署难度,同时又能节省开发者的资源投入。此外,还能简化加速器开发者软件开发流程,使得CDNN框架开放给所有人使用,无论是否为原厂制造商,都能无缝集成自己的驱动集成到框架之中,将来完全会全面优化增强层次提升效率。
最后,我们要记住做出简单但灵活、高效并且易于整合到任何平台上的产品并不容易,而这正是今天科技界竞争最激烈的地方。