难道不是芯片内部结构图的优化满足了2020年15亿个AI终端市场需求的定制趋势吗

随着AI算法的逐步成熟以及芯片算力的提升，历经几年的热潮之后，AI技术只有落地应用才能获得进一步的发展。不过，算法需求与芯片算力不匹配的需求成为了AI落地的一大障碍，AI软硬一体化成为关键。但在软硬一体化提高效率的同时，如何满足多样化的需求也非常关键，定制化成为了趋势。

AI终端市场的多样化需求

这一轮AI热潮，不仅让越来越多的人认识和了解了AI技术，AI也正在成为每台智能设备日常工作的一部分。事实证明，深度神经网络(DNN)非常有用，但是AI的进一步发展和落地仍有很多挑战。比如，如何使得现有解决方案跟上发展趋势？如何扩展解决方案？如何以成熟的工具链缩短TTM（Time to Market）和降低成本？

面对这些问题，我们需要整个产业链协作共同满足市场要求。在全球范围内到2022年，由于计算机视觉/机器视觉相继出现规模将超过15亿个，这包括智能手机、安防、消费电子、汽车图像传感器、工业等。这就意味着，在边缘端实现更好的数据处理能力是当前的一个重要任务，而这正是CEVA营销副总裁Moshe Sheier所强调的问题，即数据量太大且运算太复杂。

CEVA营销副总裁Moshe Sheier

破解带宽难题

在采访中,Moshe Sheier指出，对于这些挑战，他认为最直接有效的手段就是加强与芯片公司之间合作，使得设计能够更好地满足算法要求。他还提到，“我们希望看到更多来自算法公司对于我们设计师团队提出具体建议，以便我们的产品能更加符合他们实际使用情况。”

他特别提到了视频DSP在此过程中的作用，并且认为“视频DSP在这个新时代中扮演着至关重要角色”，因为它可以帮助处理复杂的事务，如物品分割检测分类等高级功能。NeuPro-S系列处理器通过其独特架构，将NPS1000, NPS2000, 和NPS4000预配置为各自拥有1000, 2000及4000个8位MAC单元，每种型号都支持不同的神经网络模型，同时提供了高度可扩展性。

根据官方信息，与之前版本相比，其性能平均提升50%，内存带宽和功耗分别降低40%和30%。

这种性能提升主要来源于硬件还是软件优化？Moshe Sheier回答说：“主要是由硬件因素决定，因为我们增加了离线权重压缩以及硬件权重解压缩。”他解释说，这是因为尽管图片很小，但卷积后的数据量巨大，因此带宽成了一个瓶颈。而CEVA采用了多重权重压缩减少对带宽依赖。

除了支持多级内存系统，还加入L2缓存支持，让用户可以尽可能把数据放在L2中减少外部SDRAM使用，从而降低传输成本。

因此，在NeuPro-S上进行的是带宽优化，以达到理论利用率。在设计时，最关注的问题就是乘法利用率。借助丰富经验所创造出的神经网络引擎理论乘法利用率80%-90%，虽然实际可能略低于理论值，但NeuPro-S增大的带宽能减少数据等待时间提高乘法利用率。

最终，它们能够对边缘设备中的视频图像进行分割检测分类，为系统感知提供显著提升。此外，它还支持多级内存系统以减少高成本传输，以及各种压缩选项和异构可扩展性，以应对不同场景下不断变化的情况。

目前，该架构已经经过车规验证，并已授权给领先客户用于汽车摄像头应用领域。

定制并非简单追求速度，而是一种针对特定场景下的精细调整策略，可以通过单个统一架构实现不同组合，如结合CEVA-XM6视觉DSP或NeuPro-S内核或定制引擎。这不仅允许我们通过不同的组合适应市场需要，而且还有统一软件平台，有助于降低开发者部署难度，同时又能节省开发者的资源投入。此外，还能简化加速器开发者软件开发流程，使得CDNN框架开放给所有人使用，无论是否为原厂制造商，都能无缝集成自己的驱动集成到框架之中，将来完全会全面优化增强层次提升效率。

最后，我们要记住做出简单但灵活、高效并且易于整合到任何平台上的产品并不容易，而这正是今天科技界竞争最激烈的地方。

标签：智能化方案

难道不是芯片内部结构图的优化满足了2020年15亿个AI终端市场需求的定制趋势吗

猜你喜欢

强力推荐