中国芯片制造水平现状难道不应该面对2020年15亿个AI终端的市场需求而定制AI芯片吗
随着AI算法的逐步成熟以及芯片算力的提升,历经几年的热潮之后,AI技术只有落地应用才能获得进一步的发展。不过,算法需求与芯片算力不匹配的需求成为了AI落地的一大障碍,AI软硬一体化成为关键。但在软硬一体化提高效率的同时,如何满足多样化的需求也非常关键,定制化成为了趋势。
这轮AI热潮,不仅让越来越多的人认识和了解了AI技术,AI也正在成为每台智能设备日常工作的一部分。事实证明深度神经网络(DNN)非常有用,但是AI的进一步发展和落地仍有很多挑战。比如如何使得现有解决方案跟上发展趋势?如何扩展解决方案?如何以成熟的工具链缩短TTM(Time to Market)和降低成本?
面对这些问题,我们需要整个产业链协作共同满足市场需求。根据市场研究机构报告到2022年全球具有计算机视觉/机器视觉相继规模将超过15亿个,这包括智能手机、安防、消费电子、汽车图像传感器、工业等。这就意味着定制化的AI加速器可以更好地满足市场不同需求,但与此同时边缘端中的数据量太大且运算太复杂,对于芯片设计者来说是一个巨大的挑战。
CEVA营销副总裁Moshe Sheier认为,在边缘中遇到的问题是数据量过大且运算复杂,而这个问题正是由带宽所限制。他表示,当我们做落地项目时受困于硬件不足的问题,就可能牺牲一些特性,所以希望能向芯片公司提出更多要求,让设计能够更好地满足我们的需要。
对于效率的问题,他提到了是否专用还是通用的chip,以及视频DSP在这一领域极其重要,因为即使现在有些人只采用一种神经网络,但实际上他们会进行组合。如果运行多个神经网络模型,那么CPU可能就会面临瓶颈。而基于对流行神经网络特征理解,他们推出了第二代NeuPro-S系列处理器,它们是预配置处理器,每一个周期分别拥有1000,2000或4000个8位MAC,可以提供最高12.5 TOPS性能,并且完全可扩展至100 TOPS。
这种性能提升主要来自硬件优化,因为他们增加了离线权重压缩和硬件权重解压缩。在神经网络中,与视频编解码不同,即便小图片卷积后权重数据量很大,因此带宽成了瓶颈。而通过多重权重压缩减少对带宽依赖,并支持多级内存系统,比如L2缓存减少使用外部SDRAM传输成本。
Moshe Sheier指出,他们主要关注的是乘法利用率,因为理论乘法利用率在80%-90%,但实际利用率会低于理论值,只要NeuPro-S带宽增大就能提高乘法利用率,最终能够显著提高系统感知性能。此外,他们还支持CDNN-Invite API,将于2019年底普遍授权许可,为开发者提供更加开放的心态,让集成和应用变得容易,同时降低成本,对于未来的发展意义重大。