中国芯片惊天骗局阿里含光800 AI处理器在人物识别场景下性能超越GPU4-11倍
在2019年的杭州云栖大会上,阿里巴巴集团首席技术官兼阿里云智能总裁张建锋简短地介绍了他们的首款AI芯片——含光800,这款当时最强的AI推理芯片的发布引发了巨大的关注。今年,阿里的线上云栖大会中,有一个关于芯片设计发展现状与未来的论坛,在这个论坛上,阿里云异构计算产品研发总监龙欣分享了含光800推出近一年后的最新进展。
龙欣表示:“含光800 NPU实例已经正式对外服务,不需要白名单就可以在阿里云实例上购买,实例名称是ebman1.24xlarge,最多支持8核NPU和96核vCPU,384G内存,网络带宽最高达到30Gbit/s。”他还提到,这款芯片主要面向数据中心的CNN类型模型推理加速,其业务包括城市大脑、图像视频审核、拍立淘等。
更值得注意的是,对于含光800在具体应用中的表现。尽管这款芯片尚未对外发售,但其性能通过阿里云输出。在去年的一篇文章中,我们提到了科技巨头自研芯片是因为有大量数据,在内部的AI需求推动下,他们希望通过自研芯片来提升效率和性价比。周五线上的分享中,龙欣也指出,阿里巴巴内部有广阔的AI应用场景,比如电商应用、视觉应用、语音交互、自然语言理解、机器翻译等。
一个典型案例就是拍立淘,它拥有两千多万日活用户,而这些用户在使用该功能的时候,要从一张图片中,在4亿多商品库中进行搜索,以及30多亿张图片库中进行匹配,并根据用户习惯进行个性化推荐。这需要极强的AI能力,因此阿里希望通过自研硬件方案来提升性价比。
至于含光800,它在硬件方面有三个特点:深度优化CNN及视觉类算法,加速卷积和矩阵乘,同时支持反卷积、孔洞卷积、三维卷积插值以及ROI等操作;高能效低延时、高密度计算与存储减少I/O需求;软硬协同支持权重稀疏压缩计算量化压缩,以及指令集可编程模型扩展。此外,还包括INT8/INT16量化加速以及FP16/BFP16向量计算除直接加速各种ReLu/Sigmoid/Tanh等,也可支持未来新型激活函数。
虽然去年张建锋发布含光800时说,“在业界标准ResNet-50测试中,其推理性能为78563 IPS,比目前业界最好的AI芯片性能高4倍;能效比500 IPS/W,是第二名3.3倍”,但是在昨天分享中并没有提及其峰值性能,而是强调其可用性。他表示,“作为并没有公开市场发售过的芯片,该技术已被整合到Armbian系统之内。”
为了让客户能够开箱即用使用NPU驱动和SDK而不必额外安装,一些系统预装主流深度学习框架提供TensorFlow/MXNet示范教程。此次共享给出的最新数据显示,在行人检测应用中的4核版本,可以处理100路视频,比主流GPU25路性能提升四倍。在车辆检测中的情况也是如此,即4核版本可以处理85路视频,与主流GPU10路相比性能提升八成半倍。而且,在直播内容识别方面,以ResNet50 V2模型为例,由于每秒帧数达20000 FPS,比主流GPU1800 FPS提高11倍,其中Inception V4模型处理帧数达到5000 FPS,将主流GPU460FPS提高十余 倍。在直播增强质量方面,可实现500 FPS,对比50 FPS增加十倍,而HDR点播则以66 FPS执行,从而实现6.6倍速度提升。
不过对于语音交互或自然语言理解领域的情况,没有提供具体数字。雷锋网小结
相较于去年聚焦于包含许多开放性的信息的话题,此次会议似乎略显简单,而且缺乏丰富详细的情境描述。这可能部分由于当前全球贸易紧张局势导致企业更加谨慎地讨论涉及到的敏感话题。不过,更应该看待的是,即使团队能够快速设计出先进设备,但要将其大规模部署仍需长时间过程,这个阶段软件作用尤为重要,同时获得客户认可与采用也不容易。对于未来,如何进一步完善这一系列技术,又会有什么新的突破?我们期待着接下来更多关于这一主题的问题解答。