闪耀智慧含光800 AI处理器登场三大应用领域GPU之上性能霸主

2019年杭州云栖大会上，阿里巴巴集团首席技术官兼阿里云智能总裁张建锋在简短的介绍中推出了阿里的首款AI芯片——含光800。这款当时最强的AI推理芯片的发布不仅引发了巨大的关注，也可谓是高调亮相。今年，在阿里线上云栖举行的一个芯片设计发展现状与未来的论坛，阿里云异构计算产品研发总监龙欣分享了含光800推出近一年后的最新进展。

他表示：“含光800 NPU实例已经正式对外服务，不需要白名单就可以在阿里云实例上购买，实例名称是ebman1.24xlarge，最多支持8核NPU和96核vCPU，384G内存，网络带宽最高达到30Gbit/s。”这些配置主要面向数据中心的CNN类型模型推理加速，业务包括城市大脑、图像视频审核以及拍立淘等。

更令人关注的是含光800在具体应用中的表现。在去年的文章中提到过科技巨头自研芯片是因为有大量数据，在内部的AI需求推动下，他们希望通过自研芯片来提升效率和性价比。周五的线上分享中，龙欣也表明了这一点，他说：“我们内部有广阔的AI应用场景，从电商应用、视觉应用、语音交互、自然语言理解到机器翻译等。”

一个典型案例就是拍立淘，它拥有两千多万日活用户，这些用户使用该功能时要透过一张图片，在4亿多商品中进行搜索，以及在30多亿张图片库中进行匹配，并根据用户习惯提供个性化推荐。这就需要很强大的AI能力。因此，阿里希望通过自研硬件方案从硬件到软件提升其性价比。

简单回顾一下，我们知道含光800在硬件方面有三个特色：深度优化CNN及视觉类算法，加速卷积和矩阵乘，以及针对ResNet-50、SSD/DSSD、Faster-RCNN/Mask-RCNN/DeepLab等模型优化。此外，它还具有高能效、高密度计算与存储特点，以极大减少I/O需求，同时支持权重稀疏压缩和量化压缩，以及指令集支持可编程模型扩展。

去年，当张建锋发布含光800时，他展示了它在业界标准ResNet-50测试中的性能，即78563 IPS，比目前业界最好的AI芯片性能高4倍；而且能效比为500 IPS/W，是第二名3.3倍之高。不过昨天龙欣并没有提及含光800峰值性能，而是强调其可用性。他表示：“作为一个并没有公开市场发售的芯片，我们让它通过Arab Cloud输出。”为了让其开箱即用，他们允许购买实例上的用户自动安装NPU驱动和SDK，并预装主流深度学习框架，如TensorFlow和MXNet。

至于实际应用中的性能提升情况，上述三大场景显示了四至十一倍于GPU之上的优势。在城市大脑处理视频延迟从300ms降至150ms；拍立淘商品库每天新增10亿商品图片识别时间由传统GPU需1小时降至5分钟；行人检测视频数量由25路增至100路；车辆检测视频数量由10路增至85路；以及内容识别帧率增加11倍。在直播质量增强方面，其FPS从460提高到了5000 FPS，对比主流GPU为10.8倍加速。而且，在HDR点播上，其FPS为66 FPS，比A100训练GPU快6.6倍。