中国芯片制造水平现状阿里含光800 AI处理器闪耀亮相三大场景实测性能超越GPU爆表4-11倍提升

2019年杭州云栖大会上，阿里巴巴集团首席技术官兼阿里云智能总裁张建锋在简短的介绍中披露了阿里的首款AI芯片含光800，这款当时最强大的AI推理芯片的发布极大地吸引了人们的关注。如今，在今年的线上云栖大会上，阿里云异构计算产品研发总监龙欣分享了含光800推出近一年后的最新进展。

据龙欣介绍，含光800 NPU实例已经正式对外服务，不需要任何白名单即可在阿里云实例上购买。这些实例支持8核NPU和96核vCPU、384G内存以及网络带宽最高达到30Gbit/s。主要面向数据中心的CNN类型模型推理加速，其业务包括城市大脑、图像视频审核以及拍立淘等。

更令人关注的是，尽管含光800尚未对外发售，但其性能通过阿里云输出已为人所知。在去年的文章中提到过，由于有大量内部数据和AI需求驱动，科技巨头自研芯片旨在提升效率和性价比。而在周五的线上分享中，龙欣进一步解释指出，除了电商应用、视觉应用、语音交互和自然语言理解等众多领域，还有一个典型案例就是拍立淘，它每天新增10亿商品图片，以此来进行个性化推荐，这就要求极高级别的人工智能能力。

为了提升硬件与软件方案之间的协同效应，使得含光800能够实现从硬件深度优化至软件层面的全方位支持。具体而言，该处理器特点包括：针对CNN及视觉类算法进行深度优化，加速卷积与矩阵乘操作，同时支持反卷积、孔洞卷积、3D卷积及插值等；针对ResNet-50/SSD/DSSD/Faster-RCNN/Mask-RCNN/DeepLab等模型进行优化，以及提供高能效、高密度计算与存储以减少I/O需求，并且软硬协同支持权重稀疏压缩和量化压缩。此外，它还具备指令集设计，可编程模型扩展，以及覆盖INT8/INT16量化加速并同时直接加速FP16/BFP16向量计算除直接加速各种ReLu/Sigmoid/Tanh激活函数之外，也可预见未来新型激活函数的情况。

去年，当张建锋宣布含光800时，他表示该处理器在业界标准ResNet-50测试中的推理性能达到78563 IPS，比目前业界最好的AI芯片性能高4倍；能效比500 IPS/W，是第二名的3.3倍。但是在昨天举行的一场论坛中，没有提及具体峰值性能，而是强调其可用性，即便作为没有公开市场销售但通过阿里云输出的事物，它也被设计成可以开箱即用，从安装NPU驱动到SDK系统方面都提供公共镜像CentOS 7.6/7.7或Ubuntu 16.04，并预装主流深度学习框架，如TensorFlow/MXNet示范教程。

至于实际应用表现方面，在三大场景中相较GPU显示出了4-11倍以上性能提升。在城市大脑应用中使用传统GPU需要40颗延时300ms，而使用含光800仅需4颗延时降至150ms；拍立淘商品库每天新增10亿商品图片，用传统GPU识别需1小时，而用含光800则只需5分钟。此外，在行人检测（100路视频）、车辆检测（85路视频）以及内容识别（帧率20000 FPS, 加速度比11倍）等几个关键任务，都展示了它卓越的地位。

尽管这次共享可能不如去年那么火爆，但更应该看到的是，即使拥有强大的团队迅速设计出一款芯片，大规模落地仍然是一个长期过程，其中软件扮演着更加直接作用，并且获得客户认可采用也不容易。这也是为什么说，无论是当前还是将来的挑战，对于如此重要而复杂的事业来说，每一步都充满风险，只要坚持创新，就有希望克服困难，最终迎来成功。