阿里含光800 AI处理器在全球十大半导体公司中高调亮相三大场景人物应用性能超越GPU提升4-11倍

在2019年的杭州云栖大会上，阿里巴巴集团首席技术官兼阿里云智能总裁张建锋简短介绍了阿里的首款AI芯片含光800，这次发布引发了巨大的关注，确实是一场高调的亮相。

今年的线上云栖大会有一个芯片设计发展现状与未来的论坛，阿里云异构计算产品研发总监龙欣分享了含光800推出近一年后的最新进展。他表示：“含光800 NPU实例已经正式对外服务，不需要白名单就可以在阿里云实例上购买，实例名称是ebman1.24xlarge，最多支持8核NPU和96核vCPU，384G内存，网络带宽最高达到30Gbit/s，主要面向数据中心的CNN类型模型推理加速。”更令人关注的是含光800在具体应用中的表现。

虽然含光800还未对外发售，但其性能通过阿里云输出。正如去年雷锋网所说，科技巨头自研芯片是因为有大量数据，在内部的AI需求推动下，他们希望通过自研芯片来提升效率和性价比。周五的线上分享中，龙欣也表示，阿里巴巴内部有广阔的AI应用，如电商应用、视觉应用、语音交互、自然语言理解、机器翻译等。

拍立淘作为一个典型案例，它需要透过一张图片，在4亿多商品中搜索，在30多亿张图片库中进行匹配，并根据用户使用习惯进行个性化推荐，这就需要很强的AI能力。因此阿里希望通过自研的含光800从硬件到软件方案提升性价比。

简单回顾一下，当时包含三个方面特色：深度优化CNN及视觉类算法，加速卷积和矩阵乘，以及针对ResNet-50、SSD/DSSD、Faster-RCNN/Mask-RCNN/DeepLab等模型优化。除此之外，还包括高能效低延时、高密度计算与存储减少I/O需求，以及软硬协同支持权重稀疏压缩和量化压缩指令集支持可编程模型扩展。此外，还覆盖FP16/BFP16向量计算直接加速各种激活函数，同时保持一定灵活性，以适应未来新型激活函数。

去年发布时，“在业界标准ResNet-50测试中”，“78563 IPS，比目前业界最好的AI芯片性能高4倍；能效比500 IPS/W，是第二名3.3倍”。不过昨天分享没有提及峰值性能，而是强调其可用性，他表示：“作为并没有在公开市场发售的芯片，我们通过Arli Cloud 输出。”

为了让含光800能够开箱即用，该公司提供自动安装NPU驱动和SDK系统方面支持公共镜像CentOS 7.6/7.7和Ubuntu 16.04，并预装主流深度学习框架提供TensorFlow/MXNet示范教程。在三大场景（城市大脑、大规模端侧）的人物识别任务中，其性能提升为4-11倍。这意味着对于行人检测应用，由于它可以处理100路视频，对比主流GPU25路视频，有着显著优势。在车辆检测中，它可以处理85路视频，对比主流GPU10路视频也有显著优势。而且，在直播或点播内容质量增强项目中的帧率为500 FPS，与主流GPU50 FPS相较之下，为10倍快。