阿里含光800 AI处理器高调亮相芯片设计师能干一辈子吗其在后三大场景中的落地性能比GPU高出四至十

在2019年的云栖大会上，阿里巴巴集团首席技术官兼阿里云智能总裁张建锋向公众展示了他们的第一款AI芯片——含光800，这一亮相立即引起了巨大的关注。自那以后，一年过去，阿里的异构计算产品研发总监龙欣在今年的线上云栖大会上分享了含光800推出后的一些最新进展。

龙欣表示，尽管含光800尚未对外正式销售，但它已经开始提供NPU实例服务，不需要白名单就可以购买，而且实例名称为ebman1.24xlarge，最多支持8核NPU和96核vCPU、384G内存以及网络带宽最高达到30Gbit/s。主要面向数据中心的CNN类型模型推理加速，涉及城市大脑、图像视频审核以及拍立淘等业务。

更值得注意的是，在实际应用中的表现。在拍立淘这个典型案例中，每天有超过两千万用户使用其功能进行图片搜索和个性化推荐，这种强大的AI能力是通过自研芯片来实现的。为了提升硬件到软件方案的性价比，阿里希望能从算法优化到指令集设计，都做到精益求精。

去年发布时，张建锋提到了业界标准ResNet-50测试结果，其中含光800性能达78563 IPS，比目前业界最好的AI芯片高4倍，并且能效比500 IPS/W，是第二名的3.3倍。不过，在昨天的分享中并没有提及峰值性能，而是强调可用性，即使是一个未在公开市场发售的芯片，也能够通过阿里云输出。

为了让用户开箱即用，系统支持公共镜像CentOS 7.6/7.7和Ubuntu 16.04，还预装主流深度学习框架，如TensorFlow、MXNet，并提供示范教程。此外，他还强调了应用场景，以CNN类模型推理加速为主，可扩展到其他DNN模型中。在具体应用中，与GPU相比，有着4-11倍性能提升。

例如，在城市大脑处理交通视频时，只需4颗含光800而非40颗传统GPU；拍立淘商品库每天新增10亿商品图片，用传统GPU识别需要1小时，而使用含光800仅需5分钟；行人检测应用中，可以支持100路视频，比主流GPU25路提升4倍；车辆检测同样可以支持85路视频，比主流GPU10路提升8.5倍；Inception V4模型处理帧率达到5000 FPS，比主流推理GPU460FPS提升11倍；直播视频增强性能为500 FPS，对比50 FPS提升10倍。而点播HDR则达到了66 FPS，对于英伟达A100来说，是6.6倍加速。

虽然有关语音交互和自然语言理解方面的问题并未给出详细数据，但这些都显示出了一系列潜力巨大的应用领域。在此次云栖大会上的介绍虽然简短，但透露出了一种持续创新与改进的心态，以及对于未来可能出现的问题准备性的思考。这也表明，无论是在硬件还是软件层面，都将不断地努力以适应新的挑战。