芯片排名前十的秘密武器阿里含光800 AI处理器震撼亮相三大场景性能爆表GPU比拼不过4-11倍更强

2019年杭州云栖大会上，阿里巴巴集团首席技术官兼阿里云智能总裁张建锋在简短的介绍中揭晓了阿里的首款AI芯片含光800，这款当时最强大的AI推理芯片的发布极大地吸引了人们的关注，几乎是高调亮相。

今年，在一次线上云栖活动中，有一个关于芯片设计发展现状与未来的论坛，阿里云异构计算产品研发总监龙欣分享了含光800推出近一年后的最新进展。他指出：“含光800 NPU实例已经正式对外服务，不需要白名单就可以在阿里云实例上购买。这些实例支持8核NPU和96核vCPU、384G内存以及网络带宽最高达到30Gbit/s，主要面向数据中心的CNN类型模型推理加速，其业务包括城市大脑、图像视频审核以及拍立淘等。”

更令人好奇的是，含光800在具体应用中的表现如何。

尽管它尚未对外发售，但其性能已通过阿里云输出。正如去年的文章所述，大型科技公司自研芯片是因为它们拥有大量数据，并且内部有着广泛的AI需求，因此希望通过自研芯片来提升效率和性价比。周五的线上分享中，龙欣也表示，对于这一点来说，他们内部有丰富多样的应用场景，如电商应用、视觉应用、语音交互和自然语言理解等。

拍立淘这个典型案例展示了这项功能对于用户日活数千万，每天新添10亿商品图片进行搜索并匹配，以及根据用户习惯提供个性化推荐，这种强大的能力都依赖于复杂而深厚的人工智能处理。

因此，为了提高硬件到软件方案整体性的效率和成本优势，加强针对特定算法优化，以便实现更快捷、高效的运算速度，是阿里的核心目标之一。在此基础之上，还应考虑高能效低延迟、高密度计算与存储减少I/O需求，以及软硬协同支持权重稀疏压缩和量化压缩指令集支持可编程模型扩展。此外，它还覆盖FP16/BFP16向量计算直接加速各种激活函数，同时为未来新型激活函数留下空间。

据张建锋去年宣布，在业界标准ResNet-50测试中，该系统能够以78563 IPS（每秒处理）完成任务，比目前业界最佳AI芯片性能高4倍；同时能效比达到了500 IPS/W，比第二名性能提升3.3倍。这次龙欣没有提及峰值性能，而是重点强调其可用性，他说：“作为并没有公开市场销售过的一款芯片，我们通过Arty Cloud输出。”

为了让客户能够快速使用该技术，无需额外配置即可安装NPU驱动程序及其相关SDK。系统方面则提供公共镜像 CentOS 7.6/7.7 和 Ubuntu 16.04 预装主流深度学习框架，如 TensorFlow 和 MXNet，并提供示范教程供参考。

至于实际应用中的表现情况，一些关键数字给出了明确答案：在行人检测领域，它能够支撑100路视频流，与主流GPU相比增加4倍；车辆检测则增加85路视频流，与主流GPU相比增长8.5倍。在ResNet50 V2 模型中的内容识别任务中，它可以达到20000 FPS帧率，与主流GPU相比提升11倍；Inception V4 模型中，它可以处理5000 FPS帧率，与主流GPU相比提升10.8倍。而在直播增强质量方面，可达500 FPS，与主流GPU相差十倍；点播HDR 中，可达66 FPS，即使英伟达A100训练设备也无法赶超其6.6 倍性能优势。此外，在其他诸如语音交互或自然语言理解等语言领域的情境下，其潜力仍待观察探索。