中国半导体最新消息阿里含光800 AI处理器在人物识别场景下性能超越GPU高达4-11倍提升

在2023年的阿里云栖大会上，阿里巴巴集团首席技术官兼阿里云智能总裁张建锋再次推出了公司的自研AI芯片——含光800。尽管这款芯片已经在2019年杭州云栖大会上首次亮相，但它依然引起了强烈的关注。这一次，张建锋带来了更详细的信息和更新。

一年后，阿里云异构计算产品研发总监龙欣继续分享了含光800近一年的发展进展。他宣布，这款NPU实例已经正式对外服务，并且不需要白名单就可以购买。实例名称为ebman1.24xlarge，它支持8核NPU和96核vCPU、384G内存以及网络带宽最高达到30Gbit/s。主要面向数据中心的CNN类型模型推理加速，其业务包括城市大脑、图像视频审核和拍立淘等。

在实际应用中，含光800表现出色。在拍立淘这个典型应用中，它帮助用户通过一张图片搜索4亿多商品，在30多亿张图片库中进行匹配，并根据用户习惯提供个性化推荐。这需要极强的AI能力，而含光800正是这样一个硬件解决方案。

除了硬件优化以外，含光800还具有软硬协同支持权重稀疏压缩、量化压缩以及可编程模型扩展功能。这使得它能够针对特定算法模型进行设计，同时保持一定灵活性，以实现全栈软件支持中的高性价比。

虽然去年发布时已提到其业界标准ResNet-50测试性能达78563 IPS，比目前最好的AI芯片性能高4倍并有500 IPS/W能效比，但今年龙欣没有提及峰值性能，而是强调其可用性。他表示：“作为未曾公开市场发售的芯片，我们通过阿里云输出。”为了让用户开箱即用，系统预装主流深度学习框架，如TensorFlow、MXNet，以及提供示范教程。此外，可自动安装NPU驱动和SDK。

至于具体应用中的表现，此次分享给出的数据显示，在行人检测应用中，与主流GPU相比提升了4倍；车辆检测则提升8.5倍；而对于ResNet50 V2模型，在直播内容识别方面提升11倍，对Inception V4模型则提升10.8倍。在点播HDR场景下，也实现了10倍性能加速。而对于自然语言理解等领域，则未给出具体数据。

尽管此次分享较去年简洁，但仍揭示了含光800在三大AI场景（城市大脑、图像视频审核与拍立淘）中的4-11倍性能提升。随着全球半导体行业不断发展，我们期待未来更多关于新一代AI芯片或其他相关技术进步的消息。此刻，却只能看到这一路漫漫，只是刚刚开始探索数字经济时代的大门。