中国首台3纳米光刻机助力AI新纪元阿里含光800在人物识别场景下表现突出处理器性能比GPU高达4-1

在2023年的阿里云栖大会上，集团首席技术官兼阿里云智能总裁张建锋对外展示了阿里的最新AI芯片——含光800。这款当时最强的AI推理芯片的发布再次引发了行业内外的广泛关注。

一年后，在2024年的线上云栖大会期间，阿里云异构计算产品研发总监龙欣深入分享了含光800近一年的发展成果。据他介绍，含光800 NPU实例已经正式开放购买，不需要任何白名单限制。这个实例支持8核NPU和96核vCPU、384G内存，并且网络带宽可达30Gbit/s，主要面向数据中心的CNN类型模型推理加速。

更值得关注的是，这款未对外发售的芯片在实际应用中的表现。正如去年雷锋网报道过的一样，当科技巨头自主研发芯片时，其背后驱动力往往是大量数据和内部AI需求。在周五举行的线上分享中，龙欣也指出，阿里巴巴内部有着广阔的AI应用领域，从电商到视觉、语音交互、自然语言理解以及机器翻译等多个方面都有深度融合。

例如拍立淘这款功能，就需要极强的人工智能能力来处理每天新增10亿商品图片的问题，这不仅考验硬件性能，还要求软件优化与算法创新。而通过自研硬件与软件方案提升性价比，是阿里的长远目标之一。

包含以下几个特色：

深度优化CNN及视觉类算法

加速卷积和矩阵乘操作，同时支持反卷积、孔洞卷积、3D卷积、插值和ROI等

针对ResNet-50、SSD/DSSD、Faster-RCNN/Mask-RCNN和DeepLab等模型进行特殊优化

高能效低延时设计，以及高密度计算与存储减少I/O需求

软硬协同支持权重稀疏压缩以及量化压缩指令集，为未来新型激活函数提供扩展性

至于具体性能数字，上述内容已详细说明。在城市大脑识别视频流场景下，由40块传统GPU完成300ms任务，而只需4块含光800即可降至150ms；拍立淘商品库新增10亿图片，每小时识别时间由1小时缩短至5分钟；行人检测可以支持100路视频，比主流GPU25路性能提升4倍；车辆检测85路视频，比主流GPU10路提升8.5倍；ResNet50 V2模型帧率达到20000 FPS，比主流GPU1800FPS提升11倍；Inception V4模型5000 FPS，比460FPS提升10.8倍。此外，在直播增强HDR点播中，可实现6.6倍性能加速比。

尽管此次云栖对于含光800关注度不高，但其潜力仍然是许多人所期待探讨的一个话题。不过，由于当前国际形势紧张，对于涉及到的关键技术话题，如芯片研发进展，都显得更加谨慎。但无疑，此类先进技术仍将是未来竞争力的重要支撑。

标签：智能手机硬件、智能硬件开发、智能硬件