在中国芯片产业现状的辉煌幕布上阿里含光800 AI处理器高调亮相如同一颗璀璨星辰它在AI领域的应用场
在中国芯片产业现状的宏伟画布上,阿里巴巴集团首席技术官兼阿里云智能总裁张建锋曾于2019年杭州云栖大会上隆重介绍了其旗下首款AI芯片含光800。这款当时业界最强大的AI推理芯片,其发布不仅震撼了科技界,也让人耳目一新。
一年后,2023年的线上云栖大会再次聚焦于含光800的最新进展。阿里云异构计算产品研发总监龙欣深入分享了这款AI处理器近一年来的发展情况。他宣布:“含光800 NPU实例已经正式对外服务,不需要白名单即可在阿里云实例上购买。”这些实例配备8核NPU和96核vCPU、384G内存,并提供30Gbit/s网络带宽,主要面向数据中心的CNN类型模型推理加速,适用于城市大脑、图像视频审核以及拍立淘等场景。
更令人瞩目的则是含光800在具体应用中的表现。在拍立淘这一典型应用中,该系统需要处理两千多万用户日活使用图片搜索功能,在4亿多商品库中进行匹配,同时提供个性化推荐,这项任务极为依赖强大的AI能力。为了提升效率和性价比,阿里巴巴希望通过自研硬件到软件方案来支持这一目标。
含光800在硬件设计方面具有三大特色:深度优化CNN及视觉类算法,加速卷积和矩阵乘以支持各种特定模型;高能效与低延时、高密度计算与存储减少I/O需求;以及软硬协同支持权重稀疏压缩和量化压缩,以及指令集支持可编程模型扩展。
尽管去年张建锋发布时提及了业界标准ResNet-50测试结果显示含光800性能达到78563 IPS,比目前业界最好的AI芯片性能高4倍,但是在昨天的分享中并未提及峰值性能,而是强调其可用性。龙欣表示,“作为并没有在公开市场发售的芯片,我们通过阿里云输出。”
为了让用户能够开箱即用,系统自动安装NPU驱动和SDK,还预装主流深度学习框架,如TensorFlow、MXNet,并提供示范教程。此外,在具体应用中相比GPU,有着4-11倍性能提升。在行人检测应用中,可以支持100路视频,比主流GPU 25路提升4倍;车辆检测可以支撑85路视频,比主流GPU10路提升8.5倍;而对于直播、短视频等内容识别应用中的ResNet50 V2模型,可达20000 FPS,比主流推理GPU1800 FPS提升11倍。
不过,由于贸易关系紧张,使得今年关于含光800的话题关注度并不高,而实际应用优势也尚未十分丰富。此次分享简洁且缺乏丰富场景,这可能是出于谨慎考虑。但另一方面,要实现大规模落地仍需长时间努力,其中软件发挥作用尤为关键。而对于未来是否会有新的AI芯片发布,以及何时推出,则仍待观察。