阿里含光800 AI处理器如同神兵利箭般高调亮相其在三大关键场景中的实战表现宛若猛虎下山以惊人的速度
阿里巴巴集团首席技术官兼阿里云智能总裁张建锋在2019年杭州云栖大会上隆重发布了自家的AI芯片含光800,引发科技界巨大关注。如同一位勇士披挂神兵般的高调亮相,这款当时最强大的AI推理芯片深受瞩目。
一年之后,在2023年的线上云栖大会上,阿里云异构计算产品研发总监龙欣分享了含光800近一年来的最新进展。龙欣表示,含光800 NPU实例已经正式对外服务,不需要白名单即可在阿里云实例上购买,其主要面向数据中心的CNN类型模型推理加速,适用于城市大脑、图像视频审核和拍立淘等业务。
更令人振奋的是,含光800在具体应用中的表现。尽管其尚未对外发售,但性能通过阿里云输出。在一个典型的例子中,即拍立淘,它利用用户习惯进行个性化推荐,这种强大的AI能力要求极为高效且低延时的处理能力。
阿里的目标是通过自研硬件到软件方案提升性价比。包含深度优化CNN及视觉类算法,加速卷积和矩阵乘,以及针对ResNet-50、SSD/DSSD、Faster-RCNN、Mask-RCNN、DeepLab等模型优化、高能效与低延时、高密度计算与存储支持权重稀疏压缩和量化压缩以及指令集支持可编程模型扩展等多项特色。
去年张建锋宣布,当时业界标准ResNet-50测试中,含光800推理性能达78563 IPS,比目前业界最好的AI芯片性能高4倍;能效比500 IPS/W,是第二名的3.3倍。不过龙欣昨天并未提及峰值性能,而是强调其可用性,并表示“作为并没有在公开市场发售的芯片,由于不涉及销售,因此我们将其输出至用户。”为了让用户开箱即用,便提供自动安装NPU驱动和SDK,并预装主流深度学习框架,如TensorFlow和MXNet。
据介绍,含光800在三大AI应用中的表现有着显著提升:城市大脑实时处理视频,从40颗传统GPU降至4颗;拍立淘商品库识别时间从1小时减少至5分钟;行人检测由100路视频增加至200路;车辆检测由10路增加至85路;内容识别ResNet50 V2模型帧率提高11倍;直播质量增强400 FPS,对比主流GPU仅50 FPS,有10倍加速。此外,还有点播HDR6.6倍加速比。
然而,与去年相较之下,此次分享给出的场景较为简单,没有十分丰富详尽。此可能由于当前全球贸易紧张局势使得相关话题变得更加谨慎。不过,从此次展示来看,可见该团队能够快速设计出新一代芯片,但要实现真正的大规模落地仍需长期努力。这也凸显软件对于实际应用具有不可或缺的地位。