阿里含光800 AI处理器高调亮相犹如一位舞者轻盈跃上舞台它在三大场景中的演绎力不仅超越了GPU的表
在2019年的云栖大会上,阿里巴巴集团首席技术官兼阿里云智能总裁张建锋隆重发布了公司的首款AI芯片——含光800。这个消息震惊了整个科技界,以其强大的性能和高调亮相赢得了广泛关注。
一年之后,2020年的线上云栖大会上,阿里云异构计算产品研发总监龙欣再次alking about the latest progress of the chip since its release. 他提到了NPU实例已经对外服务,并且不需要白名单就可以在阿里云实例上购买。这种强大的AI处理器主要面向数据中心的CNN类型模型推理加速,其业务包括城市大脑、图像视频审核以及拍立淘等应用。
更令人瞩目的,是含光800在具体应用中的表现。在去年雷锋网的一篇文章中提到,由于自研芯片是为了满足大量内部AI需求,从而提升效率和性价比。张建锋曾经介绍说,在业界标准的ResNet-50测试中,含光800推理性能达到78563 IPS,比目前业界最好的AI芯片性能高4倍;能效比500 IPS/W,是第二名的3.3倍。
不过,在昨天的分享中,龙欣并没有提及含光800的峰值性能,而是强调其可用性。他表示:“作为并没有在公开市场发售的芯片,我们通过阿里云输出。” 为此,他们让购买实例用户可以自动安装NPU驱动和SDK,并且提供公共镜像CentOS 7.6/7.7和Ubuntu 16.04,还预装主流深度学习框架,如TensorFlow、MXNet等。
据龙欣介绍,含光800主要应用于数据中心和大型端上的CNN类模型推理加速,可扩展到其他DNN模型中。在三大AI应用场景中的实际使用中,其性能比GPU有4-11倍提升。此前给出的数据显示,在城市大脑中的实时处理杭州主城区交通视频时,只需4颗含光800即可完成,而传统GPU则需要40颗,以及拍立淘商品库每天新增10亿商品图片识别时间从1小时缩短至5分钟。
最新公布的情况表明,在行人检测应用中,4核含光800支持100路视频,比主流GPU25路多出75个视频通道;车辆检测同样支持85路视频,比主流GPU10路多出75个通道。对于直播、短视频、商品信息流等内容识别应用中的ResNet50 V2模型,它能够达到20000 FPS,比主流推理GPU1800 FPS快12倍;而Inception V4模型下,它能够处理5000 FPS,比460FPS快36倍。此外,对于直播质量增强,它能够达成500 FPS,对比50 FPS增长450帧,即10倍加速;点播HDR方面,则为66 FPS,与A100 GPU相比实现6.6倍加速。
尽管今年关于含光800的话题并不如去年那么火热,但它所展示的大规模落地能力以及与现有硬件设备相较之下的显著优势,为行业内外观众提供了一份宝贵的情报。而随着全球科技竞赛日益激烈,不难预见未来更多关于自研芯片及其相关技术革新的讨论将会发生。