芯片大比拼含光800AI处理器闪耀登场GPU对手不敌四至十倍性能霸榜
2019年杭州云栖大会上,阿里巴巴集团首席技术官兼阿里云智能总裁张建锋在简短的介绍中推出了阿里的第一款AI芯片——含光800。这款当时最强的AI推理芯片的发布不仅引发了巨大的关注,也可以说是高调亮相。
今年,在阿里线上云栖举行的一个芯片设计发展现状与未来的论坛,阿里云异构计算产品研发总监龙欣分享了含光800推出近一年后的最新进展。他表示:“含光800 NPU实例已经正式对外服务,不需要白名单就可以在阿里云实例上购买,实例名称是ebman1.24xlarge,最多支持8核NPU和96核vCPU,384G内存,网络带宽最高达到30Gbit/s,其主要面向数据中心的CNN类型模型推理加速。业务包括城市大脑、图像视频审核、拍立淘等。”
更令人关注的是含光800在具体应用中的表现。虽然它尚未对外发售,但其性能通过阿里云输出。在去年的文章中提到过,即使科技巨头自研芯片,这也是因为有大量数据以及内部广阔的AI应用需求,以提升效率和性价比为目的。
例如,在拍立淘这个典型应用中,有两千多万日活用户使用这项功能,要透过一张图片,在4亿多商品中搜索,在30多亿张图片库中进行匹配,并根据用户习惯进行个性化推荐,这就需要很强的AI能力。因此,阿里的目标是通过自研硬件方案从而提升性价比。
深入来看,含光800在硬件方面有三个特色:深度优化CNN及视觉类算法,加速卷积和矩阵乘,以及针对ResNet-50、SSD/DSSD、Faster-RCNN、Mask-RCNN等模型优化。此外,它还具备高能效低延时、高密度计算与存储特点,以及软硬协同支持权重稀疏压缩和量化压缩指令集。
去年发布时,就展示了它业界标准ResNet-50测试性能达78563 IPS,比目前业界最好的AI芯片性能高4倍;能效比500 IPS/W,是第二名3.3倍之佳。不过龙欣昨天并没有提及含光800峰值性能,而是强调其可用性,他表示:“作为并没有在公开市场发售的芯片,我们通过ArizCloud输出。”以便开箱即用,同时系统支持公共镜像CentOS 7.6/7.7和Ubuntu 16.04,还预装主流深度学习框架提供TensorFlow/MXNet示范教程。
至于实际应用中的表现,由于三大场景(城市大脑、大规模商品库识别、二次视频处理),相比GPU显示出4-11倍性能提升。在行人检测应用中,可支持100路视频;车辆检测可支持85路视频;而直播内容识别则实现帧率20000 FPS,比主流GPU1800 FPS提高11倍。此外,对于点播HDR也实现10倍性能加速比。而对于语音交互自然语言理解领域,则未给出具体数值。