国内芯片公司排名前十的阿里含光800 AI处理器在高调亮相后展现出在人物场景下的落地性能与GPU相比
在2019年的杭州云栖大会上,阿里巴巴集团首席技术官兼阿里云智能总裁张建锋简短介绍了阿里的首款AI芯片含光800,这次发布不仅引发了巨大关注,也可谓高调亮相。今年的线上云栖有一个芯片设计发展现状与未来的论坛,阿里云异构计算产品研发总监龙欣分享了含光800推出近一年后的最新进展。
他表示:“含光800 NPU实例已经正式对外服务,不需要白名单就可以在阿里云实例上购买,实例名称是ebman1.24xlarge,最多支持8核NPU和96核vCPU,384G内存,网络带宽最高达到30Gbit/s,主要面向数据中心的CNN类型模型推理加速,业务包括城市大脑,图像视频审核,以及拍立淘等。”
更值得关注的是含光800在具体应用中的表现。在去年的文章中提到过科技巨头自研芯片是因为有大量数据,在内部的AI需求推动下,以提升效率和性价比为目的。周五的线上分享中,龙欣也强调了这一点,并且指出了一个典型案例——拍立淘,它拥有两千多万日活用户,每天要通过一张图片,在4亿多商品中搜索,在30多亿张图片库中进行匹配,并根据用户习惯进行个性化推荐。这就需要很强的AI能力。
因此,对于提升硬件到软件方案上的性价比,有必要回顾一下含光800在硬件方面的特色:深度优化CNN及视觉类算法,加速卷积和矩阵乘、支持反卷积、孔洞卷积、3D卷积、插值、ROI等;针对ResNet-50、SSD/DSSD、Faster-RCNN/Mask-RCNN/DeepLab等模型优化;高能效低延时、高密度计算与存储减少I/O需求;软硬协同支持权重稀疏压缩和计算量化压缩;指令集支持可编程模型扩展。
除此之外,还有INT8/INT16量化加速覆盖FP16/BFP16向量计算直接加速各种ReLu/Sigmoid/Tanh等,也可支持未来新型激活函数。这些特点使得含光800特别针对CNN算法模型设计,但保持一定灵活性,再结合全栈软件支持,在特定应用和算法中实现高性价比。
去年张建锋发布含光800时说,“在业界标准ResNet-50测试中,其推理性能达到78563 IPS,比目前业界最好的AI芯片性能高4倍;能效比500 IPS/W,是第二名的3.3倍。”不过昨天龙欣并没有提及其峰值性能,而是强调其可用性。他表示,“作为并没有公开市场发售的一款芯片,我们通过阿里云输出。”
为了让包含NPU驱动和SDK自动安装系统方面提供公共镜像CentOS 7.6/7.7和Ubuntu 16.04,还预装主流深度学习框架提供TensorFlow/MXNet示范教程。至于具体应用中的四种场景落地性能,与GPU相比提升4-11倍,他给出的最新数据显示:
在行人检测应用中,可以支撑100路视频,比主流GPU25路性能提升4倍。
在车辆检测应用中,可以支撑85路视频,比主流GPU10路性能提升8.5倍。
在直播内容识别(使用ResNet50 V2)或Inception V4处理帧率,可分别达20000 FPS或5000 FPS,比主流GPU分别提高11倍或10.8倍。
在HDR点播视频质量增强处理帧数,为66 FPS,比主流GPU提高10倍。
至于语音交互自然语言理解等语言领域的事例优势,由于缺乏最新数据信息暂未明确。不过,从雷锋网小结来看,即便有强大的团队能够快速设计出一款芯片,但要大规模落地仍然需要很长时间,这个过程软件发挥着更加直接作用,而获得客户认可采用也并不容易。对于未来可能会问询的是,当下紧张贸易关系是否影响了Arise相关话题谨慎处理,以及他们接下来会如何继续前进?