阿里含光800 AI处理器亮相后在人物场景下的性能大放异彩高达4-11倍超越GPU表现手机处理器排名
在2019年的杭州云栖大会上,阿里巴巴集团首席技术官兼阿里云智能总裁张建锋简短介绍了阿里的首款AI芯片含光800,这次发布引发了巨大的关注。今年的线上云栖有一个芯片设计发展现状与未来的论坛,阿里云异构计算产品研发总监龙欣分享了含光800推出近一年后的最新进展。
他表示:“含光800 NPU实例已经正式对外服务,不需要白名单就可以在阿里云实例上购买,实例名称是ebman1.24xlarge,最多支持8核NPU和96核vCPU,384G内存,网络带宽最高达到30Gbit/s,主要面向数据中心的CNN类型模型推理加速,业务包括城市大脑,大图像视频审核、拍立淘等。”更引人关注的是含光800在具体应用中的表现。
尽管含光800尚未对外发售,其性能通过阿里云输出。正如去年雷锋网文章所说,科技巨头自研芯片是因为有大量数据,在内部的AI需求推动下,以提升效率和性价比为目的。周五的线上分享中,龙欣也强调了这一点,他表示,阿里巴巴内部有广阔的AI应用场景,如电商应用、视觉应用、语音交互、自然语言理解、机器翻译等。
一个典型案例就是拍立淘,它拥有两千多万日活用户,而这些用户在使用这项功能时,要搜索商品图片,在4亿多商品中进行匹配,并根据用户习惯提供个性化推荐,这就需要很强的AI能力。因此 阿里希望通过自研硬件到软件方案来提升性价比。
包含深度优化CNN及视觉类算法、高能效低延时、高密度计算与存储,以及软硬协同支持权重稀疏压缩和量化压缩指令集支持可编程模型扩展。这意味着含光800特别针对CNN算法模型进行设计,但也保持一定灵活性,再匹配全栈软件支持特定应用和算法实现高性价比。
去年张建锋发布时说,“在业界标准ResNet-50测试中,由于其独特设计,该芯片推理性能达到了78563 IPS,比目前业界最好的AI芯片性能高4倍;能效比500 IPS/W,是第二名3.3倍。”不过昨天分享没有提及峰值性能,而是强调其可用性。他表示,“作为并没有公开市场发售的芯片,我们通过Aray Cloud 输出。”
为了让含光800能够开箱即用,Aray Cloud 让购买实例用户可以自动安装NPU驱动和SDK系统方面支持公共镜像CentOS 7.6/7.7 和Ubuntu 16.04,还预装主流深度学习框架提供TensorFlow, MXNet示范教程。龙欣强调,该设备主要用于数据中心或大型端上的CNN类模型推理加速,可扩展到其他DNN模型中。在实际应用中相较GPU,有4-11倍性能提升。
最近的一些数据显示,在行人检测应用中4核含光800可以处理100路视频,比主流GPU25路提高四倍。在车辆检测中,可以处理85路视频,比主流GPU10路提高八五倍。在Resnet50 V2模型中的帧率达到20000 FPS,比主流GPU1800FPS提高11倍。在Inception V4 模型中的帧率达到5000 FPS,比主流GPU460FPS提高10.8 倍。此外,在直播点播HDR 中5 FPS 比英伟达A100训练 GPU 的10 FPS 提升六百分之六十九%.
至于语音交互自然语言理解等语言方面适用的优势案例,没有给出具体数字。不过,从这个角度看,即便有强大的团队快速设计出一款芯片,但要大规模落地仍然需要长时间过程,其中软件发挥更加直接作用获得客户认可采用并不易。这可能也是为什么此次共享简单且不详细讨论相关话题的一个原因之一——贸易紧张关系使得公司对于相关话题更加谨慎。但应该看到,即便如此,对未来发展充满期待,因为这是开始阶段。