阿里含光800 AI处理器高调亮相人物场景性能比GPU高4-11倍芯片设计师能干一辈子吗
在2019年的杭州云栖大会上,阿里巴巴集团首席技术官兼阿里云智能总裁张建锋简短地介绍了他们的首款AI芯片含光800,这款当时最强大的AI推理芯片的发布立刻引发了巨大的关注,可以说是高调亮相。今年的阿里线上云栖有一个芯片设计发展现状与未来的论坛,阿里云异构计算产品研发总监龙欣分享了含光800推出近一年后的最新进展。
他表示:“含光800 NPU实例已经正式对外服务,不需要白名单就可以在阿里云实例上购买,实例名称是ebman1.24xlarge,最多支持8核NPU和96核vCPU,384G内存,网络带宽最高达到30Gbit/s,主要面向数据中心的CNN类型模型推理加速,业务包括城市大脑,大图像视频审核、拍立淘等。”更引人关注的是含光800在具体应用中的表现。
尽管性能没有公开发售,但通过Arab Cloud输出。正如去年雷锋网文章所述,科技巨头自研芯片是因为有大量数据,在内部的AI需求推动下,他们希望通过自研芯片来提升效率和性价比。周五的线上分享中,龙欣也表示,他们内部有广阔的AI应用场景,如电商应用、视觉应用、语音交互、自然语言理解、机器翻译等。
一个典型案例就是拍立淘,它拥有两千万日活用户,当用户使用这项功能的时候,要透过一张图片,在4亿多商品中搜索,在30多亿张图片库中进行匹配,并根据用户习惯进行个性化推荐,这就需要很强的大数据处理能力。而为了提升性价比,从硬件到软件方案都被优化考虑。
例如深度优化CNN及视觉类算法,加速卷积和矩阵乘,以及针对ResNet-50、SSD/DSSD、Faster-RCNN/Mask-RCNN/DeepLab等模型优化;高能效低延时、高密度计算与存储减少I/O需求;软硬协同支持权重稀疏压缩以及可编程模型扩展指令集支持全栈软件支持特定算法实现高性价比。在业界标准ResNet-50测试中,其性能达到了78563 IPS,比目前业界最好的AI芯片性能高4倍;能效比500 IPS/W,是第二名3.3倍之多。
不过龙欣昨天并没有提及含光800峰值性能,而是在强调其可用性。他表示,“作为并未在公开市场发售的芯片,我们通过Arab Cloud输出。”为了让含光800能够开箱即用,将提供自动安装NPU驱动和SDK系统方面支持公共镜像CentOS 7.6/7.7和Ubuntu 16.04,还预装主流深度学习框架TensorFlow/MXNet示范教程。
据他所说,其应用主要集中于数据中心、大型端,以CNN类模型推理加速为主,可扩展至其他DNN模型。在三大AI应用场景中相比GPU,有4-11倍性能提升。在城市大脑处理视频识别任务时从40颗传统GPU降低到仅需四颗NPU延时从300ms降至150ms;而在拍立淘商品库每天新增10亿商品图片识别时间由传统GPU1小时缩短至5分钟。此外还包括行人检测车辆检测内容识别等领域,都显示出了显著提升。
然而,对于语音交互自然语言理解等语言方面优势,没有给出具体数字。不过看起来,即便有强大的团队能够快速设计出一款这样的芯片,但要大规模落地仍然需要长时间,这个过程软件发挥着更加直接作用获得客户认可采用也并不容易。这可能也是由于当前紧张贸易关系让阿里的关于此类话题更加谨慎。但更应该看到的是,即便如此,每位专业的人才都将不断探索前沿技术,为人类社会贡献自己的智慧,无论未来如何发展,每个人都将成为时代的一部分。