阿里含光800新一代AI处理器集成IC芯片神威三大场景性能爆表
2019年杭州云栖大会上,阿里巴巴集团首席技术官兼阿里云智能总裁张建锋在简短的介绍中推出了阿里的首款AI芯片——含光800。这款当时最强的AI推理芯片的发布不仅引发了巨大的关注,也可谓是高调亮相。今年,在阿里线上云栖举行的一场芯片设计发展现状与未来的论坛,阿里云异构计算产品研发总监龙欣分享了含光800推出近一年后的最新进展。
他表示:“含光800 NPU实例已经正式对外服务,不需要白名单就可以在阿里云实例上购买,实例名称是ebman1.24xlarge,最多支持8核NPU和96核vCPU,384G内存,网络带宽最高达到30Gbit/s。主要面向数据中心的CNN类型模型推理加速,业务包括城市大脑、图像视频审核、拍立淘等。”
更令人关注的是含光800在具体应用中的表现。在去年的文章中,我们提到科技巨头自研芯片,是因为有大量数据,在内部的AI需求推动下,他们希望通过自研芯片来提升效率和性价比。周五的线上分享中,龙欣也指出,阿里巴巴内部有广阔的AI应用,这些应用包括电商应用、视觉应用、语音交互、自然语言理解、机器翻译等。
一个典型的例子就是拍立淘,它拥有两千多万日活用户。当这些用户使用这项功能的时候,要透过一张图片,在4亿多商品中搜索,在30多亿张图片库中进行匹配,并根据用户习惯进行个性化推荐。这就需要很强的AI能力。因此,为了提升效率和性价比,从硬件到软件方案,都必须得到优化。
深入了解后,我们发现含光800在硬件方面具有三个特色:深度优化CNN及视觉类算法,加速卷积和矩阵乘,以及针对ResNet-50、SSD/DSSD、Faster-RCNN、Mask-RCNN及DeepLab等模型优化。此外,还具备高能效、高密度计算与存储以及软硬协同支持权重稀疏压缩和计算量化压缩能力。
至于性能表现,上述数据显示,与GPU相比,其性能能够实现4-11倍提升。在城市大脑处理交通视频时,由40颗传统GPU减少至4颗;拍立淘商品库每天新增10亿商品图片,用传统GPU识别需1小时,而用含光800仅需5分钟;行人检测支持100路视频,比主流GPU25路提高4倍;车辆检测则为85路,比主流GPU10路提高8.5倍;而在内容识别应用中的ResNet50 V2模型,其帧率可达20000 FPS,比主流GPU1800 FPS性能提升11倍。
不过,对于其他领域如直播点播HDR或语音交互自然语言理解等语言方面的问题示例优势,没有给出具体数值。不过,即便如此,当涉及到HDR点播,其中虽然英伟达A100训练所需性能较强,但即便如此其智能性能只能达到10 FPS,而我们却能实现6.6倍性能加速比,这无疑展示了其潜力之大。
综观此次事件,可以看出尽管今年对于包含了许多去年公开信息的话题可能没有以前那么吸引人,但实际上的落地效果仍然令人瞩目。而且,即使团队能够快速设计新一代芯片,大规模落地仍然是一个漫长过程,而且这个过程软件发挥着更加直接作用,因此获得客户认可并非易事。