阿里含光800 AI处理器亮相后在人物场景下的性能大幅提升高于GPU4-11倍1nm工艺技术是否已达
在2019年的杭州云栖大会上,阿里巴巴集团首席技术官兼阿里云智能总裁张建锋简短介绍了阿里的首款AI芯片含光800,这次发布引发了巨大的关注,确实是一场高调的亮相。
今年的线上云栖大会有一个芯片设计发展现状与未来的论坛,阿里云异构计算产品研发总监龙欣分享了含光800推出近一年后的最新进展。他表示:“含光800 NPU实例已经正式对外服务,不需要白名单就可以在阿里云实例上购买,实例名称是ebman1.24xlarge,最多支持8核NPU和96核vCPU,384G内存,网络带宽最高达到30Gbit/s,主要面向数据中心的CNN类型模型推理加速。”更令人关注的是含光800在具体应用中的表现。
虽然含光800还未对外发售,但其性能通过阿里云输出。正如去年雷锋网所说,科技巨头自研芯片是因为有大量数据,在内部的AI需求推动下,他们希望通过自研芯片来提升效率和性价比。周五的线上分享中,龙欣也表示,阿里巴巴内部有广阔的AI应用,如电商应用、视觉应用、语音交互、自然语言理解、机器翻译等。
一个典型的例子就是拍立淘,它拥有两千多万日活用户,而这些用户使用这项功能时,要透过一张图片,在4亿多商品中搜索,在30多亿张图片库中进行匹配,并根据用户习惯进行个性化推荐,这就需要很强的AI能力。因此,对于提升硬件到软件方案上的性价比,有着迫切需求。
作为回顾,我们知道含光800在硬件方面有三个特色:深度优化CNN及视觉类算法,加速卷积和矩阵乘,以及针对ResNet-50、SSD/DSSD、 Faster-RCNN、Mask-RCNN等模型优化。此外,还具有高能效低延时、高密度计算与存储以及软硬协同支持权重稀疏压缩等特点。
去年发布时,由于业界标准ResNet-50测试中,其推理性能达到了78563 IPS,比目前业界最好的AI芯片性能高4倍;能效比500 IPS/W,是第二名3.3倍。不过昨天分享并没有提及峰值性能,而是强调其可用性。龙欣表示,“包含所有驱动和SDK,一键安装,可以自动开启NPU加速。”
至于具体三大场景下的落地表现,他给出了最新数据。在行人检测应用中,一颗4核NPU可以处理100路视频,比主流GPU25路性能提升四倍。在车辆检测中,也是4核NPU,可处理85路视频,比主流GPU10路性能提升8.5倍。而且,在直播内容识别中的ResNet50 V2模型,每秒帧率可达20000 FPS,比主流GPU1800 FPS性能提升11倍。在Inception V4模型中,每秒帧率为5000 FPS,比主流GPU460FPS提高10.8倍。此外,还提供了一些点播HDR示例,其中每秒帧数为66 FPS,与A100训练GPU相比实现6.6倍加速。
不过关于语音交互或自然语言理解领域的情况尚未详细介绍。这可能由于当前紧张贸易关系让公司更加谨慎讨论相关话题。但我们应该看到,即便团队能够快速设计出新芯片,大规模落地仍需时间长,而且这个过程软件作用尤为直接,以获得客户认可采用也不容易。对于未来下一代AI芯片何时推出,我们仍需继续观察。