阿里含光800 AI处理器高调亮相芯片利好最新消息在三大场景中其性能如同猛龙般跃起比GPU强劲4-1
阿里巴巴集团首席技术官兼阿里云智能总裁张建锋在2019年杭州云栖大会上隆重发布了自家的AI芯片含光800,引发科技界巨大关注。近日,在今年的线上云栖大会上,阿里云异构计算产品研发总监龙欣详细介绍了这款AI芯片推出后的最新进展。
据龙欣介绍,含光800 NPU实例已经正式对外服务,不需要白名单即可在阿里云实例上购买。此款芯片支持8核NPU和96核vCPU、384G内存以及网络带宽最高达到30Gbit/s,主要面向数据中心的CNN类型模型推理加速,其业务包括城市大脑、图像视频审核和拍立淘等。
更值得关注的是含光800在具体应用中的表现。在去年的文章中提到,科技巨头自研芯片是因为有大量数据,在内部的AI需求推动下,以提升效率和性价比为目的。而龙欣也强调了这一点,并举例说明拍立淘如何依赖强大的AI能力来提供个性化推荐服务。
含光800在硬件方面具有深度优化CNN及视觉类算法,加速卷积和矩阵乘,以及针对特定模型如ResNet-50、SSD/DSSD等进行优化。同时,它具备高能效与低延时、高密度计算与存储,以及软硬协同支持权重稀疏压缩、量化压缩等功能。
尽管去年张建锋曾展示其业界标准ResNet-50测试性能达78563 IPS,比目前业界最好的AI芯片性能高4倍,但昨天的分享中并未提及峰值性能,而是着眼于其可用性。据悉,由于含光800并未公开市场发售,它通过阿里云输出,这种方式能够让用户自动安装NPU驱动和SDK,并提供TensorFlow、MXNet示范教程。
至于实际应用中的表现,一些典型场景显示了它相对于GPU有4-11倍性能提升。在城市大脑处理视频识别任务时,从40颗传统GPU减少到仅需4颗;在拍立淘商品库图片识别任务中,从1小时降至5分钟;而且,还有一些新的数据表明,在行人检测应用中可以支持100路视频,比主流GPU多25路;车辆检测则可以支持85路视频,比主流GPU多10路。
此外,在直播短视频内容识别应用中的ResNet50 V2模型,其帧率可以达到20000 FPS,比主流推理GPU速度快11倍;而Inception V4模型,则能达到5000 FPS,比主流推理GPU快10.8倍。此外,对比点播HDR所需A100 GPU训练卡,只需四核心含光800就能实现6.6倍加速比。
虽然这次分享没有给出丰富场景或语言领域的具体案例,但它凸显了一种可能性:即使存在强大的团队设计出先进芯片,但要真正落地仍然需要长时间,同时软件层面的成熟度也是关键因素。此前贸易紧张可能导致有关话题更加谨慎处理。但另一方面,这也意味着未来可能会有更多突破性的发展。