阿里含光800 AI处理器高调亮相芯片的难度到底有多大它在后三大场景中的落地性能就像一位拳击手在对抗
在2019年的云栖大会上,阿里巴巴集团首席技术官兼阿里云智能总裁张建锋向公众展示了他们的第一款AI芯片——含光800,这一亮相立即引起了巨大的关注。今年,在阿里的线上云栖活动中,异构计算产品研发总监龙欣分享了近一年来含光800的最新进展。
龙欣表示,含光800 NPU实例已经正式对外服务,不需要白名单就可以在阿里云实例上购买。该实例支持8核NPU和96核vCPU、384G内存以及最高30Gbit/s网络带宽,是针对数据中心CNN类型模型推理加速的,适用于城市大脑、图像视频审核和拍立淘等业务。
尽管未对外发售,但含光800通过阿里云输出其性能表现。在具体应用中,比如拍立淘,它可以在4亿多商品图片库中进行匹配,为用户提供个性化推荐,这种强大的AI能力是通过自研硬件到软件方案提升效率和性价比实现的。
含光800具有三大特色:深度优化CNN及视觉类算法,加速卷积和矩阵乘,以及针对特定模型如ResNet-50、SSD/DSSD等优化。它还具备高能效低延时、高密度计算与存储减少I/O需求,以及软硬协同支持权重稀疏压缩等功能。
去年发布时,张建锋宣布在业界标准ResNet-50测试中,含光800推理性能达到78563 IPS,比目前业界最好的AI芯片性能高4倍;能效比500 IPS/W,是第二名的3.3倍。不过,在昨天的分享中并没有提及峰值性能,而是强调其可用性,即使作为未公开市场发售的芯片,也能够通过阿里云输出,并且易于安装NPU驱动和SDK,还预装主流深度学习框架,如TensorFlow、MXNet,并提供示范教程。
据统计,在三大AI应用中的具体场景下,其性能提升为4-11倍。例如,在城市大脑处理杭州主城区交通视频方面,只需4颗含光800即可降低延时至150ms,而传统GPU则需要40颗才能完成相同任务;而对于行人检测应用,每个含光800可支持100路视频,比主流GPU25路更高出四倍。此外,对于车辆检测、直播内容识别等其他场景,其性能也显著超越了GPU,以此证明其作为专门设计用于加速特定工作负载的地位。
然而,由于当前紧张的贸易关系,使得有关这款芯片的话题变得更加谨慎,因此今年关于这一主题的讨论并不热烈。但不管怎样,从一个技术创新者的角度看,要让这样的技术真正落地使用仍然是一个漫长而艰难过程。这也许就是为什么我们看到许多科技公司都开始探索自研芯片策略的一部分原因。