阿里含光800 AI处理器高调亮相三大场景应用中人像识别性能比GPU提升4-11倍
在2023年的阿里云栖大会上,阿里巴巴集团首席技术官兼阿里云智能总裁张建锋再次推出了公司的自研AI芯片——含光800。尽管这款芯片已经在2019年发布,但它依然是当时最强大的AI推理芯片之一,这次的高调亮相再次引起了业界的广泛关注。
今年的线上云栖大会中,阿里云异构计算产品研发总监龙欣分享了含光800近一年来的最新进展。他表示,含光800 NPU实例已经正式对外服务,不需要白名单就可以在阿里云实例上购买。该实例名称为ebman1.24xlarge,最多支持8核NPU和96核vCPU、384G内存以及网络带宽最高达到30Gbit/s,主要面向数据中心的CNN类型模型推理加速,其业务包括城市大脑、图像视频审核和拍立淘等。
更值得注意的是,含光800在具体应用中的表现。在拍立淘这样的应用中,它能够通过一张图片,在4亿多商品中进行搜索,并且根据用户习惯提供个性化推荐,这需要非常强大的AI能力。因此,阿里希望通过自研硬件到软件方案提升效率和性价比。
包含以下几个方面:
深度优化CNN及视觉类算法
加速卷积和矩阵乘,以支持反卷积、孔洞卷积、3D卷积、插值以及ROI等
针对ResNet-50、SSD/DSSD、Faster-RCNN、Mask-RCNN以及DeepLab等模型优化
高能效与低延时、高密度计算与存储,可以极大减少I/O需求
软硬协同支持权重稀疏压缩,以及计算量化压缩指令集支持可编程模型扩展
除此之外,还有INT8/INT16量化加速覆盖FP16/BFP16向量计算直接加速各种ReLu/Sigmoid/Tanh等,也能支持未来新型激活函数。这意味着含光800特别针对CNN算法模型设计,但也保持一定灵活性,再匹配全栈软件支持实现特定应用和算法中的高性能。
去年,当张建锋发布含光800时,他声称其在业界标准ResNet-50测试中推理性能达到78563 IPS,比目前业界最好的AI芯片性能高4倍;而能效比500 IPS/W,是第二名的3.3倍。不过龙欣昨天没有提及峰值性能,而是强调其可用性,并表示“作为并没有在公开市场发售的芯片,由于我们输出。”为了让购买实例用户可以自动安装NPU驱动和SDK,同时系统方面还提供公共镜像CentOS 7.6/7.7 和 Ubuntu 16.04,以及预装主流深度学习框架,如TensorFlow 和 MXNet示范教程。
至于实际应用场景,其已展示出显著优势。在行人检测应用中,4核含光800克支援100路视频,比主流GPU25路视频性能提升4倍;车辆检测中则支援85路视频,比主流GPU10路视频性能提升8.5倍。而Inception V4 模型处理帧率达到5000 FPS,比主流推理GPU460 FPS 性能加速比11倍。此外,在直播点播短视频内容识别应用中的ResNet50 V2 模型下,即使处理20000 FPS帧率,对比主流GPU1800FPS 性能增加11倍;而点播HDR 中使用4核含光800即可达成66 FPS 的处理速度,与英伟达A100仅需10 FPS 的时间相比,加快6.6 倍。
虽然对于语音交互自然语言理解等语言领域未给出详细数据,但这些数据显示了包含物理层面的改进,使得涉及到的每一个场景都体现出了前所未有的潜力。然而,从雷锋网看来,此次分享仍缺乏丰富性的描述,而且介绍较为简洁。这可能是由于当前紧张贸易关系导致 阿里的谨慎态度影响了相关话题讨论。但同时也要看到,即便有如此强大的团队设计出一款芯片,大规模落地仍需长期努力,其中软件发挥作用尤为关键,为获得客户认可采用奋斗不懈。此乃数字经济征途漫长一步履行其承诺步入未来世界。