2022年芯片龙头股新贵阿里含光800 AI处理器GPU之上耀眼夺目在三大核心场景中以惊人的4-11
在2022年,阿里巴巴集团首席技术官兼阿里云智能总裁张建锋在杭州云栖大会上隆重发布了公司的首款AI芯片——含光800。这款当时最强大的AI推理芯片的高调亮相,立即引发了广泛关注。
一年之后,在2023年的线上云栖大会上,阿里云异构计算产品研发总监龙欣分享了含光800推出后的最新进展。他表示,含光800 NPU实例已经正式对外服务,不需要白名单就可以在阿里云实例上购买。该实例支持8核NPU和96核vCPU、384G内存,以及网络带宽最高达到30Gbit/s。主要面向数据中心的CNN类型模型推理加速,应用包括城市大脑、图像视频审核以及拍立淘等。
更令人振奋的是,含光800在实际应用中的表现。尽管它尚未对外发售,但其性能已经通过阿里云输出。在电商应用、视觉应用、语音交互以及自然语言理解等方面,都有着广阔的AI需求空间。例如,在拍立淘这项功能中,每天要处理两千多万用户使用图片进行商品搜索与推荐,这种强大的AI能力是不可或缺的。
为了提升性价比,从硬件到软件,全方位优化为目标。含光800以深度优化CNN及视觉类算法为特点,加速卷积和矩阵乘,并支持反卷积、孔洞卷积、三维卷积等。此外,它具有高能效低延时、高密度计算与存储减少I/O需求,以及软硬协同支持权重稀疏压缩和量化压缩指令集支持可编程模型扩展。
去年张建锋发布时公布的一组业界标准ResNet-50测试结果显示,其推理性能达78563 IPS,比目前业界最好的AI芯片性能高4倍;能效比500 IPS/W,是第二名的3.3倍。但是在今年龙欣没有提及峰值性能,而是强调其可用性,即便作为未公开市场销售的芯片,它也能开箱即用,并且系统预装主流深度学习框架提供TensorFlow和MXNet示范教程。
至于具体应用中与GPU相比的性能提升,其中一个典型案例是城市大脑项目:40颗传统GPU处理300ms延迟,而仅需4颗含光800处理150ms;拍立淘商品库每天新增10亿商品图片,用传统GPU1小时识别,而用含光800只需5分钟。在行人检测中,以4核NPU克服100路视频,比主流GPU25路提升4倍;车辆检测则可支援85路视频,比主流GPU10路提升8.5倍。而对于直播内容识别Inception V4模型处理帧率达到5000 FPS,比主流GPU460FPS提升11倍;点播HDR多性能66 FPS,与A100训练器10 FPS相比实现6.6倍加速比。
尽管此次分享并未给出丰富场景介绍,也没有详细展示语音交互或自然语言理解领域的情况,但从已知数据来看,包含这些方面将会是未来重要方向之一。不过,由于当前全球贸易紧张关系影响,对于相关话题表达谨慎也是合乎情理的事情。一旦大规模落地,那么软件将扮演更加直接作用角色,同时获得客户认可也并不容易。这标志着Arise AI芯片之旅才刚刚开始,我们期待看到他们下一代产品何时问世?