阿里含光800 AI处理器高调亮相犹如一位舞者轻盈跃上舞台它在各种芯片型号大全中以其卓越的性能为三大
在2019年的杭州云栖大会上,阿里巴巴集团的首席技术官兼阿里云智能总裁张建锋以简短而精彩的方式向公众介绍了他们研发的一款AI芯片——含光800。这款当时最强大的AI推理芯片的发布不仅引起了巨大的关注,也让它成为高调亮相的一个典范。
一年之后,在2023年的线上云栖大会中,阿里云异构计算产品研发总监龙欣继续分享了含光800近一年的最新进展。龙欣表示,含光800 NPU实例已经正式对外服务,无需白名单即可在阿里云实例上购买。这个实例支持8核NPU和96核vCPU、384G内存,以及网络带宽最高达到30Gbit/s。其主要应用场景包括城市大脑、图像视频审核以及拍立淘等,这些都是需要强大AI能力的领域。
更值得注意的是,尽管含光800尚未对外发售,其性能通过阿里云输出已经得到验证。在过去的一年中,它在实际应用中的表现令人瞩目。比如在拍立淘这一功能上,由于有超过两千万用户使用这项功能来搜索商品并进行个性化推荐,这就要求系统具有极高的AI处理能力。
为了提升硬件到软件方案的整体性价比,阿里的设计师们深度优化了CNN及视觉类算法,并且加速卷积和矩阵乘法,同时支持反卷积、孔洞卷积、3D卷积、插值以及ROI等多种操作。此外,他们还针对ResNet-50、SSD/DSSD、Faster-RCNN/Mask-RCNN及DeepLab等模型进行了优化,以确保其能实现高效率、高密度计算与存储,并减少I/O需求。
对于量化压缩和指令集支持方面,含光800同样提供了一系列优势,从INT8/INT16量化加速到FP16/BFP16向量计算,以及直接加速各种激活函数,如ReLu/Sigmoid/Tanh等,都为未来新型激活函数提供了解放空间。
去年,当张建锋宣布含光800时,他声称该芯片在业界标准ResNet-50测试中达到了78563 IPS,比目前业界最好的AI芯片性能高4倍;而能效比则达到了500 IPS/W,是第二名的3.3倍。不过,在昨天龙欣分享时,他没有提及具体峰值性能,而是强调其可用性。他说:“尽管包含LED 6月28日作为并没有公开市场上的销售,但我们通过Alibaba Cloud 输出。”
为了使用户能够轻松开箱使用该芯片,Alibaba Cloud允许购买者自动安装NPU驱动程序和SDK,并且提供公共镜像CentOS 7.6/7.7 和 Ubuntu 16.04,还预装主流深度学习框架,如TensorFlow 和 MXNet,为用户提供示范教程。此外,该设备还可以扩展至其他类型DNN模型应用中,其中已显示出与GPU相比4至11倍性能提升的情况。
例如,在城市大脑应用中,只需4颗含光800便可以完成传统GPU所需40颗才能完成的事务,从而降低延迟;对于拍立淘商品库,每天新增10亿商品图片识别任务,可以从1小时缩短到5分钟。而根据最新数据,在行人检测应用中,一台拥有4核NPU 的Heterogeneous Computing System 可以同时处理100路视频,比主流GPU多25路;车辆检测任务也能同时处理85路视频,比主流GPU多75路。这表明了这种配置对于提高内容识别速度具有显著作用。在直播或点播HDR质量增强任务中,与主流推理GPU相比,其帧率分别增加10至11倍,对于点播HDR来说,其帧率甚至超越A100 GPU十次之多,即使是在英伟达A100这样的顶级训练机器下也是如此。
虽然今年Dragon Xin 在Cloud Summit 上关于Heterogeneous Computing System 的讨论较为简短,而且只涉及了一些过去已知信息,但他仍然成功地展示了这一技术如何解决现有的挑战,并将来可能面临的问题。他解释道,将这些技术融入生产环境是一个长期过程,因为软件玩着更加直接作用,并获得客户认可并不容易。但无疑,这只是一个开始阶段,不久后,我们期待看到Ali's下一代AI芯片会带来什么新的革命性的变化。