芯片的制作流程及原理阿里含光800 AI处理器高端亮相三大场景性能超越GPU4-11倍
在2019年杭州云栖大会上,阿里巴巴集团首席技术官兼阿里云智能总裁张建锋隆重发布了公司的首款AI芯片——含光800,这一事件以其强大的影响力和引人注目的亮相被广泛报道。经过一年多的时间,今年的线上云栖大会中,有一个专门针对芯片设计发展现状与未来的论坛。在此论坛上,阿里云异构计算产品研发总监龙欣详细介绍了含光800推出近一年后的最新进展。
他指出,含光800 NPU实例已经正式对外服务,并且不需要白名单就可以在阿里云实例上购买。这些实例提供8核NPU和96核vCPU、384G内存以及网络带宽最高达到30Gbit/s,是为了面向数据中心的CNN类型模型推理加速,以及业务包括城市大脑、图像视频审核、拍立淘等领域。
更值得关注的是含光800在具体应用中的表现。这款AI芯片通过深度优化CNN及视觉类算法,加速卷积和矩阵乘,同时支持反卷积、孔洞卷积、3D卷积、插值以及ROI等操作。它针对ResNet-50、SSD/DSSD、Faster-RCNN/Mask-RCNN/DeepLab等模型进行了优化,以实现高能效、高密度计算与存储,以及软硬协同支持权重稀疏压缩和计算量化压缩。
去年,当张建锋发布含光800时,他展示了该芯片在业界标准ResNet-50测试中的性能,即78563 IPS,比目前业界最好的AI芯片性能高4倍,而能效比达到了500 IPS/W,是第二名的3.3倍。不过,在昨天龙欣分享中并没有提及含光800的峰值性能,而是强调其可用性。他表示,“作为并没有在公开市场发售的芯片,通过阿里云输出。”
为了让用户能够开箱即用,阿里云提供自动安装NPU驱动和SDK,同时支持公共镜像CentOS 7.6/7.7和Ubuntu 16.04,并预装主流深度学习框架,如TensorFlow 和 MXNet。此外,还提供示范教程,让用户能够快速适应并使用这款新型AI处理器。
据龙欣介绍,在实际应用中,比如城市大脑应用中,一次实时处理杭州主城区交通视频原本需要40颗传统GPU,但使用含光800仅需4颗延时降至150ms;拍立淘商品库每天新增10亿商品图片,用传统GPU识别需要1小时,但使用含光800后可缩减至5分钟。而对于行人检测应用来说,与主流GPU相比,它可以支持100路视频,对于车辆检测则是85路视频,对于内容识别则有11倍提升。
随着科技不断进步,我们期待看到未来更多关于自研芯片及其创新应用方面的成果。