芯片的制作过程阿里含光800 AI处理器耀眼亮相三大场景应用性能超越GPU强劲4-11倍之差
在2019年杭州云栖大会上,阿里巴巴集团的首席技术官兼阿里云智能总裁张建锋隆重发布了公司的首款AI芯片——含光800。这款当时最强大的AI推理芯片的高调亮相,立即引发了广泛关注。
一年之后,在2020年的线上云栖大会上,阿里云异构计算产品研发总监龙欣分享了含光800推出近一年来的最新进展。他表示,该芯片的NPU实例已经正式对外服务,不需要白名单就可以在阿里云实例上购买。这些实例支持8核NPU和96核vCPU、384G内存,以及网络带宽最高达到30Gbit/s。主要面向数据中心的CNN类型模型推理加速,其业务包括城市大脑、图像视频审核以及拍立淘等。
更令人关注的是,含光800在具体应用中的表现。在去年的文章中提到,科技巨头自研芯片是为了满足内部大量数据驱动下的AI需求,以提升效率和性价比。龙欣介绍说,阿里巴巴内部有广阔的AI应用场景,如电商应用、视觉应用、语音交互、自然语言理解和机器翻译等。
一个典型案例就是拍立淘,它每天处理2,000多万用户使用图片搜索商品时所需的大量数据,并进行个性化推荐,这需要极强的AI能力。因此,阿里希望通过自研硬件方案来提升性价比。
含光800在硬件方面具有深度优化CNN及视觉类算法,加速卷积和矩阵乘,以及针对特定模型如ResNet-50进行优化等特色。此外,它还提供高能效低延时、高密度计算与存储以及软硬协同支持权重稀疏压缩等功能,使其特别适合于CNN算法模型设计,同时保持一定灵活性以匹配全栈软件支持。
尽管去年张建锋发布含光800时宣称它能够在业界标准ResNet-50测试中达到78563 IPS,比目前业界最好的AI芯片性能高4倍,但是在昨天的分享中并没有提及含光800峰值性能,而是强调其可用性。龙欣指出,这款未公开市场销售但通过阿里云输出的心智处理器(NPU)能够自动安装驱动程序和SDK,并且系统支持公共镜像CentOS 7.6/7.7和Ubuntu 16.04,还预装主流深度学习框架,如TensorFlow 和MXNet。
至于实际应用中的表现,其中三大场景分别为:行人检测(4核包含8路视频,比主流GPU25路性能提升4倍)、车辆检测(85路视频,比主流GPU10路性能提升8.5倍)以及内容识别(帧率20000 FPS,比主流GPU1800 FPS性能提升11倍)。
此外,在直播点播短视频质量增强领域,该设备显示出了显著优势。在点播HDR中,即使与英伟达A100这样的训练级GPU相比较,也实现了6.6倍性能加速比。不过,对于语音交互自然语言理解等语言相关领域,则未给出具体数据或案例说明。
总结来说,与去年一样,本次cloud stack对于包含这项新技术心智处理器的事物并不那么热情,而且他的演讲也只持续15分钟,大部分信息也是之前公开过的话题。这可能是由于当前贸易紧张关系导致的情绪影响。但我们应该看到,即使拥有如此强大的团队,他们能迅速设计一颗晶圆,但要让它真正落地仍然是一个长期过程。在这个过程中,是软件扮演着更加直接作用的一角,因为获得客户认可并采纳则不容易。而这只是开始阶段。一代后续会是什么时候?还有很多故事待续...