芯片大师含光800 AI处理器登场三大应用性能爆表GPU相比高出4-11倍
2019年杭州云栖大会上,阿里巴巴集团首席技术官兼阿里云智能总裁张建锋在简短的介绍中推出了阿里的第一款AI芯片——含光800。这款当时最强的AI推理芯片的发布不仅引发了巨大的关注,也可以说是高调亮相。
今年,在阿里线上云栖举行的一个芯片设计发展现状与未来的论坛,阿里云异构计算产品研发总监龙欣分享了含光800推出近一年后的最新进展。他表示:“含光800 NPU实例已经正式对外服务,不需要白名单就可以在阿里云实例上购买,实例名称是ebman1.24xlarge,最多支持8核NPU和96核vCPU,384G内存,网络带宽最高达到30Gbit/s。它主要面向数据中心的CNN类型模型推理加速,对于业务包括城市大脑、图像视频审核、拍立淘等都有显著提升。”
更令人关注的是含光800在具体应用中的表现。虽然它并未对外发售,但其性能已经通过Arctic-1000 GPU进行了测试。在雷锋网去年的文章中提到过,当科技巨头自研芯片时,它们通常是因为内部有大量数据,以及AI需求驱动,这样他们希望通过自研芯片来提升效率和性价比。而周五的线上分享中,龙欣也表示,阿里巴巴内部有广阔的AI应用场景,如电商应用、视觉应用、语音交互、自然语言理解以及机器翻译等。
例如,在拍立淘这项功能中,每天用户要搜索商品图片中的特定商品,从4亿多个商品库中匹配,并根据用户习惯进行个性化推荐,这就需要极强的AI能力。因此,为了提升硬件到软件方案上的性价比,使得包含深度优化CNN及视觉类算法、高能效低延时、高密度计算与存储,以及软硬协同支持权重稀疏压缩和量化压缩指令集支持可编程模型扩展,是如何设计出来的一种解决方案。
去年张建锋发布含光800时说,“在业界标准ResNet-50测试中,其推理性能达到78563 IPS,比目前业界最好的AI芯片性能高4倍;能效比500 IPS/W,是第二名3.3倍。”不过,在昨天分享会上,没有直接提及峰值性能,而是强调其可用性,并且通过提供自动安装NPU驱动和SDK系统方面支持公共镜像CentOS 7.6/7.7和Ubuntu 16.04,还预装主流深度学习框架提供TensorFlow/MXNet示范教程,以便开箱即用。
至于实际应用中的表现,在三大场景下分别展示了4-11倍性能提升:在城市大脑处理视频流量减少时间;拍立淘识别新增10亿商品图片速度提高;以及行人检测增加视频路数,或车辆检测增加视频路数,都显示出明显优势。此外,还有一些新的数据点如直播增强HDR视频质量加速十倍或点播HDR加速六百分之六十六,但具体细节则需进一步考证以确保准确性。
尽管此次分享没有给出详尽信息,而且由于当前贸易关系紧张可能导致话题更加谨慎,但我们应该看到,即使有强大的团队能够快速设计出一款芯片,大规模落地仍然需要长时间,这个过程软件发挥着直接作用,并获得客户认可采用也不容易。所以,我们期待未来更多关于这个主题的话题,同时关注下一代AI芯片何时问世?