小米芯片强势登场含光800 AI处理器在三大场景中超越GPU性能飙升4-11倍
2019年杭州云栖大会上,阿里巴巴集团首席技术官兼阿里云智能总裁张建锋在简短的介绍中推出了阿里的首款AI芯片——含光800。这款当时最强的AI推理芯片的发布不仅引发了巨大的关注,也可谓是高调亮相。今年,在阿里线上云栖举办的一场芯片设计发展现状与未来的论坛,阿里云异构计算产品研发总监龙欣分享了含光800推出近一年后的最新进展。
他表示:“含光800 NPU实例已经正式对外服务,不需要白名单就可以在阿里云实例上购买,实例名称是ebman1.24xlarge,最多支持8核NPU和96核vCPU,384G内存,网络带宽最高达到30Gbit/s。主要面向数据中心的CNN类型模型推理加速,业务包括城市大脑、图像视频审核、拍立淘等。”
更令人关注的是含光800在具体应用中的表现。在去年的文章中,我们提到科技巨头自研芯片,是因为有大量数据,在内部的AI需求推动下,他们希望通过自研芯片来提升效率和性价比。周五的线上分享中,龙欣也指出,阿里巴巴内部有广阔的AI应用,这些应用包括电商应用、视觉应用、语音交互、自然语言理解、机器翻译等。
一个典型的例子就是拍立淘,它拥有两千多万日活用户,每天要透过一张图片,在4亿多商品中进行搜索,以及在30多亿张图片库中进行匹配,并根据用户习惯进行个性化推荐,这就需要非常强大的AI能力。因此,阿里希望通过自研硬件方案,从硬件到软件层面的优化提升其性能和效率。
做一个简单回顾,我们知道含光800在硬件方面具有深度优化CNN及视觉类算法,加速卷积和矩阵乘,同时支持反卷积、三维卷积以及插值操作。此外,还提供针对特定模型如ResNet-50、高能效低延时、高密度计算与存储,以及软硬协同支持权重稀疏压缩等功能。
去年,当张建锋发布含光800时,他声称它能够以业界标准下的ResNet-50测试为基准,其推理性能达到了78563 IPS,比目前业界最好的GPU性能高4倍;而且它能效比达到了500 IPS/W,比第二名高3.3倍。不过昨天龙欣并没有提及这些峰值性能,而是强调了其可用性。他表示,“尽管我们没有将其放入公开市场,但我们通过Arab Cloud输出。”为了让这个新技术更加便捷使用,使得购买实例的人员可以自动安装NPU驱动程序以及SDK系统方面还预装主流深度学习框架,如TensorFlow和MXNet,并提供示范教程。
至于实际应用情况,由于涉及到的数据量庞大,因此很难直接比较,但据说在一些特定的场景下,与传统GPU相比,该技术能够实现4-11倍甚至更高级别上的速度提升。在行人检测领域,只需四颗含光处理器即可处理100路视频流,而普通GPU则只能支撑25路;车辆检测同样只需四颗处理器即可支撑85路视频流,而普通GPU只有10路。而对于内容识别任务,如直播或短视频识别,其中某种模型所需帧数分别从原来的1800FPS提高到20000FPS,即使是在另一种不同类型的问题解码任务中,也能显著提高解决问题速度。
尽管如此,对于包含语音交互或自然语言理解这样的其他语言相关领域,则仍未公布任何详细数据。但无疑,将会是一个未来研究方向的一个重点。此次分享虽然信息丰富,却未能给予我们足够丰富的情境展示,让人们更加了解这项技术如何被整合用于各种复杂情境之中的潜力。