目前中国芯片技术新星闪耀阿里含光800 AI处理器震撼亮相三大关键场景性能爆表GPU比拼出惊人的4-
2019年杭州云栖大会上,阿里巴巴集团首席技术官兼阿里云智能总裁张建锋在简短的介绍中揭晓了阿里的首款AI芯片含光800,这款当时最强大的AI推理芯片的发布极大地吸引了人们的关注,几乎是高调亮相。
今年,在一次关于芯片设计发展现状与未来的论坛上,阿里云异构计算产品研发总监龙欣分享了含光800推出近一年后的最新进展。他指出:“含光800 NPU实例已经正式对外服务,不需要白名单就可以在阿里云实例上购买,实例名称是ebman1.24xlarge,最多支持8核NPU和96核vCPU、384G内存、网络带宽最高达到30Gbit/s,主要面向数据中心的CNN类型模型推理加速,其业务包括城市大脑、图像视频审核以及拍立淘等。”
更值得关注的是含光800在具体应用中的表现。尽管它尚未对外发售,但其性能通过阿里云输出。正如去年的文章所述,当科技巨头自行研发芯片时,他们通常有大量数据驱动内部AI需求,以提升效率和性价比。在周五线上的分享中,龙欣也提到了这一点,并且表示除了电商应用、视觉应用、语音交互以及自然语言理解等领域之外,还有许多其他潜在的应用场景,比如拍立淘,它拥有超过两千万日活用户,每天会处理成千上万张图片以便于搜索商品,从而进行个性化推荐。这要求非常强大的AI能力。
因此,对于提升硬件到软件方案的性价比,有望提供全面的解决方案。从硬件层面来看,含光800具有深度优化CNN及视觉类算法,加速卷积和矩阵乘,以及针对ResNet-50等模型优化、高能效低延时、高密度计算与存储减少I/O需求,以及软硬协同支持权重稀疏压缩和量化压缩能力等特色。
去年张建锋宣布,“在业界标准ResNet-50测试中,含光800推理性能达78563 IPS,比目前业界最好的AI芯片性能高4倍;能效比500 IPS/W,是第二名3.3倍。”不过昨天龙欣并没有提及峰值性能,而是强调其可用性,并指出“作为并没有公开市场发售的芯片,它通过Arli Cloud输出。”为了让用户能够开箱即用,他表示系统方面支持公共镜像CentOS 7.6/7.7 和Ubuntu 16.04,并预装主流深度学习框架,如TensorFlow 和 MXNet。
他还强调,在三大关键场景(城市大脑、拍立淘商品库识别、大规模行人检测)中,其性能相较于GPU有4-11倍提升。在城市大脑中使用40颗传统GPU完成300ms任务后,可仅需4颗含光800实现150ms延时。此外,在直播内容识别与视频质量增强方面,该设备展示出了显著优势,与主流GPU相比,其帧率分别增加至20000 FPS 与10倍以上。
虽然此次分享给出的实际应用优势并不丰富,而且可能受到当前贸易紧张关系影响,但可以看到,即使有一批团队快速设计出一款新型晶圆,只要想要将其广泛落地,就仍然需要漫长时间。而这整个过程,其中软件扮演着更加直接作用,同时获得客户认可也是一个挑战。对于未来是否会出现下一代AI晶圆的问题,我们只能期待时间为我们带来答案。