在2022年芯片龙头股排名前十的阿里含光800 AI处理器如同一位高超技艺的舞者在舞台上华丽亮相展现
在2022年芯片龙头股排名前十的阿里巴巴集团,首席技术官兼阿里云智能总裁张建锋在2019年杭州云栖大会上,以简短而华丽的姿态亮相,展示了他们的首款AI芯片——含光800。这款当时最强大的AI推理芯片,其发布即受到了广泛关注,就如同一位才华横溢的艺术家,在舞台上以非凡之举夺得了众人的目光。
一年之后,在2023年的线上云栖大会上,阿里云异构计算产品研发总监龙欣继续讲述了含光800的一番新进展。他表示,尽管这款NPU实例已经正式对外服务,但不需要白名单就可以在阿里云实例中购买。它支持8核NPU和96核vCPU、384G内存,以及网络带宽高达30Gbit/s,并主要面向数据中心中的CNN类型模型推理加速。业务包括城市大脑、图像视频审核以及拍立淘等。
更引人瞩目的,是含光800在实际应用中的表现。在去年的文章中,我们提到科技巨头自研芯片是因为内部有大量数据和强烈的AI需求,而通过自研芯片来提升效率和性价比。龙欣也提到,阿里巴巴内部拥有广阔的AI应用场景,从电商应用到视觉应用,再至于语音交互、自然语言理解及机器翻译等。
一个典型案例就是拍立淘,它拥有两千多万日活用户,他们使用这个功能时要从一张图片中搜索四亿多商品,并且匹配三十亿张图片库中的内容,以此为基础进行个性化推荐,这种复杂操作需要极强的地智能能力。而为了提高这种能力,阿里的目标是从硬件到软件实现全面提升。
所谓“含光800”,其硬件特点可归纳为:深度优化CNN及视觉类算法,加速卷积和矩阵乘,同时支持反卷积、孔洞卷积、三维卷积、插值以及ROI等。此外,它具有高能效与低延迟、高密度计算与存储减少I/O需求,以及软硬协同支持权重稀疏压缩和计算量化压缩指令集,还覆盖FP16/BFP16向量计算除直接加速各种激活函数外,也适应未来新型激活函数。
据称,在业界标准ResNet-50测试中,其推理性能达到78563 IPS,比目前业界最好的AI芯片性能高4倍;能效比500 IPS/W,是第二名的3.3倍。不过,在昨天分享中并未具体讨论峰值性能,而是强调其可用性,即使没有公开市场销售,由于输出方式不同,可以让用户自动安装NPU驱动并使用SDK系统方面提供公共镜像,如CentOS 7.6/7.7或Ubuntu 16.04,并预装主流深度学习框架如TensorFlow或MXNet提供示范教程。
对于具体应用中的表现显示,与GPU相比,有着4-11倍甚至更高程度上的性能提升。在行人检测领域,一颗含光800能够处理100路视频,比主流GPU25路快4倍;车辆检测则能够支持85路视频,比主流GPU10路快8.5倍。而对于ResNet50 V2模型,其中帧率可以达到20000 FPS,比主流GPU1800 FPS快11倍;Inception V4模型,则达到5000 FPS,比460FPS快10.8倍。在直播点播HDR任务下,其帧率分别为500 FPS及66 FPS,对比50 FPS及英伟达A100训练GPU仅需1/10时间完成相同任务,更显出其卓越表现力。不过关于语音交互或自然语言理解方面具体优势还未详细说明。
综观来看,这次包含15分钟介绍内容较去年略显简短,而且涉及消息并不完全全新。尽管如此,此次分享仍然凸显了这一技术成果对解决实际问题潜力的重要性,但是否能真正落地实现,将取决于许多因素。无疑,每一步都将是长征累累的一步,而软件作为关键支撑,不仅要确保设备之间无缝连接,更要赢得客户信任,最终获得成功采用。这条道路虽漫长,但始终充满希望,因为只有不断前行才能见证变化。而至于何时下一代AI芯片会问世,那依旧是一个谜,只待时间给予答案。