在2022年手机处理器性能排行榜上阿里含光800 AI处理器的高调亮相就像一位舞蹈家的华丽登场它在三
在2022年,阿里巴巴集团首席技术官兼阿里云智能总裁张建锋在杭州云栖大会上隆重发布了他们的首款AI芯片——含光800。这款当时最强大的AI推理芯片的亮相,如同一位高超艺术家展现其杰作,引起了科技界巨人的高度关注。
一年之后,在阿里线上云栖举办的芯片设计发展现状与未来的论坛中,阿里云异构计算产品研发总监龙欣详细介绍了含光800近一年来的最新进展。龙欣宣布,“含光800 NPU实例已经正式对外服务,不需要白名单就可以在阿里云实例上购买。”这款芯片支持8核NPU和96核vCPU、384G内存以及网络带宽最高达到30Gbit/s,以数据中心CNN类型模型推理加速为主要应用场景。
更令人振奋的是,含光800在实际应用中的表现。尽管它尚未对外发售,但通过阿里云输出的性能数据显示,它能够提供卓越的效率和性价比。在电商、视觉识别、语音交互和自然语言理解等众多领域,都有着广泛且深入的AI应用需求,这些都是促使科技巨头自研芯片以提升效率和性价比的直接驱动力。
拍立淘,即一个典型案例,它拥有两千多万日活用户,他们使用该功能进行图片搜索,并根据用户习惯进行个性化推荐,这种复杂操作需强大的AI能力支持。因此,通过自研硬件到软件方案来提升性价比,是 阿里的重要战略目标。
涉及至于硬件优化方面,可见三大特色:深度优化CNN及视觉类算法,加速卷积和矩阵乘,以及针对ResNet-50、SSD/DSSD等模型进行专门优化。此外,还包括高能效低延时、高密度计算与存储,以及软硬协同支持权重稀疏压缩等特点。指令集则可编程扩展,以适应未来新型激活函数,同时覆盖FP16/BFP16向量计算并加速各种ReLu、Sigmoid等激活函数。
去年发布时,其推理性能达到了78563 IPS,比业界最好的AI芯片性能高4倍;能效比500 IPS/W,是第二名3.3倍之多。而今年龙欣并没有提及峰值性能,而是强调其可用性。他表示:“作为并没有在公开市场发售的芯片,我们通过阿里云输出。”为了让用户开箱即用,系统预装主流深度学习框架,并提供TensorFlow示范教程。
目前具体应用中相较GPU有4-11倍性能提升。在城市大脑中实时处理视频,从40颗传统GPU降低到仅需4颗;拍立淘商品库每天新增10亿商品图片,从1小时缩减至5分钟。此外,在行人检测、中车辆检测以及直播视频增强等场景中,也展示出显著优势,其中包括帧率从1800 FPS提高至20000 FPS甚至5000 FPS,对比主流推理GPU提升11倍或10.8倍。