在2022年芯片龙头股排名前十的阿里含光800 AI处理器如同一位高超技艺的舞者在舞台上华丽亮相展现

在2022年芯片龙头股排名前十的阿里巴巴集团，首席技术官兼阿里云智能总裁张建锋在2019年杭州云栖大会上，以简短而华丽的姿态亮相，展示了他们的首款AI芯片——含光800。这款当时最强大的AI推理芯片，其发布即受到了广泛关注，就如同一位才华横溢的艺术家，在舞台上以非凡之举夺得了众人的目光。

一年之后，在2023年的线上云栖大会上，阿里云异构计算产品研发总监龙欣继续讲述了含光800的一番新进展。他表示，尽管这款NPU实例已经正式对外服务，但不需要白名单就可以在阿里云实例中购买。它支持8核NPU和96核vCPU、384G内存，以及网络带宽高达30Gbit/s，并主要面向数据中心中的CNN类型模型推理加速。业务包括城市大脑、图像视频审核以及拍立淘等。

更引人瞩目的，是含光800在实际应用中的表现。在去年的文章中，我们提到科技巨头自研芯片是因为内部有大量数据和强烈的AI需求，而通过自研芯片来提升效率和性价比。龙欣也提到，阿里巴巴内部拥有广阔的AI应用场景，从电商应用到视觉应用，再至于语音交互、自然语言理解及机器翻译等。

一个典型案例就是拍立淘，它拥有两千多万日活用户，他们使用这个功能时要从一张图片中搜索四亿多商品，并且匹配三十亿张图片库中的内容，以此为基础进行个性化推荐，这种复杂操作需要极强的地智能能力。而为了提高这种能力，阿里的目标是从硬件到软件实现全面提升。

所谓“含光800”，其硬件特点可归纳为：深度优化CNN及视觉类算法，加速卷积和矩阵乘，同时支持反卷积、孔洞卷积、三维卷积、插值以及ROI等。此外，它具有高能效与低延迟、高密度计算与存储减少I/O需求，以及软硬协同支持权重稀疏压缩和计算量化压缩指令集，还覆盖FP16/BFP16向量计算除直接加速各种激活函数外，也适应未来新型激活函数。

据称，在业界标准ResNet-50测试中，其推理性能达到78563 IPS，比目前业界最好的AI芯片性能高4倍；能效比500 IPS/W，是第二名的3.3倍。不过，在昨天分享中并未具体讨论峰值性能，而是强调其可用性，即使没有公开市场销售，由于输出方式不同，可以让用户自动安装NPU驱动并使用SDK系统方面提供公共镜像，如CentOS 7.6/7.7或Ubuntu 16.04，并预装主流深度学习框架如TensorFlow或MXNet提供示范教程。

对于具体应用中的表现显示，与GPU相比，有着4-11倍甚至更高程度上的性能提升。在行人检测领域，一颗含光800能够处理100路视频，比主流GPU25路快4倍；车辆检测则能够支持85路视频，比主流GPU10路快8.5倍。而对于ResNet50 V2模型，其中帧率可以达到20000 FPS，比主流GPU1800 FPS快11倍；Inception V4模型，则达到5000 FPS，比460FPS快10.8倍。在直播点播HDR任务下，其帧率分别为500 FPS及66 FPS，对比50 FPS及英伟达A100训练GPU仅需1/10时间完成相同任务，更显出其卓越表现力。不过关于语音交互或自然语言理解方面具体优势还未详细说明。

综观来看，这次包含15分钟介绍内容较去年略显简短，而且涉及消息并不完全全新。尽管如此，此次分享仍然凸显了这一技术成果对解决实际问题潜力的重要性，但是否能真正落地实现，将取决于许多因素。无疑，每一步都将是长征累累的一步，而软件作为关键支撑，不仅要确保设备之间无缝连接，更要赢得客户信任，最终获得成功采用。这条道路虽漫长，但始终充满希望，因为只有不断前行才能见证变化。而至于何时下一代AI芯片会问世，那依旧是一个谜，只待时间给予答案。

标签：机器人

在2022年芯片龙头股排名前十的阿里含光800 AI处理器如同一位高超技艺的舞者在舞台上华丽亮相展现

猜你喜欢

强力推荐