美国禁华为芯片之谜阿里含光800 AI处理器高调亮相比喻其在三大场景中的落地性能如同雄鹰俯冲猎物远超
在2019年的云栖大会上,阿里巴巴集团首席技术官兼阿里云智能总裁张建锋隆重发布了公司的首款AI芯片——含光800。这款当时最强大的AI推理芯片的问世,让整个科技界为之瞩目,其高调亮相无疑是行业内的一次重大盛事。
一年后,在2023年的线上云栖大会上,阿里云异构计算产品研发总监龙欣继续分享了含光800近一年来的最新进展。据他介绍,含光800 NPU实例已经正式对外服务,无需白名单即可在阿里云实例上购买。该实例名为ebman1.24xlarge,可支持8核NPU和96核vCPU、384G内存以及网络带宽最高达到30Gbit/s。其主要面向数据中心的CNN类型模型推理加速,应用场景包括城市大脑、图像视频审核、拍立淘等。
更引人注目的,是含光800在实际应用中的表现。在拍立淘这样的场景中,它能够实现4亿多商品库中的搜索和30多亿张图片库中的匹配,而这一切都依赖于强大的AI能力。通过自研硬件到软件方案,阿里希望提升性价比,并且在硬件方面有三个特色:深度优化CNN及视觉类算法,加速卷积和矩阵乘,以及针对特定模型如ResNet-50、SSD/DSSD进行优化。
尽管去年张建锋宣布含光800的业界标准ResNet-50测试性能达78563 IPS,比目前业界最好的AI芯片性能高4倍;能效比500 IPS/W,是第二名的3.3倍,但是在昨天的分享中并没有提及峰值性能,而是强调其可用性。龙欣表示:“作为并没有在公开市场发售的芯片,通过阿里云输出。”为了让用户开箱即用,系统支持公共镜像CentOS 7.6/7.7和Ubuntu 16.04,还预装主流深度学习框架,如TensorFlow、MXNet提供示范教程。
至于具体应用中的性能提升,在城市大脑中使用40颗传统GPU延时300ms,而使用含光800仅需4颗延时降至150ms;拍立淘商品库每天新增10亿商品图片,从传统GPU算力识别需要1小时,现在可以缩减至5分钟。此外,在行人检测应用中支持100路视频,比主流GPU25路性能提升4倍;车辆检测中支持85路视频,比主流GPU10路性能提升8.5倍;而在直播等内容识别应用中的ResNet50 V2模型,其帧率达到20000 FPS,比主流推理GPU1800 FPS性能加速11倍。在点播HDR中,由于其多核设计,可以实现6.6倍的性能加速比。
虽然今年cloudstack对含光800关注度不高,而且共享时间较短,但它仍然展现了一个令人印象深刻的事实,即使是在当前复杂国际贸易环境下,这项技术也能持续取得进步。而对于未来的发展趋势,我们期待看到更多关于下一代AI芯片推出的信息。