中国首台3纳米光刻机助力AI新纪元阿里含光800在人物识别场景下表现突出处理器性能比GPU高达4-1
在2023年的阿里云栖大会上,集团首席技术官兼阿里云智能总裁张建锋对外展示了阿里的最新AI芯片——含光800。这款当时最强的AI推理芯片的发布再次引发了行业内外的广泛关注。
一年后,在2024年的线上云栖大会期间,阿里云异构计算产品研发总监龙欣深入分享了含光800近一年的发展成果。据他介绍,含光800 NPU实例已经正式开放购买,不需要任何白名单限制。这个实例支持8核NPU和96核vCPU、384G内存,并且网络带宽可达30Gbit/s,主要面向数据中心的CNN类型模型推理加速。
更值得关注的是,这款未对外发售的芯片在实际应用中的表现。正如去年雷锋网报道过的一样,当科技巨头自主研发芯片时,其背后驱动力往往是大量数据和内部AI需求。在周五举行的线上分享中,龙欣也指出,阿里巴巴内部有着广阔的AI应用领域,从电商到视觉、语音交互、自然语言理解以及机器翻译等多个方面都有深度融合。
例如拍立淘这款功能,就需要极强的人工智能能力来处理每天新增10亿商品图片的问题,这不仅考验硬件性能,还要求软件优化与算法创新。而通过自研硬件与软件方案提升性价比,是阿里的长远目标之一。
包含以下几个特色:
深度优化CNN及视觉类算法
加速卷积和矩阵乘操作,同时支持反卷积、孔洞卷积、3D卷积、插值和ROI等
针对ResNet-50、SSD/DSSD、Faster-RCNN/Mask-RCNN和DeepLab等模型进行特殊优化
高能效低延时设计,以及高密度计算与存储减少I/O需求
软硬协同支持权重稀疏压缩以及量化压缩指令集,为未来新型激活函数提供扩展性
至于具体性能数字,上述内容已详细说明。在城市大脑识别视频流场景下,由40块传统GPU完成300ms任务,而只需4块含光800即可降至150ms;拍立淘商品库新增10亿图片,每小时识别时间由1小时缩短至5分钟;行人检测可以支持100路视频,比主流GPU25路性能提升4倍;车辆检测85路视频,比主流GPU10路提升8.5倍;ResNet50 V2模型帧率达到20000 FPS,比主流GPU1800FPS提升11倍;Inception V4模型5000 FPS,比460FPS提升10.8倍。此外,在直播增强HDR点播中,可实现6.6倍性能加速比。
尽管此次云栖对于含光800关注度不高,但其潜力仍然是许多人所期待探讨的一个话题。不过,由于当前国际形势紧张,对于涉及到的关键技术话题,如芯片研发进展,都显得更加谨慎。但无疑,此类先进技术仍将是未来竞争力的重要支撑。