国内首款大算力存算一体AI芯片上车了
美国硅谷的车库,是一个神奇的地方,惠普、苹果、亚马逊、谷歌等影响世界的科技公司都诞生于车库。
中国的沙县小吃也是一个神奇的地方,国内首款大算力存算一体AI芯片的诞生与沙县小吃的关系颇为密切。
“就是在沙县小吃,我和几个小伙伴们一边吃着热气腾腾的馄饨,一边滔滔不绝思绪如飞讨论着干什么。”后摩智能创始人兼CEO 吴强回忆,有人畅想无人驾驶汽车,有人憧憬机器人,他自己向往有陪伴母亲的机器人,核心都是实现万物智能,做更好的AI芯片。
那顿沙县小吃之后,有了后摩智能,吴强和他的团队基于创新的存算一体架构,耗时两年,在本周正式发布了国内首款大算力存算一体智驾芯片鸿途H30,最高物理算力 256TOPS,典型功耗 35W。
后摩智能创始人兼CEO 吴强
雷峰网(公众号:雷峰网)了解到,基于鸿途H30打造的智能驾驶解决方案已经在合作伙伴的无人小车上完成部署。鸿途H30将于6月份开始给 Alpha 客户送测。
国内首款大算力存算一体AI芯片
存算一体,从字面简单理解,就是存储和计算融为一体。
“存算一体架构将存储和计算功能融合,是比传统架构更接近人脑的计算方式,具备远高于传统方式的计算效率。”吴强介绍,“我们坚定地选择以存算一体的底层架构创新,来实现 AI 计算效率的极致突破。”
存算一体架构在学界已经研究多年,是解决AI存储墙问题的好选择。不过,存算一体根据存储介质的不同,也有所差别。
后摩智能联合创始人兼研发副总裁陈亮介绍,鸿途H30 基于 SRAM 存储介质,采用数字存算一体架构,拥有极低的访存功耗和超高的计算密度,在Int8数据精度条件下,其 AI 核心IPU 能效比高达15Tops/W,是传统架构芯片的7倍以上。
后摩智能联合创始人兼研发副总裁陈亮
能效比7倍的提升在摩尔定律放缓的背景下更加突显了优势。
后摩智能联合创始人兼产品副总裁信晓旭介绍,鸿途H30基于12nm工艺制程,在Int8数据精度下实现高达256TOPS的物理算力,所需功耗不超过 35W,整个SoC能效比达到 7.3Tops/W,具有高计算效率、低计算延时、低工艺依赖等特点。
根据后摩智能给出的数据,在实际性能测试中,鸿途H30 基于Resnet 50 模型的 Benchmark,在 Batch Size 等于1 和 8 的条件下分别达到了 8700 帧/秒和 10300 帧/秒的性能。
雷峰网了解到,之所以定义一颗AI算力超过100T的大算力AI芯片,原因是这款芯片的定位是既能支持L2+级自动驾驶,也支持L4级。并且会根据不同场景,推出几个系列的产品。
也就是说,鸿途H30是面向汽车市场的芯片。
陈亮强调,鸿途H30 以存算一体创新架构实现了六大技术突破,即大算力、全精度、低功耗、车规级、可量产、通用性。
为何先攻汽车市场?
在进一步了解后摩的大算力存算一体芯片之前,先要弄清楚一个关键问题,为什么选择汽车市场?
“有个朋友问我,你为什么首选智能驾驶这个赛道,这个赛道那么卷。”吴强说,“我当时开玩笑说因为别的赛道更卷,但真实的原因是智能驾驶其实空间很大,万物智能的时代,不可能没有无人驾驶。”
中国电动汽车百人会副理事长兼秘书长张永伟在后摩智能的发布会上说,智能驾驶市场规模庞大,仍处于加速渗透的阶段,为新技术和新企业提供了创新发展的巨大机遇。存算一体作为一种创新技术,对工艺制程依赖度低,具有极高的竞争力,为智能驾驶芯片提供了更具前瞻性的技术路径选择。
“更重要的原因是,存算一体带来的技术和产品的优势,和智能驾驶的关键需求天然吻合。从终局的角度,智能驾驶芯片一定要无限接近脑的行驶和效率。”吴强进一步表示。
明确了面向汽车市场,定义起芯片就更加容易。
后摩智能面向智能驾驶场景打造了专用 IPU(处理器架构)——天枢架构,采用多核、多硬件线程的方式扩展算力,实现了计算效率与算力灵活扩展的完美均衡,AI 计算可以在核内完成端到端处理,保证通用性。
陈亮说,“天枢架构的设计理念源自于庭院式的中国传统住宅,以大布局设计保障计算资源利用效率的同时,再进一步结合现代住宅多层/高层的设计优势,以多核/多硬件线程的方式灵活扩展算力。得益于灵活、高效的硬件
架构设计,鸿途H30实现了性能2倍提升的同时,还降低了50%功耗。”
基于鸿途H30,后摩智能推出了智能驾驶硬件平台——力驭,力驭平台 CPU 算力可达200 Kdmips,AI 算力高 256Tops,支持多传感器输入,功耗为85W。
存算一体架构的优势要发挥出来需要软硬件的协同设计,有易于使用的工具链,包括对自动驾驶模型的优化。
“为了让客户拥有更好的产品使用体验,我们自主研发了一款软件开发工具链——后摩大道。” 信晓旭介绍,后摩大道支持 PyTorch、TensorFlow 、ONNX 等主流开源框架,编程兼容 CUDA 前端语法,同时支持SIMD和SIMT两种编程模型,能兼顾运行效率和开发效率,以无侵入式的底层架构创新保障了通用性。
后摩智能联合创始人兼产品副总裁信晓旭
通用性之外,易用性也十分关键。易用性的一个体现是针对AI模型进行优化。目前,鸿途H30已成功运行常用的经典CV网络和多种自动驾驶先进网络,包括业内最受关注的 BEV网络模型以及广泛应用于高阶辅助驾驶领域的Pointpillar网络模型。
下一步是大模型和通用人工智能
存算一体的大算力汽车芯片只是后摩智能的第一步,其已经规划到了第三代架构。
陈亮透露,后摩智能的第二代天璇架构已经在研发中,将采用Mesh 互联结构,可根据应用场景的不同配置计算单元的数量,整体性能、效率和灵活性将进一步跃升,支持多场景应用,例如成本和功耗敏感的智能终端、大模型等场景。
第三代天玑架构已经开始规划,将为万物智能打造。
另外,鸿途H50 已经在全力研发中,将于2024年推出,支持客户 2025年的量产车型。
有人认为,存算一体架构芯片是颠覆式创新,但同时也有人对存算一体芯片的未来持怀疑态度。无论如何,市场是最好的检验场。
吴强和他的团队会坚定不移地专注于底层技术创新,打造极致效率的计算芯片,与生态链上的合作伙伴密切合作,共同推进万物智能的实现。