1999元就能购买16TOPS的边缘加速卡寒武纪率先完成云边端AI布局
雷锋网消息,11月14日,寒武纪在第21届深圳高交会期间发布了边缘AI芯片思元220以及基于思元220,尺寸为U盘大小的M.2加速卡,思元220 M.2边缘加速卡实现了16TOPS(INT4)或8TOPS(INT8)的算力,售价为1999元。
寒武纪边缘端AI芯片的发布,意味着寒武纪已经率先完成了云边端AI芯片的布局,这对于其参与AI市场的竞争非常关键,对于影响成败的生态建设,寒武纪也已经有规划。
率先进入边缘AI芯片市场
一般情况下,AI芯片按照算力可以分为云端、边缘端和终端。云端AI芯片的算力通常达到上百TOPS,主要用于AI算法的大规模训练,典型的代表是英伟达的GPU。终端AI芯片则是为了满足IoT、手机、智能摄像头等的AI推理,算力在1~4TOPS之间,Arm以及不少AI芯片初创公司都已经推出了终端AI芯片。
边缘AI芯片的算力介于终端和云端之间,范围在8~30TOPS,为满足的算力需求比终端更大的场景,可以对边缘端汇聚的数据进行AI的训练和推理,这一市场目前产品还不多,而寒武纪思元220正是瞄准这一市场。
据悉,思元220芯片采用的是台积电16nm工艺,基于寒武纪最新一代智能处理器MLUv02架构,实现最大32TOPS(INT4)算力,功耗仅10W。寒武纪副总裁刘道福介绍,寒武纪最新一代处理器架构有六大方面的提升和优化,分别是:
- 第一,通过重新设计运算电路,运算指令的能效大幅提升,单核算力提升8倍;
- 第二,增加了数据压缩和解压缩指令,大幅节省内存容量和访存带宽;
- 第三,指令集扩展近百条,功能更强大更灵活;
- 第四,增加int4和int16的运算指令,可根据需求灵活选择,在高性能的场景使用更高性能的int4,在高精度的场景,使用更高精度的int16。
- 第五,增加了共享的软件可管理的共享缓存,可以软件直接控制在处理器核之间进行通讯,从而大大优化多核性能;
- 第六,为了方便处理复杂数据,增加了灵活的转置等指令,可以支持各种复杂的数据预处理。
作为一款深度学习边缘加速芯片,思元220除了核心的自研AI加速器,还集成了4核Arm A55 CPU,主频为1.5GHZ,以及PCIe3.0 1X4 or 2X2, SDIO3.0, eMMC 5.1, 双千兆以太网口。
对于国内非常关注的RISC-V架构处理器CPU,刘道福接受雷锋网等少数媒体采访时表示,寒武纪对于RISC-V的开放表示欣赏,也认为其在IoT等领域存在一定的发展空间。寒武纪对CPU伙伴一向采取开放合作的态度,也一直在关注RISC-V的发展动态。
当然,为了降低AI芯片的应用门槛,寒武纪基于思元220推出了M.2加速卡,通过标准的M.2接口可以快速实现加速,售价1999元。未来,寒武纪还会推出更高算力的产品形态。刘道福透露,寒武纪的边缘芯片计划按照一年一代的速度进行迭代。
寒武纪副总裁刘道福
云边端AI芯片矩阵已经形成
思元220的发布的意义在于,一方面是其率先进入了边缘计算的市场,另一方面,也标志着寒武纪完成了云边端的AI芯片布局。寒武纪科技创始人兼CEO陈天石在去年新一代终端智能处理器IP 产品Cambricon 1M、首款云端智能芯片 Cambricon MLU100 和板卡产品发布会上就表示,三年前我们就开始了两颗芯片的研发,我们时刻准备着将寒武纪的产品放入云端。
今年6月,寒武纪宣布推出第二代云端AI芯片思元270(MLU270)及板卡产品。更早的2016年,寒武纪就推出了“寒武纪 1A”处理器,并且大规模应用于智能手机当中。
刘道福表示,思元220的推出将进一步丰富和完善寒武纪端云一体产品体系,代表着寒武纪云边端,推理和训练的产品矩阵已经形成。
寒武纪AI芯片产品矩阵形成,能够让他们提供更加丰富的产品组合,满足更多应用场景的需求。从算力的角度看,既可以分别满足云边端的需求,也可以进行组合实现差异化。从场景看,寒武纪的智能终端处理器IP能够满足手机、IoT等终端产品的需求。边缘端的思元220则可以应用于电力、能源、交通、医疗、零售、金融、物流、教育等领域。云端的思元270面向AI推理的产品已经推出,训练版板卡也计划于今年内推出。
未来,寒武纪还会通过架构的创新增强自身的实力。刘道福认为,在AI芯片架构创新方面,除了早期的处理器架构方面的创新,更多的创新会转向工程技术,包括先进工艺,先进封装,比如2.5D,3D封装,以及chiplet。另外,软硬件协同设计,高效的编译器技术对于整个AI芯片的落地也非常重要。
AI生态建设影响成败
软硬协同设计对于AI芯片的落地非常重要,软件生态的建设更是关系到寒武纪芯片成功的关键。我们看到,寒武纪采用的云端一体的战略,首先是在产品的命名上,刘道福告诉雷锋网,我们的产品命名中,第一个数字的含义是第几代架构,今年推出的云端和边缘端产品都是采用我们的第二代架构,所以云端和边缘端产品第一个数字都是2,第二个数字用于区分云端和边缘端。未来随着产品线进一步扩充,第二个数字会有更多型号,以便区分应用场景,具体包括区分边缘或云端,或者区分推理或训练等。
除了统一的处理器架构和指令集,寒武纪也采用统一的软件栈。刘道福表示,寒武纪在终端和云端的AI芯片共享同样的软件接口和生态,我们称为Cambricon Neuware。通过云产品的应用不断升华寒武纪软件栈的先进性,通过端的应用不断推广寒武纪软件栈的实用性以及用户和开发者数量。这个思想是寒武纪率先提出的,也得到了很多业内同行的响应、认同,或在自建系统上也吸收采纳类似的做法。
具体而言,Cambricon Neuware包含了多种深度学习/机器学习编程库,以及编程语言、编译器、程序调试/调优工具、驱动工具和视频编解码工具等。在云端,开发者可以利用NeuWare提供的完备工具链简单高效地实现深度学习乃至机器学习应用的开发和调试;在终端,可以借助云端丰富的硬件资源和强大的功能进行开发和调试,仅在部署阶段将开发完成的离线文件部署到终端上,解决了终端上开发调试困难的问题。同时,由于同是基于Cambricon指令集,因此云端和终端的应用程序可以做到无缝的相互切换。
寒武纪将如何进一步完善生态?据了解,寒武纪会重点发力高校和开发者生态。高校方面,已经和很多国内高校进行了联合课程等实践,在开发者生态方面,寒武纪开发者论坛已上线,寒武纪版本Caffe已开源,后续会持续有更多组件开源开放出来,开发者社区的其他功能组件也将继续完善。
刘道福还指出,在生态构建方面,开放和标准化是个非常重要的因素,当前人工智能框架层面已经很开放了,并且形成了一些事实标准。而人工智能芯片当前的状态,却不如软件那么开放和标准化,因此,未来人工智能芯片评测标准,乃至指令的开放和标准化,会是一个值得关注的方向。
雷锋网小结
作为国内的AI独角兽,寒武纪广受关注。不过,关注度就意味着更大的压力,特别是在AI芯片进入落地阶段的当下,如何更好更快地落地对寒武纪同样是巨大的考验。随着思元220的发布,寒武纪云边端都推出了产品,丰富的产品有利于寒武纪获得更多的客户。但更为关键的是通过软件建设强大的生态推动芯片的迭代及AI的发展,这时候,除了提供易用且高性能的产品外,保持开放的心态也非常关键。
相关文章:
寒武纪推出第二代云端AI芯片,采用16nm工艺性能比上代提升4倍
寒武纪首场发布会:推出 5 款硬件 1 个平台,AI 芯片 3 年要铺 10 亿台终端