2023年新一代AI芯片将以惊人的速度冲破内存墙的束缚将彻底颠覆2023芯片市场的现状与趋势
2023年,新一代AI芯片即将颠覆市场:如何解决内存墙的关键?
近几年再次兴起的AI热潮,不仅引发了芯片巨头们的AI芯片战,更让科技巨头们纷纷开始了AI芯片的研发。在AI芯片的争夺中,算力首先成为了焦点。不过,算力提升之后,算力与内存的不匹配又成为了阻碍AI向前发展的关键。此时,一家成立于2017年的初创公司提出的存储优先架构(SFA)表示很好地解决了内存墙的问题,事实是否如此?
【 图片来源:supernovainvest 】
AI芯片真正的问题是内存墙
算力、算法、数据被认为是AI向前发展的三个关键因素,更高的算力自然必不可少,这也直接驱动了AI芯片公司们推出更高算力的AI芯片。不过,目前对于AI芯片没有一个严格和公认标准,一种非常宽泛看法是,将面向人工智能应用的一切都称为“机器学习”或“深度学习”。
需要指出,这一轮的人工智能热潮很大程度上受到了机器学习尤其是深度学习受到了追捧。由于目前常见的是CPU、GPU、FPGA、ASIC都可以运行深度学习计算,因此这些硬件都可以称为“深度学习处理器”。
CPU、GPU、FPGA、ASIC特点【 图片来源:hackernoon 】
这意味着,如今对任何一种硬件而言,它重要意义在于满足机器学习需求。但即便经验丰富如Arm,也认识到问题走了一些弯路。Arm机器学习部门商业与市场副总裁Dennis Laudick此前接受雷锋网采访时就表示:“我们第一次看到机器学习时,我们首先想到的是从已有的处理类型中的一种开始,因此我们开始用了GPU方法,但最终发现我们的处理方式面临不是处理问题,而是在数据问题,最终取消了GPU方法。”
说得更直白一些,是因为深度网络具有高并发、高耦合性质,不仅有大量数据参与整个过程,而且这些数据之间关系紧密,对带宽提出了极高要求,大规模交换尤其是内部DDR与外部通信增大功耗。
越来越多的人意识到,即使是基于传统冯诺依曼体系结构设计出来的大型计算集群,它们依然无法完全利用当前可用的技术进行有效使用。这表明,在未来人工智能领域,无论怎样的设备,只要它们不能提供足够快捷且低成本的手段来管理和访问信息,那么它们将会成为瓶颈。
4种常见解决方案
加强带宽:
采用HBM2等高速外部存储降低对DDR速度。
缓解缓慢 DDR 访问速率限制,但调度仍旧难以掌握。
片上分布式存储:
在微控制单元之中放入大量SRAM,使得减少对主板上的RAM。
但成本昂贵且体积庞大。
算法优化:
设计二值神经网络简化输入和输出以及权重管理。
精确性付出代价,对某些应用来说不适用。
存储单元结合计算单元:
内置简单计算能力,如加法树等,以提高性能。
可能会导致复杂性增加及效率不佳。
显然,上述所有解决方案还未成功克服这一挑战,其中原因之一在于绝大部分现有的人工智能系统——那些基于类似CPU架构设计,并专注于整合更多并行运算以实现更大的计算能力——一直以来,都依赖编译程序或传统缓冲管理策略来安排资源分配,而这种做法无法应对日益增长的大量数据所需带来的挑战。
探索新的路径:
然而,要真正克服这一障碍,我们必须重新审视现有的设计思路,并寻求突破性的创新。北京探乡科技有限公司就是这样做的一个例子,他们通过重新思考核心概念—将数据作为基础而非计算操作—开发了一种全新的架构风格—SFA(Storage First Architecture)。
CEO鲁勇解释道:“我们的团队成员平均拥有15年以上行业经验,有足够能力去挖掘核心问题本质,同时团队成员也有这样的条件去坚定地去解决难题。”他们采用一种独特无MAC设计方式,并巧妙地利用图形模型进行优化,从而最大限度减少必要移动后的重复工作,为每个节点提供自适应稀疏处理功能,从根本上改善内存在不同精确级别中的行为模式,以及如何灵活连接不同的节点,以避免出现过多重复操作的情况。
根据实验结果,与其他竞品相比,该SFA架构能够显著降低10倍至100倍水平下的数据访问时间,其效率达到了4T OPS/W,同时保持超过80% 的资源利用率,比肩甚至超越当前市场上最高性能产品。在28nm工艺条件下,该系统能效比达到惊人的4T OPS/W;它支持任意神经网络模型,可以同时执行浮点数和定点数;它还具有高度灵活性,可以用于本地推理或云端训练,或两者兼备;最后,它采用自适应稀疏化技术,无需在离线阶段剪枝压缩,即可实现最佳效果。而这个全面突破性的改变,将彻底革新后续市场趋势,让我们期待这款革命性的产品究竟如何影响未来人工智能领域!