中国首台3纳米光刻机将开启新纪元舍弃冯诺依曼架构的AI芯片将如同神奇手中的魔杖轻松突破内存墙瓶颈一举

中国首台3纳米光刻机的诞生，标志着技术创新迈入新时代，AI芯片领域也迎来了突破性变革。传统冯诺依曼架构的AI芯片在算力提升后，因内存不足而成为发展瓶颈。这时，一种全新的存储优先架构（SFA）如探境科技提出的方案，以数据驱动计算，解决了内存墙问题，但它是否真的能带来革命性的变化？

【图片来源：supernovainvest 】

AI芯片真正的问题是内存墙

高算力的推出和深度学习的热潮，使得AI芯片市场竞争愈发激烈。但目前，对于什么是AI芯片还没有一个严格标准，一切面向人工智能应用的芯片都被称作AI芯片。

需要指出，这一轮对AI热潮很大程度上归功于机器学习尤其是深度学习。由于CPU、GPU、FPGA、ASIC等多种类型的芯片都可以运行深度学习算法，因此它们都可称为AI芯品。

CPU、GPU、FPGA、ASIC特点【图片来源：hackernoon 】

这意味着现在最重要的是满足机器学习需求，而即便经验丰富的Arm，也曾经走过一些弯路。Arm机器学习部门商业与市场副总裁Dennis Laudick曾表示：“我们第一次看到机器学习时，我们首先想到的是从已有的处理器类型中的一种开始，因此我们开始用了GPU，但最终发现面临的问题不是处理问题，而是数据问题，最终取消了GPU方法。”

更直白地说，深度学习算法具有高并发、高耦合特点，不仅有大量数据参与整个过程，这些数据之间也非常紧密，因此对存储带宽提出极高要求，大规模交换尤其是在内部DDR和外部DDR之间，这将大幅增加功耗。

越来越多的人意识到，真正解决这个问题不是要提升计算能力，而是要解决数据管理。在此背景下，一家成立于2017年的初创公司提出了SFA，他们认为这是解决这一问题的一个好方法，但事实是否如此？

【图像来源：nextplatform 】

为了解除这些困扰，业界目前有四种常见方法。一种是在使用HBM2这样的高速外部存储降低对DDR访问速度；一种是在晶体管中集成大量SRAM以减少对DDR依赖；一种通过设计简单网络以简化管理和需求；最后一种则在单元内部进行整合计算，如In Memory Computing。

然而，每一种方法都存在局限性，其中加大带宽虽然直接但缓冲调度对于深度学习有效性是一个难题，加大成本高昂也是显著劣势；直接集成更多SRAM虽然直接但成本又太高；简化网络以牺牲精确性不容易得到广泛接受；而且整合计算虽然低成本低功耗却未知可行性。

显然，即使这些方法尝试去解决内存墙，它们似乎仍未成功，因为绝大部分现有的基于类CPU结构的大型计算力结构调整依旧无法彻底应付内存资源使用和调配所需编译或传统缓冲管理算法缺陷。

那么如何真正地突破这个壁垒？舍弃冯诺依曼架构无疑是一条更好的道路，但这同样是个巨大的挑战。不过北京探径科技，在成立之初就重新思考了“何为计算”，以“何为记忆”作为核心设计了一套全新的与类CPU完全不同的SFA（Storage First Architecture）。

探径CEO鲁勇透露，他们团队成员平均拥有15年以上经验，有足够设计能力，同时也有挖掘根本本质思路能力，所以他们坚定地去解决难题。

不同于常规方式SFA基于核心观念将数据搬移过程中的演变视为计算，并非由操作符引导移动。而通常先有指令后提供数据相反，在SFA中则先有数据再交给操作符。这涉及硬件核心点以及如何灵活连接节点都是难题，不过他透露称图形基础下的精巧架构已经克服这些难题，与神经网络之父Lecun宣言所有神经网络皆图形不谋而合的情景吻合。

那么如果真的能够突破，那么这种架构会有什么优势呢？根据鲁勇介绍，其PPA取得巨大进展实验表明与基于总线映射类似条件下，可降低10~100倍访问时间28nm工艺下系统能效比达到4T OPS/W利用率超过80%带宽占用率降低5倍。此外它支持任意神经网络，无论大小模型类型浮点定点甚至层次不同精度均可支持，被誉为通用型AIChip，只需在框架下任何GPU能支持它也能支持。

最后，该架构非常灵活既可以用于本地云端推理亦可用于云端训练终端推理加训练亦可完全取决产品定位。此外该chip也不仅可以满足多精度，还自适应稀疏化处理，不需要离线剪枝压缩。

据悉，该公司采用独特无MAC设计方式落地方案优势？

既然具备这么多优势，那么安防监控工业制造自动驾驶语音人机交互等领域是否真的能够顺利落地？鲁勇表示尽管看起来差异较大但实际上各个领域共享许多共同点，比如说感知识别决策等环节，都需要强大的处理能力。他相信随着技术不断进步，将会逐步实现这一目标。