将1nm工艺是不是极限了的神秘深度发挥至AI芯片新纪元是否即将开启一场突破内存墙瓶颈的革命性风潮以震

1nm工艺是不是极限了？AI芯片新纪元将如何突破内存墙瓶颈？

在AI热潮再起的今天，科技巨头们纷纷投入研发AI芯片，而算力与内存不匹配成为了阻碍AI发展的关键。存储优先架构（SFA）正试图解决这一问题，但事实是否如此？

【图片来源：supernovainvest 】

AI芯片的真正挑战是内存墙

高算力、智能算法和海量数据被认为是推动AI前进的三大驱动力，更高的算力自然需要更多强大的芯片。不过，目前对于AI芯片定义并无严格标准，一般而言，只要能处理深度学习，就可以称之为AI芯片。

这次热潮主要围绕机器学习尤其是深度学习展开，因为CPU、GPU、FPGA、ASIC都可运行深度学习算法，因此它们都可被视作AI芯片。

【图片来源：hackernoon 】

这意味着当前最重要的是满足机器学习需求。即便经验丰富的Arm也走过弯路。Arm机器学习部门商业与市场副总裁Dennis Laudick曾指出：“我们第一次看到机器学习时，我们首先想到的是从已有处理器中开始，因此我们使用了GPU方法，但最终发现面对的问题不是处理问题，而是数据问题。”

简而言之，深度学习具有高并发、高耦合特点，不仅有大量数据参与整个过程，这些数据之间也非常紧密因此对存储带宽提出了极高要求，大规模数据交换尤其是在芯片与外部DDR之间，这将大幅增加功耗。

越来越多的人认识到，真正的问题并不在于计算，而在于数据。这导致了一系列带宽和功耗瓶颈，被称为“内存墙”。

4种常见解决方法

传统冯诺依曼体系结构利用内部缓冲区来管理这些操作，从而提高效率。但当运算单元达到一定水平时，无法跟上速度，再增强运算能力也没用，这阻碍了进步。

为了克服这个障碍，有四种常见方案：

加大外部存储带宽，如HBM2，以减少对DDR访问。

在晶体管上集成大量SRAM以代替DDR。

通过设计低比特权重神经网络降低需求和管理复杂性。

设计新的类型嵌入式计算单元进行全局化计算。

然而，每种方法都存在局限性，比如成本或精度损失。此外，由于绝大部分晶体管都是基于类CPU架构，它们专注于提升并行性能，却依赖编译器或传统缓存管理策略，没有有效解决内存壁垒。

SFA架构如何突破？

探索一个更好的方式——舍弃冯诺依曼结构——显然是一个难题但值得尝试。北京探境科技成立于2017年，他们重新思考了计算和记忆关系，并且以记忆为导向设计了一套完全不同于类CPU结构——SFA（Storage First Architecture）。

CEO鲁勇解释说：“我们的团队成员平均拥有15年以上经验，有足够能力去挖掘核心本质。”他们坚定地面对难题，为此他们采用一种独特的思路，将数据搬移过程中的计算作为核心功能，让计算由演变成为一部分，即由数据引导而非由命令引导。

然而，这个全新的架构仍然面临许多挑战，如硬件核心点、管理以及节点灵活连接等难题。不过探径科技透露，他们已经设计出针对性的解决方案，使得图像识别等基础任务更加优雅且快速。此观点符合著名人工智能专家Yoshua Bengio关于所有神经网络都是图像识别的一般情况下的看法。

那么，在未来的市场中，该架构会有什么优势呢？根据鲁勇介绍：

PPA取得巨大突破，实验表明，与基于总线及指令集映射相比，可降低10~100倍的事务访问时间。

能效比达到4T OPS/W，对28nm工艺下系统能效表现良好，同时资源利用率超过80%， DDR带宽占用率降低5倍。

支持任意神经网络，无论大小模型还是不同的精度类型，都能够支持自适应稀疏化处理，不需离线剪枝或压缩处理。

架构灵活，可以用于本地云端推理加训练，以及终端推理加训练应用程序开发，全凭产品定位决定使用哪一种形式实现目标应用程序所需功能

虽然这种新型架构具有诸多优势，但它是否真的能成功实施还待观察。而如果它能够顺利进入市场，那么未来可能会改变一切，让我们期待这一天！

猜你喜欢