将1nm工艺是不是极限了的神秘深度发挥至AI芯片新纪元是否即将开启一场突破内存墙瓶颈的革命性风潮以震
1nm工艺是不是极限了?AI芯片新纪元将如何突破内存墙瓶颈?
在AI热潮再起的今天,科技巨头们纷纷投入研发AI芯片,而算力与内存不匹配成为了阻碍AI发展的关键。存储优先架构(SFA)正试图解决这一问题,但事实是否如此?
【 图片来源:supernovainvest 】
AI芯片的真正挑战是内存墙
高算力、智能算法和海量数据被认为是推动AI前进的三大驱动力,更高的算力自然需要更多强大的芯片。不过,目前对于AI芯片定义并无严格标准,一般而言,只要能处理深度学习,就可以称之为AI芯片。
这次热潮主要围绕机器学习尤其是深度学习展开,因为CPU、GPU、FPGA、ASIC都可运行深度学习算法,因此它们都可被视作AI芯片。
【 图片来源:hackernoon 】
这意味着当前最重要的是满足机器学习需求。即便经验丰富的Arm也走过弯路。Arm机器学习部门商业与市场副总裁Dennis Laudick曾指出:“我们第一次看到机器学习时,我们首先想到的是从已有处理器中开始,因此我们使用了GPU方法,但最终发现面对的问题不是处理问题,而是数据问题。”
简而言之,深度学习具有高并发、高耦合特点,不仅有大量数据参与整个过程,这些数据之间也非常紧密因此对存储带宽提出了极高要求,大规模数据交换尤其是在芯片与外部DDR之间,这将大幅增加功耗。
越来越多的人认识到,真正的问题并不在于计算,而在于数据。这导致了一系列带宽和功耗瓶颈,被称为“内存墙”。
4种常见解决方法
传统冯诺依曼体系结构利用内部缓冲区来管理这些操作,从而提高效率。但当运算单元达到一定水平时,无法跟上速度,再增强运算能力也没用,这阻碍了进步。
为了克服这个障碍,有四种常见方案:
加大外部存储带宽,如HBM2,以减少对DDR访问。
在晶体管上集成大量SRAM以代替DDR。
通过设计低比特权重神经网络降低需求和管理复杂性。
设计新的类型嵌入式计算单元进行全局化计算。
然而,每种方法都存在局限性,比如成本或精度损失。此外,由于绝大部分晶体管都是基于类CPU架构,它们专注于提升并行性能,却依赖编译器或传统缓存管理策略,没有有效解决内存壁垒。
SFA架构如何突破?
探索一个更好的方式——舍弃冯诺依曼结构——显然是一个难题但值得尝试。北京探境科技成立于2017年,他们重新思考了计算和记忆关系,并且以记忆为导向设计了一套完全不同于类CPU结构——SFA(Storage First Architecture)。
CEO鲁勇解释说:“我们的团队成员平均拥有15年以上经验,有足够能力去挖掘核心本质。”他们坚定地面对难题,为此他们采用一种独特的思路,将数据搬移过程中的计算作为核心功能,让计算由演变成为一部分,即由数据引导而非由命令引导。
然而,这个全新的架构仍然面临许多挑战,如硬件核心点、管理以及节点灵活连接等难题。不过探径科技透露,他们已经设计出针对性的解决方案,使得图像识别等基础任务更加优雅且快速。此观点符合著名人工智能专家Yoshua Bengio关于所有神经网络都是图像识别的一般情况下的看法。
那么,在未来的市场中,该架构会有什么优势呢?根据鲁勇介绍:
PPA取得巨大突破,实验表明,与基于总线及指令集映射相比,可降低10~100倍的事务访问时间。
能效比达到4T OPS/W,对28nm工艺下系统能效表现良好,同时资源利用率超过80%, DDR带宽占用率降低5倍。
支持任意神经网络,无论大小模型还是不同的精度类型,都能够支持自适应稀疏化处理,不需离线剪枝或压缩处理。
架构灵活,可以用于本地云端推理加训练,以及终端推理加训练应用程序开发,全凭产品定位决定使用哪一种形式实现目标应用程序所需功能
虽然这种新型架构具有诸多优势,但它是否真的能成功实施还待观察。而如果它能够顺利进入市场,那么未来可能会改变一切,让我们期待这一天!