芯片巨头宣布验证华为正确Imagination性能高达600 TOPS的终极AI加速器将给Nvidi
在AI技术的浪潮中,Imagination Technologies,以其强大的第三代神经网络加速器(NNA)产品IMG Series4,宣布了一个全新的终极AI加速器。这个新产品不仅展示了公司的实力,也引起了同行们对这位老对手的关注。
11月13日,Imagination Technologies发布了耗时两年的最新NNA产品IMG Series4,其全新的多核架构能够提供高达600 TOPS(每秒万亿次操作)的超高性能。该系列主要面向先进驾驶辅助系统(ADAS)和自动驾驶应用。
作为低功耗领域的专家,Imagination推出的高性能终极AI加速器,将给在自动驾驶汽车芯片市场占有领导地位的Nvidia带来挑战吗?这个问题引发了一场关于谁能更好地适应未来智能车辆需求的大讨论。
过去两年间,Imagination已经成功推出了两代神经网络加速器——PowerVR 2NX和PowerVR 3NX。这两个版本分别从1TOPS到4.1TOPS、0.6TOPS到10TOPS,并且逐步拓展到了更多市场,如智能相机监控、消费电子以及低功耗IoT智能设备领域。
现在,这家英国科技公司终于推出了第三代NNA产品4NX。在单核性能方面,每个单核都能以不到1瓦的功耗提供12.5TOPS的性能。而且,这一新一代产品强调的是全新的多核架构,可以在多个内核之间灵活分配和同步工作负载,从而实现更高效率。
Gilberto Rodriguez,在介绍Series4 NNA时指出:“我们的软件提供精细控制能力,并通过批处理、拆分和调度提高灵活性,可以在任意数量内核上使用。Series4可为每个集群配置2个、4个、6个或者8个内核。一组8内核可以提供100 TOPS 的算力,而配有6组8核心解决方案则可以达到600 TOPS。”
此外,他还提到,“虽然市场上已有满足自动驾驶需求的AI芯片,但功耗不够理想。所以,我们花费两年时间去了解客户需求,以及基于我们前两代低功耗产品开发出这一系列新款,同时也将自动驾驶作为主打市场。”
对于如何兼顾600 TOPS 高性能与低功消的问题,Rodriguez解释说:“要实现100 TOPS 的性能,一组8核心集群需要超过30 TOP/Watt 的表现比,以及超过12 TOP/mm^2 的密度,是要在5nm节点实现。”同时,他们也提及,如果需要更高算力的协同机制,可以通过设计来完成这些任务。
尽管如此,对于延迟降低的问题,Imagination采取了一种独特策略:所有内核都可以相互协作并行处理一个任务,从而降低处理延迟。但是,由于不同任务可能需要不同的资源,因此这些内核也可以独立运行各自不同的网络或任务。
此外,这款新型号采用Tensor Tiling 技术,该技术利用本地数据依赖性,将中间数据保存在片上存储器中,大幅减少将数据传输至外部存储所需带宽。此举大幅提升效率并节省带宽,与之前版本相比可减少90%以上的带宽使用量。
最后,由于Tensor Tiling 技术中的批处理和拆分功能,使得待处理数据通过内存带宽传输减少,而且重复利用神经网络权重进一步减少了数据搬移次数,这样做有效地减少了整个过程中的移动成本。此外,对于安全性的考虑,该工具链包含IP级别安全功能,并符合ISO 26262标准,为车规级应用奠定坚实基础。