芯片龙头股中英伟达与平头哥相继登顶MLPerf基准测试之巅问鼎第一
深声科技技术支持的语音播放文章内容
您的浏览器不支持 audio 元素。
雷锋网报道,MLPerf组织近期发布了第一个MLPerf Inference v0.5的结果,这个基准测试虽然还不够成熟,但已经引起了行业巨头公司的广泛关注。平头哥和英伟达在成绩公布后,都宣布自己在该测试中取得了第一名。
自成立初期,MLPerf组织就致力于建立机器学习处理器的基准测试,以便与CPU类似。目前,该组织已囊括了包括英特尔、NVIDIA、Google和百度等知名企业。尽管MLPerf基准测试仍处于初级阶段,它们甚至尚未完成,但该组织的成果却赢得了巨大关注。
早在6月份,该组织就发布了第二个基准测试集MLPerf Inference v0.5。这是一个专门用于衡量各种加速器和系统执行训练后的神经网络性能的推理基准测试。在此基础上,MLPerf Inference将成为衡量从低功耗SoC中的NPU到数据中心高性能加速器性能标准的一种方法。
尽管当前版本v0.5仍然非常不完整,只涵盖五个网络/基准,并且没有提供功耗测试指标,这对于评估整体能源效率至关重要。但是,由于其重要性,该版本吸引了主要芯片公司参与,即使它还没有完全成熟。实际上,有近600份结果提交给这一非正式预期的小型新基准测,而这个数字远超出行业内对新行业标准建立所需时间长短的大多数预期,这反映出了对MLPerf期待以及推理芯片市场数十亿美元潜力的快速增长。
随着第一轮申请工作结束,MLPerf现在发布其Inference v0.5官方结果,同时,大部分(如果不是全部)主要芯片公司都发表了一些与结果相关的事项声明或新闻稿。这意味着即使初始版本足够广泛,也可以涵盖许多用例,尤其是在专用加速器的情况下,它们通常针对特定用例进行优化。
作为更新,此套件包含五个不同的基准,其中两个是移动衍生产品。当前桌面/服务器版本涵盖图像分类(ResNet50)、对象检测(ResNet34)和机器翻译任务(GNMT)。所有这些都提供四种方案:单路、多路、服务器实时性能和离线非实时性能。此外,还有封闭分区和开放分区两种形式,一些允许重新训练网络,而另一些则要求达到数学上的等效性并禁止重新训练网络,以确保平台能够很好地执行预先训练好的网络。
深入分析结果显示,除了CPU和GPU之外,还有FPGA、DSP以及专用的ASIC等各领域均有官方意见收到了。如果说有一位代表的话,他指出他们收到了除神经形态及模拟系统以外每一种类型处理器的提交报告。当然,还有一些来自如NVIDIA GPU、谷歌TPU、英特尔CPU及加速器,以及Habana Labs Goya加速者的代表出现。不过,在封闭分区中也发现了一些意料之外的表现,比如Raspberry Pi 4及阿里巴巴含光800加速者这样的设备。
总体而言,我不会详细剖析大量比拼,因为这意味着非常多样化比较。而更为关键的是,没有包含功耗测量,因此目前无法评估能效。但总体来说,每家芯片制造商几乎都能在某一类别中取得胜利。在离线环境中,我们看到Google TPUv3从1到32几乎无缝扩展能力强;NVIDIA Tesla 加速度保持领先;英特尔 CPU 在某些场景下排名首位;而高通骁龙855则以超过SoC 的表现亮相其中。
关于这次推理第一次实验成绩,不会成为最终评价。在开发过程中,试验组正在努力完善以添加更多类型网络,如语音识别任务,并计划加入功耗测量,以便每个人都可见自己的设计效率,因为电源效率通常是大规模部署规划中的首要考虑因素之一。
尽管早期版本还存在待完善之处,但对于芯片制造商来说,他们现在知道自己及其竞争者位置如何。而由于机器学习优化开放性质,他们还有空间来优化它们以迎接未来考验,并设计更佳硬件。此外,对客户而言,加快工作进程至关重要,因此既然第一个成绩已公布,现在可以专注产品并了解如何准备下一次正式考试。
最后,从更长远角度看,将来几年内,当这个项目趋向成熟时,我们将能够把这些基于智能手机应用程序转换为消费级硬件上可行意义上的有意义比较激动人心。
雷锋网编译
via anandtech