为何芯片解密公司英伟达与平头哥同样在MLPerf基准测试中独领风骚
深入剖析MLPerf Inference v0.5:行业巨头角逐第一,芯片解密公司英伟达与平头哥并驾齐驱
自成立初期,MLPerf组织便致力于建立机器学习处理器的基准测试体系,为CPU世界的标准效仿。去年6月,它发布了第二个基准测试集MLPerf Inference v0.5,以评估各种加速器和系统在执行训练后神经网络方面的速度和效果。这次推理性能基准测试是衡量从低功耗SoC到数据中心高性能加速器的通用方法,将成为未来评估推理能力的标准。
尽管刚刚发布,v0.5版本仍然不完整,只覆盖了五个网络/基准,并未包含功耗测试指标,这对于全面评价整体能源效率至关重要。但即便如此,该初步版本吸引了主流芯片公司的大规模参与,他们渴望展示自己的硬件在这项新兴领域中的表现,并向客户和投资者证明其解决方案优越性。
结果显示近600份提交,其中40多种不同的测试结果展现出行业对MLPerf期待之高。每家芯片公司都能找到成功策略,比如总吞吐量、延迟或每个加速器的吞吐量等。在这个基础上,即使初始版本广泛,也能够涵盖许多应用场景,尤其是在专用加速器针对特定应用进行优化时。
作为进展,MLPerf分为五个基准,其中两个是移动衍生产品。当前桌面/服务器版本涵盖图像分类(ResNet50)、对象检测(ResNet34)以及机器翻译任务(GNMT)。所有基准提供四种方案:单路、多路、服务器及离线,每种方案将终端和服务器方案分解为相应平台两大常见模式。
此外,提供两个“分区”:封闭分区与开放分区。在封闭分区中,“苹果对苹果”的比较要求芯片必须达到预先训练网络精度要求,而开放分区则允许更广泛的重新训练及量化工作,让芯片公司以最佳方式展示独创性。
最终收到了除神经形态以外各类处理器成果,从CPU到GPU再到FPGA、DSP及专用ASIC等。此外,还有预期外结果,如Raspberry Pi 4及阿里巴巴含光800加速器参加了比赛。
虽然缺少功耗测评,但几乎每家芯片公司都能在某些类别中取得胜利。在离线测试中,看到了GoogleTPUv3拓展性的完美扩展;NVIDIA Tesla加速器名列前茅;英特尔在CPU中领先;而高通骁龙855也超出了SoC范围。
关于首次公布成绩,不会成为最终推理性能成绩。开发过程中,MLPerf组织仍努力完善基准,以添加其他网络类型,以及考虑语音识别等任务。而且将增加功耗测评,使得每个人都能看到他们设计效率,因为电源效率通常是大规模部署规划中的关键因素之一。
尽管这些早期版MLPerf还需不断完善目标,但对于芯片公司来说,他们现在知道自己位置所处,并且了解如何准备下一轮正式测试。客户希望工作进度快,因此既然第一个结果已经出炉,就可以专注于产品并理解如何通过正式测试来提升它们。此刻,一切似乎正朝着成熟趋势发展——让消费级硬件也有机会被纳入考验之列,不久之后,我们或许能够把这些新的标准应用于我们的环境内,并将其转换为可比信息。激动人心的一天迫在眉睫!