PNAS最新研究81解题率神经网络 Codex 引领汽车行业新技术潮流开启物品智能化时代

在一个充满创新和突破的时代，科学家们不断推动技术的边界。近日，一项令人瞩目的研究成果被发表在了PNAS上，这项研究不仅再次证明了神经网络在解决高等数学问题方面的能力，还展示了它们如何应用于汽车行业，为物品智能化带来了新的可能。

这项研究利用OpenAI的Codex模型，通过小样本学习自动解决数据集中81%的数学课程问题，并且其表现达到了人类水平。这一成果颠覆了人们对神经网络能力限制的一个共识：过去认为这些模型无法处理复杂的问题，但Codex成功地克服这一障碍。

为了验证这个模型，我们从MIT六门数学课程和哥伦比亚大学的一门数学课程中随机抽取25个问题。在使用MATH基准测试来检测Codex的能力时，它成功解答了265个问题，其中213个是自动解答的。与此同时，其他模型，如GPT-3，只能自动解答18%到72.2%的问题。

这项研究中的另一个关键创新点是在代码上进行微调，使得Codex能够生成大规模解决数学问题的程序。这一方法对于提高语言模型在零样本学习和少样本学习中的性能至关重要。在没有代码的情况下，即便有小样本学习和CoT提示，GPT-3仍然无法应对大学级别或更高难度的问题。

此外，小样本学习方式也成为这项工作的一大亮点。当零样本学习不能直接提供答案时，便会引入（问题、代码）对（pair）的嵌入余弦相似度计算，从而找到最相似的已解决过的问题作为示例。这种方法显著提升了自动解题率，并且基本上超过了其他三种方式，比如基于协同训练输出或图神经网络预测算术表达式树等技术。

最后，这项研究还探索了一条为何可以这样做，以及如何将这些过程清晰地传达给用户。它不仅能够自动生成程序来求解正确答案，还能够生成用于说明其过程的小程序。此外，该系统还被用来创造新问题，以评估其质量与难度，与人工编写的问题并无二致。此实验进一步证明该系统已经达到人类水平，在内容生成方面具有相当程度的人类表现力。

虽然存在一些局限性，比如只能处理文本形式的问题，或需要证明性的回答，但总体而言，这一技术革新为我们打开了一扇窗，让我们看到未来的可能性。而随着时间推移，无疑会有更多这样的突破，为我们的生活带来更加丰富多彩的情景。