NLP 圈同行评议对资源论文的一些误解
关于资源论文的危险偏见
NLP 中的大多数成功案例都是关于监督学习或半监督学习的。从根本上说,这意味着我们的解析器、情感分类器、QA 系统和其他一切都和训练数据一样好。基于这一事实,数据和模型工程,对于 NLP 进一步的发展来说同样重要。这就是为什么会议 ACL 通常还专设了一个「资源和评估」通道,并颁发最佳资源论文奖。
然而,创建模型和资源这两项任务所需要的技能集并不相同,往往也来自不同的领域,这两个领域的研究者往往也对「论文应该是怎样的」抱有不同的期望。这就使得审稿人的工作进入一个雷区:如果期望得到一个橘子结果得到的却是一个苹果,那么这个苹果看起来就是错的。以双方最大的善意来看,论文被拒绝的原因可能并非论文实际存在任何缺陷,而是它的基本方「不合适」。
对于这一点比较失望的作者们在线上或线下展开的讨论,是这篇文章的写作缘由。有一件事很明显:如果作者和审稿人不能就「论文应该是怎么样的」达成一致,那么提交论文就是浪费彼此的时间。我希望本文能帮助那些使用数据的人,更好地理解那些制作数据的人,并对他们的论文做出更好的评价。
让我们从消除一些关于资源论文的误区开始。不幸的是,下面所有引用都来自 ACL 审稿人对论文的真实评论!
误区 1:资源论文不是科学
也许这一观点最有代表性的例子来自于 Rachel Bawden。ACL 2019 年的一位审稿人对他这篇以机器翻译为媒介的双语对话资源论文提出了以下意见:
本文主要是对语料库及其集合的描述,几乎不包含科学上的贡献。
鉴于 ACL 2019 有一个专门的「资源和评估」领域,因此,这种观点的提出看起来甚至是不可能的,而出现在评论中更是不可接受!需要明确的是,资源建设至少以三种方式增加了知识:
它们是从建模中获得任何知识的先决条件;
除资源外,可能还有注释准则或新的数据收集方法;
基于注释的迭代准则开发增加了对长尾现象的了解。
论文链接:https://hackingsemantics.xyz/2020/reviewing-data/#bawden2019diabla
误区 2:资源论文更适合 LREC 或研讨会
大多数 ACL 会议都提供一个专门的「资源和评估」通道,但是资源论文的作者通常被建议将他们的工作提交给语言资源和人类语言技术评测方面的国际会议 LREC 或一些专题研讨会。我们再次借用下 Rachel Bawden 在 ACL 2019 中论文评论里面的一句话:
我认为这篇文章不适合 ACL。它非常适合 LREC 和特定的机器翻译会议和研讨会。
人们普遍认为 NLP 系统工程相关的工作比资源相关的工作更有声望,而这一观点可能正是与此有关。由于 ACL 是会议,因此,资源论文应该被提交给研讨会和级别较低的 LREC 会议。
这种观点非常不公平,甚至会适得其反。首先,NLP 工程论文每年通常都有好几次机会提交给 NLP 领域的主流会议。而 LREC 是唯一一个专门讨论资源的会议,每两年才举办一次。
其次,NLP 的进展取决于系统和基准的共同演进。NLP 基准并不完美,当我们在其中任何一个基准上停留太久时,我们很可能会开始针对错误的事情进行优化,发表许多 SOTA 论文,但却并没有取得真正的进展。因此,开发更具挑战性的基准与建模工作同等重要。我们至少可以做到的是,在会议上发表此类文章来推动这件事。此外,将数据和模型各自置于不同的会议,不太可能改善这两个社区之间的思想交流。
误区 3:新资源必须大于竞争
针对这一点,我自己在 ACL 2020 上收到了以下评论:
本文提出的新语料库并不比现有语料库大。
针对资源论文的这一评论,其实就相当于在评审系统论文以「如果不是 SOTA,则拒绝」来判定一篇论文的生死。测试性能提供了一种简单的启发式方法来判断新模型的潜在影响,与此同时数据集大小成为其实用性好坏的指标。在这两种情况下,来自工业界和资金雄厚的实验室的论文都有优势。
由于数据量往往与数据质量成反比,因此这种态度隐晦地鼓励众包并阻碍专家注释。上述提到的向 ACL 2020 提交的论文提供了一个具有专家语言注释的资源,其中存在着更大、噪声更多的众包替代方案。这篇论文特别讨论了为什么直接比较这些资源的大小是没有意义的。不过,其中一位评审人认为,新的语料库比众包语料库要小,这显然降低了它的价值。
误区 4:资源必须是英语或跨语言较大的
语言的数量似乎与数据集的大小具有大致相同的功能:一种判断其潜在影响的启发式方法。以下是 Robert Munro 从另一篇 ACL 论文评论中引用的一段话:
总的来说,没有好的迹象表明其他语言对能取得好的结果。
这是一个绝对有效的评论,它适用于大多数只关注英语却探讨建模「语言」(#BenderRule) 的 NLP 论文。因此,如果这一观点被认可,那么每一篇论文都要求必须是跨语言的研究。然而这一观点,往往是由非英语资源论文的评审人提出的。
其结果是,这种工作正在被边缘化,并受到了阻碍。我有幸参加了 ESSLLI 2019,并与一些出色的拉脱维亚文研究人员进行了交流,他们研究针对自己的语言的 NLP 系统。他们告诉我,他们放弃了主要的 ACL 会议,因为他们的工作范围太过狭窄,大多数人没有兴趣。这对每个人来说都是一个损失:要把对英语有用的想法转移到其他语言上绝非易事,这些拉脱维亚文研究人员想出的诀窍可能在全球范围内都有很大的用处。此外,如果我们在 NLP 社区的目标是建立「人类语言」的模型,我们不太可能只关注其中一种语言就获得成功。
将语言数量与论文的潜在影响混为一谈,会给跨语言研究带来一个有趣的结果:他们拥有的语言越多,在审稿人眼中就越好。
然而,如果在所有这些语言中执行任何有意义的分析,那么语言数量通常会随着作者列表长度的增加而增加:例如有一篇关于通用依赖性的论文就有 85 位作者(论文地址:https://lindat.mff.cuni.cz/repository/xmlui/handle/11234/1-1548 ),该论文涉及的语言数量就比较多。
一个普通的机器学习实验室没有办法做这样的事情,所以为了取悦审稿人,他们使用了机器翻译来扩增语言数量,甚至在类型声明中也使用了机器翻译(以「BERT Is Not an Interlingua and the Bias of Tokenization」论文为例:https://doi.org/10.18653/v1/D19-6106 )。在这种情况下,语言数量并不能完全代表论文的整体质量。
误区 5:已有数据集太多了
针对这一观点,以下是 EMNLP 2019 论文评论中的一个例子:
本文提出了另一种问答测试。
为了保证公平性,这位审稿人随后提到,如果一个新的基准提供了一些全新的方法,它可能会拥有一席之地。不过,其隐含的假设是,资源论文应该有一个上限,有大量的问答数据多少会适得其反。
有一种观点认为,有太多基准会稀释社区的努力。然而,只有当有一个基准本质上比所有其他基准都好时,这一点才会成立。如果不是这样,只关注一个数据集可能会适得其反。有了大量的数据集,我们至少可以进行更好的泛化研究。例如,在 SQuAD、CoQA 和 QuAC 上训练的模型不会相互转移,即使这三个数据集都基于 Wikipedia(论文地址:https://arxiv.org/pdf/1809.10735.pdf)。
有趣的是,对于系统论文也可以提出同样的观点:在下一次突破之前,社区应该对 BERT 进行多少增量修改是否应该有一个上限?(相关论文地址:https://arxiv.org/pdf/2002.12327.pdf)
误区 6:每一篇 ACL 资源论文都必须随附 DL 实验
以上所有的谬论都很容易被驳斥,因为它们反映了逻辑上的谬误和一种研究倾向——不喜欢与主流 NLP 系统论文不一样。但其中有一个似乎与社区真正的分歧相对应:
继续进行 #NLProc 同行评审辩论!
到目前为止,最棘手的问题是:ACL 是否应该要求资源论文进行一些概念验证的应用?
支持方:没有 ML 实验=>就投稿到 LREC
反对方:超新的方/高影响力的数据就足矣
你的观点是什么?
看过几十条评论,显而易见人们在听到「资源论文」时,很明显会有不同的想法。是否需要进行 DL 实验,甚至是否合适,都取决于贡献的类型。
NLP 任务/基准:主要观点通常是,新基准比以前的基准更具挑战性。这一说法显然必须得到实验结果的支持。
计算语言资源(词汇、词典、语法):其价值在于从某些角度提供尽可能完整的详细语言描述。类似 VerbNet 这样的语言资源,并不是为任何特定的 DL 应用程序创建的,因此不应该要求包含任何这样的实验。
介于这两个极端之间的,是可以很容易地构建为 DL 任务/基准的资源类型,但还不清楚它们是否应该是必需的,甚至是最好的选择。具体而言,这涉及:
非公开数据的发布:以前非公开的数据资源,如匿名医疗数据或来自私人公司的数据。作者的贡献是使发布成为可能的法律或行政工作。
具有语言注释的资源(树库,共指,照应,时态关系等):这些资源的质量传统上是由注释之间的一致性来衡量的。作者的贡献是注释工作或注释方法。
在这两种情况下,数据可能以多种不同的方式使用。可以只提供标准的训练/测试拆分,并将资源作为新任务或基准来呈现,从而使某些实践者的生活变得更轻松——这些实践者只想寻找新任务来设置自己喜欢的算法。但这可能不是唯一用来思考新数据的方法,甚至不是最好的方法。这时,这场讨论演变成了一场不科学的拔河比赛,大致是这样的:
工程师:这个数据是给我的吗?如果是,我想看看相关实验,证明这是可以学习的。
语言学家:这实际上是关于语言而不是深度学习的数据。但如果你愿意,欢迎使用这些数据。
在这一灰色地带,我恳请领域主席定好他们的期望,并向作者和审稿人明确说明这一点。否则我们会陷入一个雷区:一些审稿人认为基线实验是一项硬性要求,但作者没有预料到这一点。不然作者们提交的论文对作者本身以及审稿审得疲惫不堪的审稿人和领域主席来说都是浪费时间。而他们明确说明这一点,则可以很容易地防止这种浪费。
就我个人而言,我反对将基线实验作为硬性要求,理由如下:
NLP 是一个跨学科的项目,我们需要尽可能得到来自各个学科的所有帮助。要求每一次提交都要用机器学习方法打包,这不仅会阻碍拥有不同技能的研究者的数据和想法之间流动,还会影响语言学、社会学和心理学等领域之间的数据和思想流动。
包含这样的实验可能不会取悦任何一方。如果作者不是必须在论文中包含基线的话,会给语言学家们留下一些本可以解决的问题。工程师们会变得只关注基线部分,然而最终发现基线部分并没有那么引人关注。
以我的一篇论文作为具体案例,这篇论文提出了一个新的情感标注方案,一个新的数据集,并展示了一些基线实验(论文地址:https://www.aclweb.org/anthology/C18-1064.pdf)。审稿人指出的一个不足之处是:
使用域内单词嵌入获得的结果不足为奇。一个众所周知的事实是,域内单词嵌入相对于一般单词嵌入更具信息性。
我们对域内嵌入的评论只是简单地描述了结果表,并无意作为启示。这篇论文的贡献在于资源和方法,但在文中出现的这些实验显然引发了审稿人的错误预期。虽然最终我们的论文被接收了,但其他很多人可能掉进了这个陷阱。
如何给论文写出好的评论
我适合当这篇论文的审稿人吗?
苹果是苹果,橘子是橘子,两者都有自己的优点。因为资源论文不是系统论文而拒绝它,是没有意义的。要写一篇建设性的评论,首先,你需要从与作者同样的方角度来看待它的贡献。如果有不匹配的地方,也就是说,如果你被分配去审一篇贡献类型不在你的研究范围内的论文,最好让领域主席重新分配。
以下是资源论文的一些主要类型,以及撰写高质量评论所需的专业知识:
众包NLP训练/测试数据集:基础众包方的知识、对潜在问题(如非自然信号)的认识(论文地址:https://arxiv.org/pdf/1803.02324.pdf )和注释者偏差(论文地址:https://arxiv.org/abs/1908.07898 ),以及此任务的其他可用数据集。理想情况下,你至少自己构建了一个此类资源。
带语言注释的语料库(语法、复指、共指、时态关系):有关语言理论和注释经验的知识,注释可靠性估计,以及这一特定子领域的现有资源。理想情况下,你至少自己构建了一个此类资源。
语言知识资源(语法、词典、词汇数据库):语言理论的其他知识和所有其他相关资源。理想情况下,你至少自己构建了一个此类资源。
那么,非英语资源呢?我们不能指望总是有这样一批审稿人,他们都是该领域的专家,而且都会说一种特定的稀有语言,所以答案很可能是「分工」。当我们以审稿人的身份注册会议时,除了专业领域外,我们还可以指定语言。如果一篇资源(或系统)论文不是用英语撰写的,那么除了目标领域的两位专家外,领域主席最好能找到至少一位会说这种语言的审稿人。不懂这门语言的人仍然可以评估能判断部分的贡献(方法、分析、与其他工作的有意义的比较)。只要领域主席在你的评论中清楚地知道论文的哪些部分超出了你的范围,都将能够做出明智的决定,并在必要时招募额外的审稿人。当然,作者应该通过添加注释来帮助应对这一问题。
在 ACL 中,什么样的资源论文才是有价值的?
一旦你确定你看待这篇论文的角度与作者的方一致,你就需要判断它的实际贡献。当然,并不是所有的资源论文都值得发表在一个的 NLP 会议上!对于系统和资源论文来说,接收标准并没有太大的不同。大多数会议都对这种方法的新颖性、贡献大小、潜在影响的大小感兴趣。在 ACL 中具有价值的论文,无论是任何一种类型,论文作者都需要对其中的至少一项进行有力的论证。
下面是一些符合(或不符合)这些标准的资源论文类型的示例。
高新颖度:重大概念创新
示例:新任务,新注释方法;
反例:使用现有框架收集更多数据或更新现有资源,或只是将现有资源转换为其他语言。
高影响力:解决一个普遍存在的问题,提出具有高度概括性的新方法(跨语言或任务)。
示例:发现影响多个数据集的偏差,发布时间敏感的数据(例如,有关冠状病毒最新研究数据集);
反例:减小由一个特定数据集中注释器准则引起的特定偏差。
高质量、丰富性或规模:重要的公共数据发布,能在语言描述,数据质量或资源量方面提供明显的优势。
示例:语言数据库(如 VerbNet),带有语言注释的语料库,在特定情况下有机收集的数据(如匿名医疗数据);
反例:没有明显优势的噪声数据,不公开的数据。
重申一下:只要满足其中一个标准,一篇论文就是值得发表的:一个狭窄的问题可以用一种非常新颖的方式来解决;如果噪声数据集非常完整,那么会产生很大的影响;如果论文表明了为英语版本开发的技术完全无法推广,仅仅简单地将资源改写为另一种语言也可能会引起巨大轰动。
但作者确实需要证明至少有一个标准适用性很强,并使审稿人相信没有严重的缺陷(例如,通过丢弃大部分数据来放大内部注释器的一致性)。
相关参考文献详见原文: https://hackingsemantics.xyz/2020/reviewing-data/