2020年知识图谱都有哪些研究风向
随着认知智能走进了人们的视野,知识图谱的重要性便日渐凸显。在今年的自然语言处理顶会 ACL 2020 上,自然语言知识图谱领域发生了巨大的革新。ACL 作为 NLP 领域的学术会议,无疑能够很好地呈现该研究方向的风向标。
本文作者Michael Galkin(计算机科学家,主要研究方向为知识图谱)从问答系统、知识图谱嵌入、自然语言生成、人工智能对话系统、信息提取等方面总结了 ACL 2020 上知识图谱最新工作。
ACL 2020 完全采取了在线会议的模式。想要举办这么庞大的在线活动,让来自多个时区的参会者共同参与其中,并展示超过 700 篇论文是十分困难的。不过在所有讲者、参会者、组织者的努力下,这届大会得以进行。
那么与 ACL 2019 相比,知识图谱和自然语言处理领域发生了大的变化吗?
答案是肯定的!我们将今年该领域的进展概括为:
知识图谱展现了更好地揭示非结构化数据中的高阶相关性的能力。
结构化数据上的问答系统
在该任务中,研究者们面向 SPARQL 的知识图谱或 SQL 数据库这样的结构化数据源提出了问题。
在今年的 ACL 大会上,我们可以看到越来越多考虑复杂(也被称为多跳)问题的工作。
举例而言,Saxena 等人的论文「Improving Multi-hop Question Answering over Knowledge Graphs using Knowledge Base Embeddings」(https://www.aclweb.org/anthology/2020.acl-main.412.pdf)在研究复杂知识图谱问答任务时,将知识图谱嵌入与问题嵌入向量耦合在它们的 EmbedKGQA 系统中。
首先,作者通过一些算法(本文作者选用了论文「Complex Embeddings for Simple Link Prediction 」中提出的算法)对底层知识图谱进行嵌入,从而使每个实体与关系与一个特定的向量相关联。在某些情况下,作者冻结这些向量,或者根据知识图谱的规模持续调优。
其次,作者使用 RoBERTA 模型对输入进行编码(最后一层中为 [CLS] ),并经过 4 个全连接层处理,我们希望通过这种方式将问题投影到复杂的空间中。
而关键的部分在于评分函数,其中作者采用知识图谱嵌入的框架,并且构建了一个(头实体,问题,候选实体)三元组。这里的评分函数与 ComplEx 算法使用的一样,头实体是问题的主实体,问题被当做三元组中的关系,候选实体要么是小型知识图谱中的全部实体,要么是头实体周围 2 跳以内的子图(当需要剪枝时)。这确实与典型的用于训练知识图谱嵌入的「1-N」评分机制相类似。通过计算并阈值化问题嵌入 h_q 和每个关系嵌入 h_r 之间的点积(h_q,h_r),可以进一步对候选空间进行剪枝。
在 MetaQA 和 WebQuestionsSP 上进行的实验中,作者探索了一种特定的场景:随机删除 50% 的边构造一个不完整的知识图谱,从而使系统必须学会推理出这些缺失的链接。在知识图谱完整的场景下,EmbedKGQA 与 PullNet 性能相当(在 3 跳问题上性能稍优),在 Hits@1 的绝对得分上比不使用额外的文本增强知识图谱的基线高出 10-40%。
即使如此,研究 EmbedKGQA 如何处理需要聚合或具有多个具体实体的问题,还是很有趣的。
图 1:EmbedKGQA 架构示意图。
另一方面,Lan 等人在论文「Query Graph Generation for Answering Multi-hop Complex Questions from Knowledge Bases」(https://www.aclweb.org/anthology/2020.acl-main.91.pdf)中提出使用迭代的基于强化学习的(知识图谱嵌入无关)查询生成方法。基于通过一些实体链接(作者通过谷歌知识图谱 API 连接到 FreeBase 获得)得到的主题实体,作者提出了应用于种子实体的三种操作,即「扩展」(extend)、「联系」(connect)、「聚合」(aggregate),通过以上三种操作来构建一个查询模式。自然而然地,这些操作使其能够通过 min/max 聚合函数实现复杂的多跳模式。
在每一步中,作者使用集束搜索(beam search)保留 K 个最佳的模式,他们为每个图派生出一个 7 维特征向量,并将该向量输入给带有 softmax 的前馈网络,从而对这些模式进行排序。在该模型中,被纳入查询图的实体和关系的表面形式(surface form)被线性化处理后与输入问题相连接,然后输入给 BERT,从而在最后一层得到 [CLS] 的表征(是 7 维特征之一)。
作者在 ComplexWebQuestions、WebQuestionsSP、ComplexQuestions 上测试了该方法,实验表明该模型的性能显著超过了对比基线。模型简化实验(又称消融实验,ablation study)说明,「扩展」、「联系」、「聚合」三种操作是十分重要的。令人惊讶的是:这是一篇短文!
我向大家隆重推荐这篇论文,这是一篇很优秀的短文示例,它传达了主要的思想,展示了实验过程和结果,通过模型简化实验说明了方法的有效性。
图 2:「Query Graph Generation for Answering Multi-hop Complex Questions from Knowledge Bases」中扩展、联系、聚合三种操作的示意图。
结构化问答系统还包含在 SQL 表上的语析,许多新的复杂数据集推动了 SQLandia 的研究。
值得一提的是,Wang 等人的论文「RAT-SQL: Relation-Aware Schema Encoding and Linking for Text-to-SQL Parsers」(https://www.aclweb.org/anthology/2020.acl-main.677.pdf)提出了一种面向关系的 Transformer「RAT-SQL」。为了编码数据库模式,他们定义了列和表之间显式的边。作者还定义了初始的数据库模式和值的连接,从而获得候选的列和表。此外,列、表,以及问题词例将被一同送入改良后的自注意力层。最后,树结构的会构建一个 SQL 查询。
当使用 BERT 对问题词例的嵌入进行初始化时,RAT-SQL 在Spider 任务上取得了显著的性能提升。
图 3:模式编码器中的 RAT 层示意图。
通常,在与一个语析系统交互时,我们往往会想要快速地指出或修正解析器的小错误。Elgohary 等人在论文「Speak to your Parser: Interactive Text-to-SQL with Natural Language Feedback」()中解决了该问题,并发布了 SPLASH数据集,旨在通过自然语言反馈纠正 SQL 解析器的错误。这种纠错的场景与对话式 test2SQL 任务不同,所以即使目前性能最优的模型(如 EditSQL)在纠错任务中与人类标注者的性能也存在着很大的差距(SOTA 模型的准确率为 25%,而人类标注者为 81%)。
在相同的任务中,Zeng 等人在论文「PHOTON: A Robust Cross-Domain Text-to-SQL System」(https://www.aclweb.org/anthology/2020.acl-demos.24.pdf)中提出了 Photon,这是一个相当成熟的可以执行查询纠错任务的「text-to-SQL」系统。
图 4:PHOTON 系统示意图。
知识图谱嵌入:双曲和超关系知识图谱
双曲空间是机器学习领域中最近很活跃的话题之一。简而言之,在一个双曲空间中,得益于其特性,我们可以在使用更少的维度的同时,更为高效地表征层次和树状结构。
图 5:将点 x 处的正切空间映射到双曲流形上。
在这一目标的驱使下,Chami 等人在论文「Low-Dimensional Hyperbolic Knowledge Graph Embeddings」(https://www.aclweb.org/anthology/2020.acl-main.617.pdf)中提出了 AttH,这是一种使用旋转、反射、平移变换对知识图谱中的逻辑和层次模式进行建模的双曲知识图谱嵌入算法。「Att」指的是应用于旋转和反射后的向量的双曲注意力。
为了避开不稳定的黎曼优化,作者使用了正切空间,d 维庞加莱球上的所有点都可以映射到其中。在这种复杂的场景下,每种关系都不仅仅与一个向量有关,还与描述特定关系的反射和旋转的参数有关。尽管如此,在真实世界的知识图谱中 R<<V,因此总开销也不会过高。
在实验中,AttH 在 WN18RR 和 Yago 3-10 上的表现十分优异,这些数据集展现出了某些层次化的结构,AttH 在 FB15k-237 数据集上的性能提升就较小。更重要的是,在真实的复杂场景下,与现有的 32 维模型相比,仅仅 32 维的 AttH 就展现出了巨大的性能提升。此外,在 WN18RR 和 FB15k-237 数据集上,32 维 AttH 的得分仅仅比当前性能最优的 500 维嵌入模型低 0.02-0.03 个 MRR。模型简化实验的结果说明引入可学习的曲率是十分重要的,而与本文最接近的工作「Multi-relational Poincaré Graph Embeddings」,则使用了固定的曲率。
在图表征学习领域,另一个日渐凸显的趋势是:不仅仅局限于简单的由三元组组成的知识图谱,进一步学习更复杂的超关系知识图谱,例如 Rosso 等人在论文「Beyond Triplets: Hyper-Relational Knowledge Graph Embedding for Link Prediction」(https://exascale.info/assets/pdf/rosso2020www.pdf)中所做的工作。此时,每个三元组可能还包含一组「键-值」属性对,它们给出了三元组在各种上下文中正确性的细粒度细节信息。实际上,Wikidata 在「Wikidata Statement」模型中就采用了超关系模型,其中属性被称为「限定符」(qualifier)。需要注意是,不要将模型与生成冗余谓词的 n 元事实以及超图弄混。也就是说,如果你只在三元组层面上使用 Wikidata,那么你将损失很多的信息。
图 6:超关系事实与事实的 N 元表征。
Guan 等人在论文「NeuInfer: Knowledge Inference on N-ary Facts」(https://www.aclweb.org/anthology/2020.acl-main.546.pdf)中,并不想丢失 Wikidata 中的大量三元组之外的信息,提出了一种学习超关系知识图谱嵌入的方法。
NeuInfer 旨在计算一个超关系事实的正确性与兼容性得分。首先,作者将(h,r,t)嵌入输入一个全连接网络(FCN),从而估计该三元组的似然度(正确性)。接着,对于每个键值对,作者构建了一个五元组(h,r,t,k,v),然后将其输入到另一组全连接网络中。当有了 m 对键值对时,构造出的 m 个向量会经过最小池化处理,最终得到的结果代表兼容性得分,即这些限定符与主要的三元组的共存情况。最后,作者使用了这两种得分的加权求和来得到最终得分。
作者在标准的对比基准测试任务 JF17K(从 Freebase 中抽取得到)和 WikiPeople 上测试了 NeuInfer,并展示了在 JF17K 任务中,在预测头实体、尾实体、属性值时,该模型相较于 NaLP 模型取得的显著提升。
图 7:NruInfer 的正确性与兼容性融合框架。
下面,我们将讨论发表在 ACL 2019 上的知识图谱嵌入算法的可复现性。
Sun、Vashishth、Sanyal 等人(https://www.aclweb.org/anthology/2020.acl-main.489.pdf)发现,一些近期发布的知识图谱嵌入模型声称它们得到了目前最先进的效果,但是它们存在测试集泄露问题,或者在经过了为正确的三元组评分的 ReLU 激活函数后会出现许多值为零的神经元。此外,他们还说明了,性能度量得分(例如 Hits@K 和 MRR)取决于正确三元组在采样的负样本中的位置(实际上正确三元组不应该出现在负样本中)。
另一方面,目前存在的性能很强的对比基线在任何位置的表现都是一样的。作者要做的就是使用评估协议,将一个有效的三元组随机放置在否定的位置上。与此同时,使用将一个正确三元组放置在负样本中随机位置上的评估协议。
图 8:重新评估知识图谱补全方法。
本文作者的团队也在发表的另一篇题为「Bringing Light Into the Dark: A Large-scale Evaluation of Knowledge Graph Embedding Models Under a Unified Framework」(https://arxiv.org/pdf/2006.13365)的论文中,讨论了这一问题。
他们花费了逾 21,000 GPU 小时进行了超过 65,000 次实验,评估了 19 种模型。在这些模型中,最早的有 2011 年首次发布的 RESCAL,最新的有 2019 年发标的 RotatE 和 TuckER。他们尝试了 5 种损失函数以及各种包含/不包含负采样的训练策略,并且考虑了许多很重要的超参数。我们也向社区公开了所有模型的最佳超参数。此外,他们发布了 PyKEEN 1.0(https://github.com/pykeen/pykeen),这是一个用于训练知识图谱嵌入模型并进行对比实验的 PyTorch 程序库。
我建议读者通读 Sachan 的论文「Knowledge Graph Embedding Compression」(https://www.aclweb.org/anthology/2020.acl-main.238.pdf),他们研究了通过离散化技术对知识图谱实体嵌入进行压缩。例如,「Barack Obama」会被编码为「2-1-3-3」而不是一个 200 维的 float32 格式的向量,「Mihcelle Obama」则会被编码为「2-1-3-2」。也就是说,你仅仅需要一个长度为 D、取值范围为 K 的向量(在本例中,D=4,K=3)。为了进行离散化,「tempered softmax」是一种较好的实现方式。
作者建议使用双向 LSTM 作为将 KD 编码转化回 N 维浮点向量的反函数。实验结果令人惊讶,在 FB15K-237 和 WN18RR 上的压缩率达到了 100-1000 倍,而在进行推理(将 KD 编码解码回去)时只会产生微笑(最多为 2%MRR) 的性能下降,计算开销也很小。我建议大家重新思考一下现在的知识图谱嵌入流程(尤其是在生产场景下)。例如,通过 PyTorch-BigGraph获取的 78M Wikidata 实体的 200 维嵌入需要 1100GB 的存储空间。试想一下,仅仅压缩 100 倍会是什么样子。
以下是一些对流行的知识图谱嵌入模型的改进工作:
- Tang 等人(https://www.aclweb.org/anthology/2020.acl-main.241.pdf)通过正交关系变换将 RotatE 从二维旋转泛化到了高维空间中,该模型在 1-N 和 N-N 关系上的性能有所提升。
- Xu 等人(https://www.aclweb.org/anthology/2020.acl-main.358.pdf)通过把密集向量分到 K 个组内,将双线性模型泛化到多线性场景下。他们说明了当 K=1 时,该方法与 DisMult差不多,当 K=2 时,该方减化为 ComplEx和 HolE方法,作者还测试了 K=4 和 K=8 的情况。
- Xie 等人(https://www.aclweb.org/anthology/2020.acl-main.526.pdf)通过将标准的卷积核替换为计算机视觉领域著名的 Inception网络中的卷积核从而扩展了 ConvE。
- Nguyen 等人(https://www.aclweb.org/anthology/2020.acl-main.313.pdf)将自注意力类的编码器以及一个卷积神经网络应用于三元组分类以及个性化搜索任务。
从数据到文本的自然语言生成:准备 Transformer
随着知识图谱(更广义地说是结构化数据)在 2020 年被广泛应用于 NLP 领域,我们可以看到大量利用一系列 RDF 三元组/AMR 图/一系列表单元的自然语言生成(NLG)方法,它们可以生成说明或问题等连贯的人类可读的文本。
图 9:WebNLG 挑战示意图:源数据为 RDF 图,目标输出是一个图的文本描述。
此外,当前的各种 RDF-to-text 方法仅仅在 WebNLG 2017 上进行了评价,然而新一轮的条挑战——WebNLG 2020(https://webnlg-challenge.loria.fr/challenge_2020/)已经到来,如果你是一名自然语言生成研究人员,请参与到这项新的挑战中。
下面这条 Dmitry Lepikhin 的推特很好地概括了今年 NLG 领域的发展趋势:
图 10:今年 NLG 领域的发展趋势
我们需要设计复杂的规划器和执行器吗?需要使用结构化的对齐技术吗?实际上,使用优秀的预训练语言模型就可以得到不错的效果。
事实上,加入预训练的语言模型并将一些示例输入给它确实是有效的。Chen 等人在论文「Few-Shot NLG with Pre-Trained Language Model」(https://www.aclweb.org/anthology/2020.acl-main.18.pdf)中,使用一些表中的信息以及 GPT-2 说明了这一现象。他们首次将表单元输入给了一个可学习的 LSTM 编码器,从而得到拷贝机制的隐藏状态。另一方面,输入 GPT-2 的文本使用了冻结的权重。这种拷贝机制有助于保留表单元中的稀有词例。作者在 WikiBio 上进行的实验表明,仅仅使用 200 个训练示例就足以生成比复杂的强对比基线更好的文本。
图 11:预训练语言模型在 NLG 任务中的应用。
同样是使用表数据,Chen 等人在论文「Logical Natural Language Generation from Open-Domain Tables」(https://www.aclweb.org/anthology/2020.acl-main.708.pdf)中构建了一个新的数据集 LogicNLG,它需要在标准的文本生成方法的基础上使用额外的逻辑。例如,我们需要使用一些比较和计数操作来纳入「1 more gold medal」或「most gold medals」等部分,这些部分会使得生成的文本更加自然和生动。用于实验数据集的对比基线使用了预训练的 GPT-2 和 BERT,但似乎在这个任务上的语言模型仍然还有很大的提升空间。
Song 等人在论文「Structural Information Preserving for Graph-to-Text Generation」(https://www.aclweb.org/anthology/2020.acl-main.712.pdf)中,应用了一个稍加修改的 Transformer 编码器,它显式地处理了表面形式的关系。模型的输入就是一个线性化的图(你可以通过深度优先搜索 DFS 等方式构建)。并没有对 Transformer 做任何修改。该方法关键的部分在于向标准的语言模型损失中添加了两种自编码损失,它们是专门为了捕获与语言化图的结构而设计的。第一个损失重建了三元关系,另一个损失则重建了线性化输入图的节点和连边的标签。在 AMR 和 RDF 图(WebNLG)上进行的实验说明,仅仅加入这两种损失就可以在 BLEU 指标上提升 2 个点。
图 12:「Structural Information Preserving for Graph-to-Text Generation」使用多视图自编码损失进行训练。
在这里,我想劝大家:每个人都应该停止使用 BLEU 评价 NLG 的质量(https://www.aclweb.org/anthology/2020.acl-main.448.pdf)。ACL 2020 的最佳论文提名奖获得者也是这么认为的。WebNLG 2020 的组织者也非常赞同这一观点,他们在经典的度量标准之外,正式地加入了 chrF++ 和 BertScore 两种度量标准。此外,在 ACL 2020 上,研究人员提出了一种新的度量标准 BLEURT(https://www.aclweb.org/anthology/2020.acl-main.704.pdf),它与人类的判断更相符。
尽管如此,Zhao 等人在论文「Bridging the Structural Gap Between Encoding and Decoding for Data-To-Text Generation」(https://www.aclweb.org/anthology/2020.acl-main.224.pdf)中提出了一种「编码器-规划器-」模型 DualEnc。首先,他们对输入图进行预处理,从而将某种关系变换为一个显式的节点。这样一来,该节点就会包含一些有标签的边「s->p, p->s, p->o, o->p」。接着,他们通过 R-GCN 对该图进行编码,从而得到实体和关系的嵌入。他们还是用另一个考虑了额外的特征的 R-GCN 对同一个图进行编码,从而说明某种关系是否已经被利用了。他们通过以下的方式构建内容规划:当存在未访问的关系时,softmax 选择最可能的关系,然后将该关系添加到内容规划中。一旦序列准备好了,它就被扩展为这些关系的主语和宾语。最后,通过 LSTM 对生成的序列进行编码。他们将图编码和规划编码输入,从而生成输出结果。
实验结果表明:(1)DualEnc 在构建内容规划时,在未见过的测试集上有很好的泛化效果(2)文本生成质量比直接使用 Transformer 更高(3)规划阶段的速度提升很大,2019 年最佳的模型需要 250 秒才能处理一个「7-三元组」实例,而 DualEnc 在 10 秒中就可以处理 4,928 个示例。
图 13:DualEnc 模型架构示意图。
最后,在摘要生成领域中,Huang 等人在论文「Knowledge Graph-Augmented Abstractive Summarization with Semantic-Driven Cloze Reward」(https://www.aclweb.org/anthology/2020.acl-main.457.pdf)中提出了 ASGARD,利用根据某个文档构建的知识图谱改进了文本生成过程。
图 14:带有文档级图编码的 ASGARD 框架示意图。
具体而言,编码器由两部分组成。
步骤 1:他们使用 RoBERTa 对输入段落进行编码。最后一层嵌入会被输入给一个双向 LSTM,从而获得隐藏状态。
步骤 2:他们使用 OpenIE 提取三元组,从输入文档中导出一张图。他们将关系词例变换为与 DualEnc 相似的显式节点,然后使用前面的双向 LSTM 的隐藏状态对节点的状态进行初始化。他们使用图注意力网络(GAT)更新节点状态,并使用一个读出函数获取图的上下文向量。
步骤 3:他们将前两步获得的向量作为条件,从而生成文本。
训练时出现了一些神奇的现象:ASGARD 使用了强化学习算法,其中奖励函数是基于 ROUGE 和完形填空得分构建的。完形填空的部分包括根据人类编写的摘要提取 OpenIE 图,并基于它们生成完形填空风格的问题,以便系统更好地了解摘要文档的含义。所以从某种程度上说,这里面也包含了一个问答系统模型。作者为 CNN 和 NYT 数据集生成了一百万多个完形填空问题。实验结果表明,该方法超越了以前的对比基线。然而,预训练好的 BART 在目标数据集上进行调优后成为了最终的最佳模型。
对话式人工智能:改进面向目标的机器人
在对话式人工智能(ConvAI)领域,我更偏爱面向目标的系统,因为知识图谱和结构化数据自然而然地扩展了它们的能力。
图 15:SLoTQUESTION 的模板以及另一个用于生成交互示例的不针对特定对话的模板。
首先,Campagna 等人在论文「Zero-Shot Transfer Learning with Synthesized Data for Multi-Domain Dialogue State Tracking」(https://www.aclweb.org/anthology/2020.acl-main.12.pdf)中提出了一种合成面向目标的对话作为附加训练数据的方法,用于对话状态跟踪(DST)任务。作者创建了一个定义基本状态、动作和转移函数的抽象模型(也可以将其称之为本体)。它的贡献在于:(1)该模型可以应用于各种领域,如餐厅预订或训练带有任意空槽和值的连接搜索;(2)合成的数据允许在你在有监督数据十分有限的域内进行零样本迁移;(3)事实上,实验表明,(在真实的 MultiWoz 2.1 测试中)仅使用合成的语料库进行训练和评估的准确性达到使用原始完整训练集时的约 2/3。
我相信在研发特定领域的对话系统或已标注训练数据十分有限时,该方法可以作为一个通用的数据增强方法。
Yu 等人在论文「Dialogue-Based Relation Extraction」(https://www.aclweb.org/anthology/2020.acl-main.444.pdf)专注于对话中的关系提取任务,研发了 DialogRE。这是一个新的数据集,由从《老友记》中的两千段对话中提取出的 36 中关系组成。尽管没有使用 Wikidata 或 DBpedia 的唯一资源标识符(URI)对这些关系进行标注,该数据集仍然提出了一个巨大的挑战,即使对 BERT 也是如此。此外,作者还提出了一种新的度量标准,它可以说明一个系统需要经过多少轮才能提取出某种关系。
OpenDialKG(https://pdfs.semanticscholar.org/0d3c/68c207fc83fb402b7217811af22066300fc9.pdf)这项工作由于在一个新的数据集上提升了对话系统中的基于知识图谱的推理而获得了 ACL 2019 最佳论文提名。Zhou 等人在论文「KdConv: A Chinese Multi-domain Dialogue Dataset Towards Multi-turn Knowledge-driven Conversation 」(https://www.aclweb.org/anthology/2020.acl-main.635.pdf)中,将 OpenDialKG 中的主要思想用于了适用于中文的 KdConv 数据集。
还有一些工作研究如何将外部知识纳入端到端的对话系统。如果背景知识被表示为文本三元组或表单元(或者即使是纯文本),Lin 等人(https://www.aclweb.org/anthology/2020.acl-main.6.pdf)建议使用 Transformer 作为知识编码器,而 Qin 等人(https://www.aclweb.org/anthology/2020.acl-main.6.pdf)则推荐使用记忆网络式的编码器。
如果有一个像 ConceptNet 这样的常识知识图谱,Zhang 等人在论文「」(https://www.aclweb.org/anthology/2020.acl-main.184.pdf)中从话语中提取出了一些概念,从而构建了一个局部图,然后通过一个 GNN 编码器对会影响的对话的「中心概念」进行编码。如果你对最近的 ConvAI 产品该兴趣,请一定要参阅「NLP for ConvAI」(https://sites.google.com/view/2ndnlp4convai/home)研讨会的论文集。
信息提取:OpenIE 和链接预测
如果你从事的工作恰好与根据原始文本构建知识图谱相关,也许你已经知道大家约定俗成将 OpenIE 作为起点。正如前文所述,像 OpenIE4 或 OpenIE 5 这种基于规则的框架仍然被广泛使用。也就是说,提升 OpenIE 信息提取的指令可以缓解知识图谱构建过程中存在的许多问题。请注意:使用 OpenIE 获得的知识图谱也被成为「Open KG」(开放知识图谱)。
Kolluru 等人在论文「IMOJIE: Iterative Memory-Based Joint Open Information Extraction 」(https://www.aclweb.org/anthology/2020.acl-main.521.pdf)中提出了一种生成式的 OpenIE 方法「IMoJIE」(迭代式的基于记忆的联合信息提取)。在 CopyAttention 范式的启发下,作者提出了一种迭代式的序列到序列信息提取算法:在每一轮迭代中,将原始序列与之前提取的信息连接,并将其输入给 BERT 从而获得最终的嵌入。接着,将带有拷贝和注意力机制的 LSTM 用于生成新的信息提取结果(包含三元组的词例)。为了进一步改进训练集,作者将 OpenOE 3 和 OpenIE 4 以及系统的结果作为生成结果的「银标签」进行了聚合和排序。
尽管该架构看似简单,但它相较于现有的对比基线确实带来了显著的性能提升。模型简化实验(又称消融实验)的结果表明,BERT 对于整体的信息提取质量至关重要,所以我猜想如果使用一个更大的 Transformer,或使用一个针对特定领域预训练的语言模型(例如,如果你的文本是来自法律或生物医学领域)信息提取质量会得到进一步的提升。
图 16:序列化解码过程。
尽管在 RDF 式的知识图谱上的链接预测(LP)任务中,人们已经做出了一些里程碑式的工作,我们并不能认为在开放知识图谱(open KG)上也是如此。
图 17:对链接预测和开放链接预测的对比评价。
但现在可以做到了!
Broscheit 等人在论文「Can We Predict New Facts with Open Knowledge Graph Embeddings? A Benchmark for Open Link Prediction」(https://www.aclweb.org/anthology/2020.acl-main.209.pdf)中定义了给定开放知识图谱在面临以下挑战时的开放链接预测任务:
给定一个(“主语文本”或“关系文本”)的查询,系统需要预测真实的、不能被简单解释的新事实。
然而,并没有可用的实体或关系 URI 能将表面形式绑定到同一个表征上。
尽管如此,许多相同实体或关系的表面形式可能会造成测试机泄露,因此需要仔细地构建并清洗测试集。
作者提出了一种构建并清洗数据集的方法、一种评价协议,以及一种对比基准测试任务。OLPBench 是一种最大的基于知识图谱嵌入的链接预测数据集:它包含超过 30M 三元组、1M 独特的开放关系、800K 个被提及了 2.5M 次的唯一实体。在实验中,作者使用了 ComplEx,通过 LSTM 聚合多词例声明。开放链接预测任务由此变得十分困难:即使强大的 768 维 ComplEx 也只得到了 3.6 MRR,2 Hit@1,6.6 Hits@10 的测试结果。
显然,这是一个颇具挑战的数据集:看到这些方法不仅可以被扩展到如此之大的图上,还能够将性能提升到与 FB15K-237 相当的水平上(目前,这一数字是 35 MRR 以及 55 Hits@10)是十分有趣的。
此外,如果你对根据文本构建知识图谱感兴趣,我推荐你参阅 AKBC 2020(https://www.akbc.ws/2020/papers/)的会议论文集。
结语
在今年的 ACL 2020 上,我们发现有关知识图谱增强的语言模型和命名实体识别(NER)的工作变少了,而另一方面,「Graph-to-Text」方面的自然语言生成工作正处于上升趋势!
via https://towardsdatascience.com/knowledge-graphs-in-natural-language-processing-acl-2020-ebb1f0a6e0b1