结合知识图谱和图神经网络,远程监督关系抽取

AIO科技
5月前  
1.1 论文工作
这是一篇比较经典的远程监督关系抽取论文,由于现存的方法很容易进行关系抽取,却忽略了关系推理过程。论文提出了一种根据自然语言句子生成图神经网络参数的方法,使其能够处理非结构化文本输入的关系推理。
1.2 论文方法
GP-GNN 首先用文本序列中的实体构造一个全连接图, 之后使用三个模块来处理关系推理:(1)使边能够对自然语言中的丰富信息进行编码的编码模块;(2)在各个节点之间传播关系信息的传播模块;(3)使用节点表示进行预测的分类模块。编码模块将一系列向量表示作为输入,并输出一个转移矩阵, 传播模块利用生成的转移矩阵将隐藏状态从节点传播到其邻居,分类模块根据节点表示提供与任务相关的预测
1.2.1 Encoding Module
通过以下公式,编码模块将序列转换为边相关的转移矩阵,即传播模块的参数:
1.2.2 Propagation Module
传播模块逐层学习节点的表示形式,节点的初始嵌入(即第 0 层的表示)与任务相关,可以是对节点特征进行编码的嵌入,也可以是 one-hot 编码嵌入。
1.2.3 Classification Module
分类模块将节点表示作为输入和输出预测,GP-GNN 的损失公式为:
1.2.4 Relation Extraction with GP-GNNs
给定句子
,此句子中的一组关系
和一组实体
,其中每个
由一个或一系列 token 组成,从文本中提取关系是为了识别每个实体
之间的成对关系
Encoding Module
首先将句子中的位置嵌入与单词嵌入连接起来:
BiLSTM 通过将前向 LSTM 的尾部隐藏状态和后向 LSTM 的头部隐藏状态串联在一起来编码序列,MLP 表示具有非线性激活的多层感知器。
Propagation Module
提取实体
和实体
之间的关系,它们的初始嵌入记为
,而其他实体的初始嵌入全部设置为零。为头、尾实体的初始嵌入设置特殊值作为一种“flag”消息,并通过传播模块来传递这些消息。
也可以携带有关 subject 和 object 实体的先验知识,实验中设置
Classification Module
输出模块采用目标实体对的嵌入作为输入,并运用 softmax 函数来进行分类:
损失函数为:
1.3 实验
论文在人工标注的测试数据集和远程监督标注数据集上进行了实验。本文最佳模型在所有三个测试集上的性能均明显优于所有基模型。这些结果表明 GP-GNN 模型可以使用自然语言生成的参数对完全连接的图成功进行推理。这些结果还表明本模型不仅在句子级关系提取上表现良好,而且在袋级关系提取上也有所改进。
RECON
论文标题:
RECON: Relation Extraction using Knowledge Graph Context in a Graph Neural Network
论文来源:
WWW 2021
论文链接:
https://dl.acm.org/doi/abs/10.1145/3442381.3449917
2.1 论文工作
论文提出了一种基于知识图谱上下文的图神经网络关系抽取方法(RECON),能自动识别句子中的关系并且对齐到知识图谱(KG)。RECON 使用一个图神经网络来学习句子和存储在 KG 中的事实的表示,提高了提取质量。
2.2 论文方法
2.2.2 Triple Context Learner
因为每个实体可能在不同的上下文中涉及多个关系,论文的思想是学习在独立的向量空间中三元组的实体和关系嵌入,以捕捉更有表现力的表示。三元组的向量表示分别由初始头实体向量、初始尾实体向量和初始关系向量表示:
每个三元组的相对重要性即可由三元组的向量表示得到:
头实体新的嵌入向量为三元组嵌入的加权和:
对于关系嵌入,将初始关系嵌入矩阵进行线性转换,得到新的关系嵌入向量。对于一个有效的三元组嵌入,必须使下面的式子成立:
与之前的方法所不同的是,论文将实体和关系嵌入在了不同的空间中。因此,需要将实体从实体空间转换到关系空间,论文解决此问题应用了一个非线性转换过程(证明过程见原文)。
因此,上面的满足公式修正为:
定义距离公式为:
因此 loss 函数定义为:
表示有效三元组,
表示无效三元组。作者认为在数据集中出现的实际三元组是正的(有效的)三元组,而不在数据集中的其他三元组是无效的。例如,如果在 KG 中,实体 Barack Obama 和 Michelle Obama 有一个有效的关系“配偶”,那么有效的三联体是 。无效的三元组将包含这两个实体之间不存在的关系。
2.2.3 Aggregating KG Context
Aggregating KG Context 由编码器模块、传播模块和分类模块组成。编码器将单词向量连接到句子中的位置向量作为输入。
编码器模块将句子中的词语向量和位置向量串联起来,论文在 BiLSTM 中使用连接词嵌入,然后使用全连接网络生成转换矩阵,如下所示:
然后,传播模块根据下式分层学习实体节点
的表示:
在分类模块中,将传播模块中每一层学习到的向量串联起来,用于连接关系,并将从三元组内容学习到的内容与其串联送入分类层得到每个关系的概率:
上式是在同一个向量空间的嵌入,对于从不同向量空间的嵌入,论文计算了对应关系向量的相似性,并利用不同空间的实体嵌入,并应用了非线性函数来得到聚合器的最终表示:
作者对于每一个关系取实体对的平移向量,得到距离度量的范数,并将每个关系的这些范数连接起来,得到一个平移向量。
最后将从传播阶段和实体嵌入中学习到的向量连接起来,对目标关系进行分类。
2.3 实验
作者使用两个标准数据集进行实验,分别为 Wikidata dataset 和 NYT Freebase dataset,并且对比了最新的研究方法。作者配置 RECON 模型应用各种上下文输入向量,具体模型主要有:KGGAT-SEP,RECON-EAC,RECON-EAC-KGGAT和 RECON。从实验结果可以看出,模型的每一个部分都对精度提升有不同程度的贡献。
总结
这两篇篇文献集中于基于知识图谱和图神经网络的远程监督关系抽取。在关系抽取任务中,多跳关系推理是必不可少的。目前,图神经网络是比较有效的方法之一。第一篇文献介绍了利用图神经在无结构化数据上进行关系推理。考虑到知识库中除了实体关系之外,还有很多其他的信息可以加以利用,因此在第二篇模型中考虑了这部分特征信息,比如关系的别名信息以及实体的类别信息。
二、AAAI2022 | 知识图谱嵌入模型的泛化能力由何而来?
作者 | 王宏准
今天给大家介绍中国科学院大学网络安全学院方芳教授课题组发表在 AAAI 2022 上的论文 “How Does Knowledge Graph Embedding Extrapolate to Unseen Data: a Semantic Evidence View”。本文主要尝试研究两个问题:(1)知识图嵌入模型如何外推到看不见的数据?(2)如何设计具有更好外推能力的 知识图嵌入模型?
Part1摘要
知识图嵌入(KGE)旨在学习实体和关系的表示。大多数 KGE 模型都取得了巨大的成功,尤其是在外推场景中。具体来说,给定一个看不见的三元组
,经过训练的模型仍然可以从
中正确预测
,这就是外推场景。然而,现有的大多数 KGE 工作都集中在三元组建模函数的设计上,用于衡量观察到的三元组存在的可能性,但对这些方法为什么可以外推到看不见的数据上以及有哪些重要因素有助于 KGE 外推的研究很少。因此,本文尝试研究如下两个问题:(1)知识图嵌入模型如何外推到看不见的数据?(2)如何设计具有更好外推能力的 知识图嵌入模型?对于问题1,本文分别从关系、实体和三元组三个层次讨论了影响外推的因素,提出了三种语义证据,它们可以从训练集中观察到,为外推提供重要的语义信息。然后通过对几种典型 KGE 方法的大量实验,验证了三种语义证据的有效性。对于问题2,为了更好地利用语义证据的三个层次,本文提出了一种新的基于 GNN 的 KGE 模型,称为语义证据感知图神经网络(SE-GNN)。
Part2前言
在机器学习理论领域,有许多工作试图研究神经网络或多层感知器的泛化和外推能力。有研究证明了ReLU MLPs不能外推大多数非线性函数,但可以在训练分布足够多样时外推线性函数。对于图神经网络,研究表明,它们可以对结构和特征中的非线性进行编码,以帮助外推。然而,上述工作的结论不能直接适用于 KGE 领域。因为神经网络的分析大多集中在分类或回归任务上,只有一个对象或分布。对于图神经网络,研究也主要是关于节点分类或图分类任务。而对于 KGE 任务,有三个目标
相互影响,这使得 KGE 的外推分析不同于其它机器学习领域。此外,在知识图谱中可以挖掘出丰富的数据模式和事实相互依赖关系,这对于理解 KGE 的外推性能非常重要。
本文认为知识图嵌入模型的外推能力来自于训练过程中获得的语义信息,这些语义信息可能来自于三个水平:
关系水平在训练集中,如果实体
和关系
高频共现,对于新的查询
, 可以依据关系
推测出尾实体
eg: 对于查询
,尾实体
是城市的概率会远高于是电影的概率。这一推测和头实体无关,只与关系 born_in 有关。
实体水平在训练集中,如果实体
和实体
存在直接或间接的联系,可以为新的查询
提供证据。
三元组水平对于新的查询
, 如果在训练集中存在多个和
相似的
和该查询匹配,则模型很容易外推出
作者通过实验,证实了在不同语义证据强度下,模型的外推能力有显著差异。训练集中的语义证据越充足,模型的外推能力越强。且三种语义证据都是影响模型外推能力的重要因素。实验结果如下图所示:
Part3 方法
以上实验说明语义证据对于设计具有强大外推能力的 KGE 模型非常重要。然而,大多数已有的 KGE 工作,没有意识到这种外推因素,它们主要通过一种隐含的、不充分的方式获取这些信息,这限制了它们的外推性能。本文明确地将每个语义证据视为不同的邻域模式,并通过 GNN 的多层聚合机制对它们进行充分建模,以获得更多的外推知识表示。
3.模型结构
Part4结果
作者同三类主流的 KGE 模型做了比较,结果如下表:
作者同三类主流的 KGE 模型做了比较,结果如下表:
本文通过消融实验进一步证明了对语义证据建模的重要性:
参考文献
https://arxiv.org/abs/2109.11800
https://github.com/renli1024/SE-GNN
知识图谱AI大本营
知识图谱AI大本营 是一个追踪、解读、讨论和报道知识图谱、深度学习、机器学习等AI前沿成果的学术平台,致力于让人工智能领域的国内外优秀科研工作者们得到交流学习的机会。
分享好友
分享好友
更多精彩内容进入 [科技频道]
打开腾讯新闻,阅读全文