[发明专利]少样本关系抽取模型的训练方法、装置及终端设备在审
申请号: | 202211159237.5 | 申请日: | 2022-09-22 |
公开(公告)号: | CN115510853A | 公开(公告)日: | 2022-12-23 |
发明(设计)人: | 魏忠诚;郭文杰;张春华;生龙;王超;赵继军 | 申请(专利权)人: | 河北工程大学 |
主分类号: | G06F40/279 | 分类号: | G06F40/279;G06K9/62 |
代理公司: | 河北国维致远知识产权代理有限公司 13137 | 代理人: | 张新利 |
地址: | 056038 河北省*** | 国省代码: | 河北;13 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 样本 关系 抽取 模型 训练 方法 装置 终端设备 | ||
本申请适用于自然语言处理技术领域,提供了一种少样本关系抽取模型的训练方法、装置及终端设备。该方法包括:构建第一支持集与第一查询集对预设的少样本关系抽取模型进行正向训练,得到正向关系原型和第一匹配得分,并根据正向训练的结果与第一查询集构建第二支持集与第二查询集,以对预设的少样本关系抽取模型进行逆向训练,得到逆向关系原型和第二匹配得分,根据第一匹配得分和第二匹配得分确定交叉熵损失值,根据正向关系原型和逆向关系原型对预设的少样本关系抽取模型进行调参,并根据交叉熵损失值得到更新后的少样本关系抽取模型。本申请能够提高少样本关系抽取模型的分类准确度,进而对句子的实体关系进行有效抽取。
技术领域
本申请涉及自然语言处理技术领域,具体涉及一种少样本关系抽取模型的训练方法、装置及终端设备。
背景技术
城市公共安全产生的数据量与日俱增,城市公共安全数据中有大量人与人、人与物之间交互的数据,从数据中获取实体之间的关系(即实体关系),有助于数据的充分利用,发挥其潜在价值。
获取实体之间的关系的主要技术是实体关系抽取,现有的基于远程监督的关系抽取模型的性能通常依赖于大量高质量的标注的训练数据,而现实中,训练数据会存在长尾分布问题,即某些类别的实体关系只对应少量的标注的训练数据(少样本训练数据),这就导致现有的关系抽取模型无法对上述只对应少样本训练数据的实体关系进行准确分类。
针对上述问题,少样本学习被引入到实体关系抽取中,而现有的少样本关系抽取模型的训练往往只考虑关系原型的正向训练,导致少样本关系抽取模型也存在分类准确度低的问题。
发明内容
有鉴于此,本申请实施例提供了一种少样本关系抽取模型的训练方法、装置及终端设备,以解决现有的少样本关系抽取模型分类准确度低、无法有效地进行实体关系抽取的技术问题。
第一方面,本申请实施例提供了一种少样本关系抽取模型的训练方法,包括:根据获取的句子文本集确定正向训练的第一支持集和第一查询集,句子文本集中的实例标注有实体对和关系标签,第一支持集中根据关系标签划分有多个类别的第一实例集;利用第一支持集与第一查询集对预设的少样本关系抽取模型进行正向训练,得到第一查询集中每个第二实例与第一支持集中每个类别的第一实例集的正向关系原型,以及根据正向关系原型确定每个第二实例与每个类别的第一实例集之间的第一匹配得分,和每个第二实例的伪关系标签;
根据第一查询集与第二实例的伪关系标签构建逆向训练的第二支持集,根据句子文本集和第二支持集构建逆向训练的第二查询集,第二支持集中根据关系标签划分有多个类别的第二实例集,第二实例集的类别与第一实例集的类别相对应;利用第二支持集与第二查询集对预设的少样本关系抽取模型进行逆向训练,得到第二查询集中每个第四实例与第二支持集中每个类别的第二实例集的逆向关系原型,以及根据逆向关系原型确定每个第四实例与每个类别的第二实例集之间的第二匹配得分;
根据第一匹配得分和第二匹配得分确定交叉熵损失值,根据正向关系原型和逆向关系原型对预设的少样本关系抽取模型进行调参,并根据交叉熵损失值得到更新后的少样本关系抽取模型。
在第一方面的一种可能的实施方式中,根据获取的句子文本集确定正向训练的第一支持集和第一查询集,包括:根据获取的句子文本集和预设任务场景确定正向训练的第一支持集和第一查询集;预设任务场景确定了第一支持集中第一实例集的类别和第一实例集中第一实例的数量;第一查询集中第二实例的类别与第一实例集的类别相对应。
在第一方面的一种可能的实施方式中,根据第一查询集与第二实例的伪关系标签构建逆向训练的第二支持集,根据句子文本集和第二支持集构建逆向训练的第二查询集,包括:根据预设任务场景、第一查询集与第二实例的伪关系标签构建逆向训练的第二支持集;第二支持集中包括第一查询集中的所有第二实例;预设任务场景确定了第二支持集中第二实例集的类别和第二实例集中第三实例的数量;根据句子文本集和第二支持集构建逆向训练的第二查询集;第二查询集中第四实例的类别与第二实例集的类别相对应。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河北工程大学,未经河北工程大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211159237.5/2.html,转载请声明来源钻瓜专利网。