[发明专利]基于两阶段的零样本关系三元组抽取方法及系统在审
申请号: | 202310534905.6 | 申请日: | 2023-05-12 |
公开(公告)号: | CN116595189A | 公开(公告)日: | 2023-08-15 |
发明(设计)人: | 张春;张宁;许亮 | 申请(专利权)人: | 北京交通大学 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F16/35;G06F40/205 |
代理公司: | 北京市商泰律师事务所 11255 | 代理人: | 邹芳德 |
地址: | 100044 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 阶段 样本 关系 三元 抽取 方法 系统 | ||
本发明提供一种基于两阶段的零样本关系三元组抽取方法及系统,属于人工智能与自然语言处理技术领域,将给定句子与Prompt模板结合起来,利用预训练的语言模型来预测句子中包含的关系的位置的嵌入表示,作为句子表示;将每个关系的文本描述输入到同一个预训练语言模型中,获得关系表示;将句子表示与每个关系表示进行比较,确定哪些关系是候选关系;利用提示驱动的生成模型来实现对比三元组提取,识别每个匹配关系的主体和客体。本发明利用提示驱动的零样本文本分类确定哪些是看不见的关系与给定句子相匹配;利用提示驱动的生成模型实现对比三元组提取,识别每个匹配关系的主客体;缓解了样本生成带来的误差传递,提高了零样本关系三元抽取任务的F1值。
技术领域
本发明涉及人工智能与自然语言处理技术领域,具体涉及一种基于两阶段的零样本关系三元组抽取方法及系统。
背景技术
关系三元组抽取是信息提取领域中的一个重要任务,旨在从给定的句子中提取出关系三元组。该任务支持许多领域的发展,如知识图谱、信息检索和自然语言推理。目前,基于监督学习的关系三元组抽取技术已经发展成熟,并取得了很多成果。然而,由于新知识的快速涌现和数据标注的高成本,现有的可用数据并不能总是覆盖所有的关系。对此,零样本的关系三元组抽取逐渐受到越来越多的关注。
现有针对没有训练数据的关系三元组抽取问题的解决方案大致可以分成三类:远程监督的、开放域的和零样本的三元组抽取。远程监督的关键思想是将未标记的语料与现有的大规模知识图谱对齐,利用知识图谱的关系来标记每个给定的句子,最后将标记的语料用于监督的关系三元组提取。开放域关系抽取是一种试图从给定句子中明确呈现的关系中抽取关系三元组的方法。零样本三元组抽取要求模型能够在没有对特定关系类型进行训练的情况下,对该类型进行关系三元组抽取。这种方法通常需要利用文本描述等外部信息来进行推理和泛化,因此具有较高的实用性和应用价值。
现有的技术方案中,主要存在以下问题:
远程监督的关系三元组抽取方法不能提取知识图谱中未见过的关系三元组,应用范围较为局限;开放域的关系三元组抽取方法有一个严格的前提条件,即只有句子中的显性表示出来的关系才能被提取出来,其不能够发掘句子之外的知识,可能无法发现潜在的关系,应用范围较局限;现有的零样本三元组抽取任务是基于训练集训练生成模型,生成未见过的关系三元组,然后通过监督学习技术学习未知三元组的抽取模型。但是这样的策略不可避免地会导致错误传播,影响最终的抽取效果。
发明内容
本发明的目的在于提供一种可以有效缓解错误传播问题,提高模型抽取未知关系三元组的表现的基于两阶段的零样本关系三元组抽取方法及系统,以解决上述背景技术中存在的至少一项技术问题。
为了实现上述目的,本发明采取了如下技术方案:
一方面,本发明提供一种基于两阶段的零样本关系三元组抽取方法,包括:
将给定句子与Prompt模板结合起来,利用预训练的语言模型来预测句子中包含的关系的位置的嵌入表示,作为句子表示;
将每个关系的文本描述输入到同一个预训练语言模型中,获得关系表示;
将句子表示与每个关系表示进行比较,确定哪些关系是候选关系;
利用提示驱动的生成模型来实现对比三元组提取,识别每个匹配关系的主体和客体。
优选的,利用提示驱动的生成模型来实现对比三元组提取,识别每个匹配关系的主体和客体包括:引入标记字符集,用于将关系三元组表示为一个字符序列;为了表示输出的三元组,“Triplet”标记表示一个新三元组的开始,紧随其后的是三元组的主语实体的生成输出;“Subject”和“Object”标记表示主语实体字符和宾语实体字符的结尾,中间填充的是宾语实体字符;关系类型放置在“Object”后面;同时,为了表示输入的候选关系,“Relation”和“\Relation”令牌被添加到Prompt中的模板,分别对应于候选关系字符的开始和结束。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京交通大学,未经北京交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310534905.6/2.html,转载请声明来源钻瓜专利网。