[发明专利]基于两阶段的零样本关系三元组抽取方法及系统在审
申请号: | 202310534905.6 | 申请日: | 2023-05-12 |
公开(公告)号: | CN116595189A | 公开(公告)日: | 2023-08-15 |
发明(设计)人: | 张春;张宁;许亮 | 申请(专利权)人: | 北京交通大学 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F16/35;G06F40/205 |
代理公司: | 北京市商泰律师事务所 11255 | 代理人: | 邹芳德 |
地址: | 100044 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 阶段 样本 关系 三元 抽取 方法 系统 | ||
1.一种基于两阶段的零样本关系三元组抽取方法,其特征在于,包括:
将给定句子与Prompt模板结合起来,利用预训练的语言模型来预测句子中包含的关系的位置的嵌入表示,作为句子表示;
将每个关系的文本描述输入到同一个预训练语言模型中,获得关系表示;
将句子表示与每个关系表示进行比较,确定哪些关系是候选关系;
利用提示驱动的生成模型来实现对比三元组提取,识别每个匹配关系的主体和客体。
2.根据权利要求1所述的基于两阶段的零样本关系三元组抽取方法,其特征在于,利用提示驱动的生成模型来实现对比三元组提取,识别每个匹配关系的主体和客体包括:引入标记字符集,用于将关系三元组表示为一个字符序列;为了表示输出的三元组,“Triplet”标记表示一个新三元组的开始,紧随其后的是三元组的主语实体的生成输出;“Subject”和“Object”标记表示主语实体字符和宾语实体字符的结尾,中间填充的是宾语实体字符;关系类型放置在“Object”后面;同时,为了表示输入的候选关系,“Relation”和“\Relation”令牌被添加到Prompt中的模板,分别对应于候选关系字符的开始和结束。
3.根据权利要求1所述的基于两阶段的零样本关系三元组抽取方法,其特征在于,Prompt驱动的关系匹配的目标是:生成句子表示并将其与候选关系进行匹配,如下式所示:
T=[t1,…,tp][pMASK][tp+1,…,t|T|];
其中,模板T表示为一个令牌序列;对于特定的输入(s,T),即Prompt驱动的关系匹配的输入,表示为它是通过填充模板并使用[CLS]和[SEP]标记将其与s进行连接获得,如下式所示:
4.根据权利要求3所述的基于两阶段的零样本关系三元组抽取方法,其特征在于,将关系位置的嵌入分配为句子表示b是预训练语言模型的嵌入维度,如下式所示:
其中,PLM(·)表示从输入令牌序列到输出关系嵌入的映射,由预训练语言模型中的编码层实现;
基于预训练语言模型和关系描述,获得一个特定关系ri的表示,表示为ri∈Rb,模型的优化目标是最小化与其对应关系表示之间的距离,如下式所示:
其中,如果第j句话属于第i个关系,则kij=1,否则kij=0;fdistance(·)是一个距离度量函数。
5.根据权利要求4所述的基于两阶段的零样本关系三元组抽取方法,其特征在于,引入一个新的标记“None”,在训练过程中,随机选择多个关系,并插入到Prompt模板中,其中主语和宾语被“None”令牌替换;
将句子和Prompt中的模板连接在一起作为输入,表示为如下式所示,模型基于预训练语言模型和自回归生成输出标记序列y;
其中,在训练过程中,每个yi被表示为一个单词分布的向量。
6.根据权利要求5所述的基于两阶段的零样本关系三元组抽取方法,其特征在于,基于预训练语言模型通过最小化损失函数Lsog进行优化:
7.一种基于两阶段的零样本关系三元组抽取系统,其特征在于,包括:
预测模块,用于将给定句子与Prompt模板结合起来,利用预训练的语言模型来预测句子中包含的关系的位置的嵌入表示,作为句子表示;
获取模块,用于将每个关系的文本描述输入到同一个预训练语言模型中,获得关系表示;
比较模块,用于将句子表示与每个关系表示进行比较,确定哪些关系是候选关系;
识别模块,用于利用提示驱动的生成模型来实现对比三元组提取,识别每个匹配关系的主体和客体。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京交通大学,未经北京交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310534905.6/1.html,转载请声明来源钻瓜专利网。