[发明专利]基于两阶段的零样本关系三元组抽取方法及系统在审

申请号：	202310534905.6	申请日：	2023-05-12
公开（公告）号：	CN116595189A	公开（公告）日：	2023-08-15
发明（设计）人：	张春;张宁;许亮	申请（专利权）人：	北京交通大学
主分类号：	G06F16/36	分类号：	G06F16/36;G06F16/35;G06F40/205
代理公司：	北京市商泰律师事务所 11255	代理人：	邹芳德
地址：	100044 北***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于阶段样本关系三元抽取方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于两阶段的零样本关系三元组抽取方法，其特征在于，包括：

将给定句子与Prompt模板结合起来，利用预训练的语言模型来预测句子中包含的关系的位置的嵌入表示，作为句子表示；

将每个关系的文本描述输入到同一个预训练语言模型中，获得关系表示；

将句子表示与每个关系表示进行比较，确定哪些关系是候选关系；

利用提示驱动的生成模型来实现对比三元组提取，识别每个匹配关系的主体和客体。

2.根据权利要求1所述的基于两阶段的零样本关系三元组抽取方法，其特征在于，利用提示驱动的生成模型来实现对比三元组提取，识别每个匹配关系的主体和客体包括：引入标记字符集，用于将关系三元组表示为一个字符序列；为了表示输出的三元组，“Triplet”标记表示一个新三元组的开始，紧随其后的是三元组的主语实体的生成输出；“Subject”和“Object”标记表示主语实体字符和宾语实体字符的结尾，中间填充的是宾语实体字符；关系类型放置在“Object”后面；同时，为了表示输入的候选关系，“Relation”和“\Relation”令牌被添加到Prompt中的模板，分别对应于候选关系字符的开始和结束。

3.根据权利要求1所述的基于两阶段的零样本关系三元组抽取方法，其特征在于，Prompt驱动的关系匹配的目标是：生成句子表示并将其与候选关系进行匹配，如下式所示：

T＝[t₁,…,t_p][pMASK][t_p+1,…,t_|T|]；

其中，模板T表示为一个令牌序列；对于特定的输入(s,T)，即Prompt驱动的关系匹配的输入，表示为它是通过填充模板并使用[CLS]和[SEP]标记将其与s进行连接获得，如下式所示：

4.根据权利要求3所述的基于两阶段的零样本关系三元组抽取方法，其特征在于，将关系位置的嵌入分配为句子表示b是预训练语言模型的嵌入维度，如下式所示：

其中，PLM(·)表示从输入令牌序列到输出关系嵌入的映射，由预训练语言模型中的编码层实现；

基于预训练语言模型和关系描述，获得一个特定关系r_i的表示，表示为r_i∈R^b，模型的优化目标是最小化与其对应关系表示之间的距离，如下式所示：

其中，如果第j句话属于第i个关系，则k_ij＝1，否则k_ij＝0；f_distance(·)是一个距离度量函数。

5.根据权利要求4所述的基于两阶段的零样本关系三元组抽取方法，其特征在于，引入一个新的标记“None”，在训练过程中，随机选择多个关系，并插入到Prompt模板中，其中主语和宾语被“None”令牌替换；

将句子和Prompt中的模板连接在一起作为输入，表示为如下式所示，模型基于预训练语言模型和自回归生成输出标记序列y；

其中，在训练过程中，每个y_i被表示为一个单词分布的向量。

6.根据权利要求5所述的基于两阶段的零样本关系三元组抽取方法，其特征在于，基于预训练语言模型通过最小化损失函数L_sog进行优化：

7.一种基于两阶段的零样本关系三元组抽取系统，其特征在于，包括：