[发明专利]一种基于关系模型的指代消歧的训练方法及系统有效

申请号：	202211050793.9	申请日：	2022-08-30
公开（公告）号：	CN115358341B	公开（公告）日：	2023-04-28
发明（设计）人：	于伟;靳雯;赵洲洋;石江枫;王全修;吴凡	申请（专利权）人：	北京睿企信息科技有限公司;日照睿安信息科技有限公司
主分类号：	G06F40/295	分类号：	G06F40/295;G06F40/30;G06F40/268;G06F18/214
代理公司：	北京锺维联合知识产权代理有限公司 11579	代理人：	李慧敏
地址：	100013 北京市东***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于关系模型指代训练方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于关系模型的指代消歧的训练方法，其特征在于，该训练方法包括：

S100，获取训练集T，T中包括n个文本样本T＝{T₁,T₂,…,T_n}，其中第i个文本样本T_i中包括m个实体Su_i＝{Su_i,1,Su_i,2,…,Su_i,m}和R(j)个指代T_i中第j个实体Su_i,j的指代词Z中元素的顺序是按照指代词在T_i中出现的顺序排序，i的取值范围为1到n，R(j)的函数值为整数且满足j的取值范围为1到m；

S200，将T_i中的SUM个指代词分别标记为主语标签，得到T_i的主语训练数据；

S300，将文本样本T_i中的任意一个指代词作为主语标注关系标签得到一条关系训练数据，获取SUM个指代词的关系训练数据集；其中，第r个指代Su_i,j的指代词作为主语的关系训练数据为：在T_i中的两侧分别添加第一标识符和第二标识符，得到调整后的T_i；将调整后的T_i中第r-1个指代Su_i,j的指代词作为宾语，将宾语标注为指代关系标签；当r＝1时，将Su_i,j作为宾语且标注为指代关系标签；其中，r的取值范围为1到R；

S400，获取主语训练数据和关系训练数据集中每个字符的特征向量，将n个文本样本T中所有文本样本的主语训练数据、关系训练数据集和特征向量输入关系模型中，对关系模型进行训练。

2.根据权利要求1所述的基于关系模型的指代消歧的训练方法，其特征在于，所述步骤S400之后还包括后处理步骤：

S520，获取关系模型输出的具有K条关系的关系列表L＝{L₁,L₂,…L_K}，其中第k条关系列表为{S_k,P_k,O_k}，其中S_k为预测的主语实体，P_k为预测的关系，O_k为预测的宾语；

S540，在L_k中的P_k为指代关系时，将L_k中的{S_k,O_k}添加到连通图集合中，其中k的取值范围为1到K；

S560，根据连通图集合创建实体映射表B。

3.根据权利要求2所述的基于关系模型的指代消歧的训练方法，其特征在于，所述S560之后，还包括：

S580，在L_k中的P_k为非指代关系时，根据L_k中的指代词查询B，得到相应的命名实体；利用得到的命名实体替换L_k中的指代词，得到重建的关系。

4.根据权利要求1所述的基于关系模型的指代消歧的训练方法，其特征在于，所述第一标识符和第二标识符均为成对标识符和至少一个字母构成的组合标识符，其中字母位于成对标识符的中间位置。

5.根据权利要求1所述的基于关系模型的指代消歧的训练方法，其特征在于，第一标识符和第二标识符分别对应一个特征向量。

6.根据权利要求1所述的基于关系模型的指代消歧的训练方法，其特征在于，所述特征向量包括相应字符的字向量、位置向量和段向量。

7.根据权利要求1所述的基于关系模型的指代消歧的训练方法，其特征在于，所述实体为人名实体，所述指代词为人称代词。

8.根据权利要求1所述的基于关系模型的指代消歧的训练方法，其特征在于，所述关系模型为BERT模型。

9.一种基于关系模型的指代消歧的训练系统，其特征在于，所述系统包括处理器和非瞬时性计算机可读存储介质，所述非瞬时性计算机可读存储介质中存储有至少一条指令或至少一段程序，所述至少一条指令或所述至少一段程序由处理器加载并执行以实现如权利要求1-8中任意一项所述的训练方法。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京睿企信息科技有限公司;日照睿安信息科技有限公司，未经北京睿企信息科技有限公司;日照睿安信息科技有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202211050793.9/1.html，转载请声明来源钻瓜专利网。

上一篇：一种叠片芯包极耳翻折检测装置及方法
下一篇：一种带延长线的轨道排插适配器

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于关系模型的指代消歧的训练方法及系统有效

专利文献下载