[发明专利]一种基于关系模型的指代消歧的训练方法及系统有效
申请号: | 202211050793.9 | 申请日: | 2022-08-30 |
公开(公告)号: | CN115358341B | 公开(公告)日: | 2023-04-28 |
发明(设计)人: | 于伟;靳雯;赵洲洋;石江枫;王全修;吴凡 | 申请(专利权)人: | 北京睿企信息科技有限公司;日照睿安信息科技有限公司 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F40/30;G06F40/268;G06F18/214 |
代理公司: | 北京锺维联合知识产权代理有限公司 11579 | 代理人: | 李慧敏 |
地址: | 100013 北京市东*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 关系 模型 指代 训练 方法 系统 | ||
本发明涉及人工智能技术领域,具体涉及一种基于关系模型的指代消歧的训练方法及系统,该方法将任意一个样本中的所有指代词作为主语分别标注为主语标签形成主语训练数据;按照指代词出现的顺序,在当前指代词为主语时,将当前指代词的两侧添加标记符并将上一个指代词作为宾语且标注为关系标签形成关系训练数据,获取所有指代词作为主语时对应的关系训练数据,得到关系训练集;获取主语训练数据和关系训练集中每个字符的特征向量,将所有样本的主语训练数据、关系训练集和特征向量输入关系模型中进行训练,使关系模型提取出正确的关系,解决了目前关系模型无法识别多次出现的同一个指代词与实体之间的关系的问题。
技术领域
本发明涉及人工智能技术领域,具体涉及一种基于关系模型的指代消歧的训练方法及系统。
背景技术
关系抽取任务,就是从一句话中,找到哪些实体与哪些实体有哪些关系。关系抽取任务是信息提取中的一个重要子任务。关系抽取可以从复杂的非结构化文本中提取出机器能够理解的结构化数据。非结构化的文本在进行关系抽取之后,可以得到结构化的图数据,进行实体与实体之间的跨文本关联。所谓的关系,指的是文本中实体与实体之间的关系,具体的关系为一系列的主谓宾三元组:(主语S,谓语P,宾语O)。在关系抽取模型中,目前主流的方法之一是采用多轮问答法。
对于李晓雅,殷凡,孙子军,李霞宇等人于2019年在意大利佛罗伦萨的计算语言学协会发表并被收录在计算语言学协会第57届年会论文集的第1340-1350页中的实体关系提取作为多轮次问答的论文中公开了将任务转换为多回合问答问题,即实体和关系的提取转换为从上下文中识别答案跨度的任务,也即多轮问答法就是对文中的每个实体类型,进行多轮问答,从而提取出所有的关系,该方案的缺点在于:文本中如果出现多个指代同一实体的指代词,则无法识别相应指代词与实体之间的关系是什么,也不能确定反复出现的多个指代词是否是指代的同一个实体。
发明内容
为了解决上述技术问题,本发明的目的在于提供一种基于关系模型的指代消歧的训练方法及系统,所采用的技术方案具体如下:
第一方面,本发明一个实施例提供了一种基于关系模型的指代消歧的训练方法,该训练方法包括:
S100,获取训练集T,T中包括n个文本样本T={T1,T2,…,Tn},其中第i个文本样本Ti中包括m个实体Sui={Sui,1,Sui,2,…,Sui,m}和R(j)个指代Ti中第j个实体Sui,j的指代词Z中元素的顺序是按照指代词在Ti中出现的顺序排序,i的取值范围为1到n,R(j)的函数值为整数且满足j的取值范围为1到m;
S200,将Ti中的SUM个指代词分别标记为主语标签,得到Ti的主语训练数据;
S300,将文本样本Ti中的任意一个指代词作为主语标注关系标签得到一条关系训练数据,获取SUM个指代词的关系训练数据集;其中,第r个指代Sui,j的指代词作为主语的关系训练数据为:在Ti中的两侧分别添加第一标识符和第二标识符,得到调整后的Ti;将调整后的Ti中第r-1个指代Sui,j的指代词作为宾语,将宾语标注为指代关系标签;当r=1时,将Sui,j作为宾语且标注为指代关系标签;其中,r的取值范围为1到R;
S400,获取主语训练数据和关系训练数据集中每个字符的特征向量,将n个文本样本T中所有文本样本的主语训练数据、关系训练数据集和特征向量输入关系模型中,对关系模型进行训练。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京睿企信息科技有限公司;日照睿安信息科技有限公司,未经北京睿企信息科技有限公司;日照睿安信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211050793.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种叠片芯包极耳翻折检测装置及方法
- 下一篇:一种带延长线的轨道排插适配器