[发明专利]一种基于相似词汇表的文本关系自动标注方法在审
| 申请号: | 202111070442.X | 申请日: | 2021-09-13 | 
| 公开(公告)号: | CN113886521A | 公开(公告)日: | 2022-01-04 | 
| 发明(设计)人: | 闵飞;胡岩峰;乔雪;向镐鹏;姜添;彭晨;沈红;潘宇顺;杨婷 | 申请(专利权)人: | 苏州空天信息研究院 | 
| 主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F40/194;G06F40/295;G06F40/30 | 
| 代理公司: | 南京理工大学专利中心 32203 | 代理人: | 封睿 | 
| 地址: | 215000 江苏省*** | 国省代码: | 江苏;32 | 
| 权利要求书: | 查看更多 | 说明书: | 查看更多 | 
| 摘要: | |||
| 搜索关键词: | 一种 基于 相似 词汇表 文本 关系 自动 标注 方法 | ||
1.一种基于相似词汇表的文本关系自动标注方法,其特征在于,步骤如下:
步骤1,确定所有抽取的关系名称以及对应的实体类型,并获取含有关系名称的语料;
步骤2,在语料中每个出现关系名称的地方生成可替代该关系名称的相似词汇表,并以此整理出关系类型词汇表;
步骤3,对句子进行命名体识别以及实体关系三元组提取;
步骤4,依据命名体识别的结果判断实体关系三元组的实体对是否满足条件,生成候选关系集合;
步骤5,对实体关系三元组中关系短语的每个词汇生成相似词汇表,结合关系类型词汇表,判断该词汇表达的候选关系,所有词汇中表达次数最多的候选关系即为标注关系,完成自动标注。
2.根据权利要求1所述的基于相似词汇表的文本关系自动标注方法,其特征在于,步骤2,在语料中每个出现关系名称的地方生成可替代该关系名称的相似词汇表,并以此整理出关系类型词汇表,具体方法为:
对语料中所有出现关系名称的地方,利用BERT模型依据上下文对关系名称进行相似词汇替换,生成对应关系在该位置的相似词汇表,每个相似词汇表取前40个词汇,如果不超过40个就全选;对语料中每个关系生成的所有相似词汇表,首先进行词频统计排序,出现次数越多的词汇代表与该关系更为紧密,然后去除停用词,取前80个词汇,作为该关系的类型词汇表,如果不超过80个就全选。
3.根据权利要求1所述的基于相似词汇表的文本关系自动标注方法,其特征在于,步骤3,对句子进行命名体识别以及实体关系三元组提取,具体方法为:
利用命名体识别模型,对语料以句子为单位,提取句子中存在的实体,生成一个包含实体和实体类型的集合;利用开放式信息抽取工具,对语料以句子为单位,提取句子中的实体对和描述关系的关系短语,最后以三元组形式完成构建。
4.根据权利要求1所述的基于相似词汇表的文本关系自动标注方法,其特征在于,步骤4,依据命名体识别的结果判断实体关系三元组的实体对是否满足条件,生成候选关系集合,具体方法为:
对于每个句子的实体集合和实体关系三元组,首先判断关系三元组的实体对是否包含或等于命名体识别结果中的实体,若满足则将三元组实体改为命名体识别结果对应的实体,接着判断替换后的实体对的实体类型是否有目标抽取关系的实体类型与之相同,若有,则生成候选关系集合,上述条件任一不满足则该句子标注失败。
5.根据权利要求1所述的基于相似词汇表的文本关系自动标注方法,其特征在于,步骤5,对实体关系三元组中关系短语的每个词汇生成相似词汇表,结合关系类型词汇表,判断该词汇表达的候选关系,所有词汇中表达次数最多的候选关系即为标注关系,完成自动标注,具体方法为:
对关系短语中的每个词汇,利用BERT模型生成对应的相似词汇表,将相似词汇表与候选关系的类型词汇表进行比较,选取相同词汇数量最多的关系,若数量达到设定的阈值,则该词汇表达该关系类型,这里阈值设为20;综合关系短语所有的词汇,表达次数最多的关系即为标注关系;若关系短语没有词汇表达出任一候选关系,则该条语料舍去。
6.一种基于相似词汇表的文本关系自动标注系统,其特征在于,基于权利要求1-5任一项所述的基于相似词汇表的文本关系自动标注方法,实现基于相似词汇表的文本关系自动标注。
7.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时,基于权利要求1-5任一项所述的基于相似词汇表的文本关系自动标注方法,实现基于相似词汇表的文本关系自动标注。
8.一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,基于权利要求1-5任一项所述的基于相似词汇表的文本关系自动标注方法,实现基于相似词汇表的文本关系自动标注。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州空天信息研究院,未经苏州空天信息研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111070442.X/1.html,转载请声明来源钻瓜专利网。





