[发明专利]文本扩增方法、系统、计算机设备及可读存储介质在审
申请号: | 202210233527.3 | 申请日: | 2022-03-10 |
公开(公告)号: | CN114661917A | 公开(公告)日: | 2022-06-24 |
发明(设计)人: | 朱昱锦;徐亮 | 申请(专利权)人: | 深圳壹账通科技服务有限公司 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F40/268;G06K9/62 |
代理公司: | 北京英特普罗知识产权代理有限公司 11015 | 代理人: | 王勇 |
地址: | 518000 广东省深圳市前海深港合作区前*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 扩增 方法 系统 计算机 设备 可读 存储 介质 | ||
本发明提供了一种文本扩增方法,所述方法包括:获取问句,解析问句中的各个实词,标注各个实词的词性;根据各个实词的词性以及各个实词的字数,获取各个实词的关键性排序值;将关键性排序值高于预设阈值的实词作为目标实词;通过预设知识图谱或者预设提取规则,提取目标实词的同义词或者近义词;将提取到的同义词或者近义词作为扩增文本添加到机器阅读理解的通用数据集中,实现文本扩增;本发明实施例根据关键性排序值提取出问句中的关键信息,提高了机器阅读理解的识别模型给出的答案的准确性;通过关键信息查询词典或者知识图谱的方式对关键信息进行扩充,提高了识别模型给出答案的概率。
技术领域
本发明涉及数据处理领域,尤其涉及文本扩增方法、系统、计算机设备及可读存储介质。
背景技术
机器阅读理解(Machine Reading Comprehension,MRC)是一种利用算法使计算机理解文章语义并回答相关问题的技术,机器阅读理解的框架包括编码层、交互层以及输出层。
现有的机器阅读理解的问答机制,通常是通过问题中的关键词的语义然后在文章中匹配相应的句子,然后进行回答,如何有效的定位到关键词成为问句中的语义理解的关键,关键词的提取也直接影响到机器回答的准确性,在有些问句中,关键词在文章中搜索不到,也会导致无答案的回答样本产生,影响了问答机制的准确性。
发明内容
本发明的目的是提供一种文本扩增方法、系统、计算机设备及可读存储介质,用于解决以下问题:机器阅读理解问答机制准确度低。
本发明实施例的一个方面提供了一种文本扩增方法,所述扩增方法包括:
获取问句,解析所述问句中的各个实词,标注各个所述实词的词性;各个所述实词的词性为名词、动词、形容词以及副词中的一种;
根据各个所述实词的词性以及各个所述实词的字数,获取各个所述实词的关键性排序值;
将关键性排序值高于预设阈值的实词作为目标实词;
通过预设知识图谱或者预设提取规则,提取所述目标实词的同义词或者近义词;
将提取到的同义词或者近义词作为扩增文本添加到机器阅读理解的通用数据集中,实现文本扩增。
进一步的,所述根据各个所述实词的词性以及各个所述实词的字数,获取各个所述实词的关键性排序值的步骤,包括:
获取各个所述实词的预设词性值以及各个实词的字数;
通过
Pi=σ1Qi+σ2Si
计算各个实词的关键性排序值;其中,所述Pi表示实词i的关键性排序值,所述Qi表示实词i的词性值;所述Si表示实词i的字数;σ1表示实词i的词性值所占的权重,σ2表示实词i的字数所占的权重,σ1+σ2=1。
进一步的,所述通过预设提取规则,提取所述目标实词的同义词或者近义词的步骤包括:
根据所述目标实词,在第一词典中查询得到多个对应于所述目标实词的第一语句,从多个第一语句中筛选出符合所述预设提取规则的至少一个第一目标语句,基于所述预设提取规则在所述至少一个第一目标语句中确定第一目标位置,根据所述第一目标位置提取对应于所述目标实词的第一同义词或近义词;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳壹账通科技服务有限公司,未经深圳壹账通科技服务有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210233527.3/2.html,转载请声明来源钻瓜专利网。