[发明专利]一种数据库相似语句筛选的方法和装置有效
申请号: | 201910092111.2 | 申请日: | 2019-01-30 |
公开(公告)号: | CN109829051B | 公开(公告)日: | 2023-01-17 |
发明(设计)人: | 黄永江;邱志国;庄纪军;张毅;赵乾 | 申请(专利权)人: | 科大讯飞股份有限公司 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F16/33;G06F40/30;G06Q30/02 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 王宝筠 |
地址: | 230088 安徽*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 数据库 相似 语句 筛选 方法 装置 | ||
1.一种数据库相似语句筛选的方法,其特征在于,包括:
基于目标标准语句的多个目标扩展语句的语义向量和语义向量预期,从多个所述目标扩展语句中筛选获得待质检扩展语句;
获得每个所述待质检扩展语句的语义向量与数据库中每个其他扩展语句的语义向量的相似度;所述其他扩展语句为其他标准语句的扩展语句,所述其他标准语句为所述目标标准语句之外的标准语句;
基于所述相似度和第一预设筛选条件,从各个所述待质检扩展语句和各个所述其他扩展语句中筛选获得相似待质检扩展语句和对应的相似其他扩展语句。
2.根据权利要求1所述的方法,其特征在于,所述基于目标标准语句的多个目标扩展语句的语义向量和语义向量预期,从多个所述目标扩展语句中筛选获得待质检扩展语句,包括:
利用预先训练的语义度量模型获得所述多个目标扩展语句的语义向量;
基于多个所述目标扩展语句的语义向量获得语义中心向量;
获得每个所述目标扩展语句的语义向量与所述语义中心向量的第一余弦距离;
基于所述第一余弦距离和第二预设筛选条件,从各个所述目标扩展语句筛选获得所述待质检扩展语句。
3.根据权利要求2所述的方法,其特征在于,还包括:
基于所述目标标准语句与每个目标其他标准语句之间所述相似待质检扩展语句的总数量、所述目标扩展语句的总数量、所述相似其他扩展语句的总数量和所述其他扩展语句的总数量,获得所述目标标准语句的相似扩展语句比例和每个所述目标其他标准语句的相似扩展语句比例;所述目标其他标准语句为所述相似其他扩展语句所对应的其他标准语句;
基于所述目标标准语句的相似扩展语句比例和每个所述目标其他标准语句的相似扩展语句比例,获得所述目标标准语句与每个所述目标其他标准语句的混淆度;
基于所述混淆度和第三预设筛选条件,从所述目标标准语句和各个所述目标其他标准语句筛选获得混淆的目标标准语句与目标其他标准语句。
4.根据权利要求1所述的方法,其特征在于,还包括:
基于每个所述相似待质检扩展语句的语义向量与对应的所述相似其他扩展语句的语义向量的相似度和最高相似度筛选规则,从各个所述相似待质检扩展语句和对应的所述相似其他扩展语句中筛选获得目标相似待质检扩展语句和对应的目标相似其他扩展语句。
5.根据权利要求3所述的方法,其特征在于,在所述利用预先训练的语义度量模型获得所述多个目标扩展语句的语义向量之前,还包括:
获取所述数据库的词集库中词集与领域词的对应关系;所述词集库包括多个词集,所述词集包括多个领域词;
基于所述词集与领域词的对应关系对所述目标扩展语句中领域词进行替换,获得所述目标扩展语句对应的替换扩展语句;
根据所述目标扩展语句对应的替换扩展语句,更新多个所述目标扩展语句。
6.根据权利要求5所述的方法,其特征在于,还包括:
记录所述替换扩展语句对应的所述目标扩展语句的标识;
若各个所述相似待质检扩展语句中包括所述替换扩展语句,根据所述替换扩展语句对应的所述目标扩展语句的标识,获得所述替换扩展语句对应的所述目标扩展语句;
将所述替换扩展语句对应的所述目标扩展语句确定为所述替换扩展语句对应的相似目标扩展语句。
7.根据权利要求6所述的方法,其特征在于,若所述目标标准语句与目标其他标准语句之间所述相似待质检扩展语句包括所述替换扩展语句,则所述目标标准语句与每个所述目标其他标准语句之间所述相似待质检扩展语句的总数量,是基于所述目标标准语句与目标其他标准语句之间所述相似待质检扩展语句的数量和所述替换扩展语句对应的相似目标扩展语句的数量得到的。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于科大讯飞股份有限公司,未经科大讯飞股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910092111.2/1.html,转载请声明来源钻瓜专利网。