[发明专利]一种数据库相似语句筛选的方法和装置有效

申请号：	201910092111.2	申请日：	2019-01-30
公开（公告）号：	CN109829051B	公开（公告）日：	2023-01-17
发明（设计）人：	黄永江;邱志国;庄纪军;张毅;赵乾	申请（专利权）人：	科大讯飞股份有限公司
主分类号：	G06F16/332	分类号：	G06F16/332;G06F16/33;G06F40/30;G06Q30/02
代理公司：	北京集佳知识产权代理有限公司 11227	代理人：	王宝筠
地址：	230088 安徽***	国省代码：	安徽;34
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种数据库相似语句筛选方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请公开了一种数据库相似语句筛选的方法和装置，该方法包括：利用目标标准语句的多个目标扩展语句的语义向量和语义向量预期筛选各个目标扩展语句得到待质检扩展语句；计算每个待质检扩展语句的语义向量与数据库中每个其他扩展语句的语义向量的相似度；其中，语义向量是通过语义度量模型得到的；基于相似度和第一预设筛选条件筛选各个待质检扩展语句和各个其他扩展语句，得到相似待质检扩展语句和对应的相似其他扩展语句。可见，仅筛选需质检的目标扩展语句作为待质检扩展语句，减小待质检扩展语句数量；该自动相似语句筛选相较于人工筛选得到的筛选结果更加完善、准确，且节省人力、节约时间，提高筛选效率。

技术领域

本申请涉及数据处理技术领域，尤其涉及一种数据库相似语句筛选的方法和装置。

背景技术

随着人工智能的快速发展，最能体现人工智能技术的智能客服系统应用越来越广泛，智能客服系统的实现依赖于其核心“大脑”——知识库。知识库中的知识点一般采用“问-答”输入-输出形式，其中，表示知识点的文字输入称为标准语句，由标准语句扩展变形衍生的文字输入称为扩展语句，其与标准语句语义相同、文字略有差异。通常情况下知识库包括多个标准语句，每个标准语句包括多个扩展语句。

不同标准语句的扩展语句可能相似(缠绕)，例如，标准语句1“套餐资费查询”包括的扩展语句1“查询我的套餐”与标准语句2“查询套餐”包括的扩展语句2“我想查询套餐”语义相似度较高，则扩展语句1与扩展语句2相似；当不同标准语句的多个扩展语句大多相似，则不同标准语句可能相似(混淆)。上述缠绕和混淆等问题，导致利用知识库进行语义认知存在一定误差，影响语义认知结果。因此，至少需要从知识库筛选得到相似扩展语句以便对其进行优化。现有技术中，工作人员随机抽取知识库中部分句式，根据工作人员的经验从抽取出的部分句式中人工筛选不同标准语句相似的扩展语句。

发明人经过研究发现，现有技术中工作人员随机抽取的比例有限只能抽取部分句式，存在一定的漏检风险；根据工作人员的经验人工筛选需要投入大量的人力，耗费大量的时间，对工作人员的专业要求较高，筛选结果与工作人员的经验相关性较大，最终导致筛选效率较低且筛选结果不够完善、不够准确。

发明内容

本申请所要解决的技术问题是，提供一种数据库相似语句筛选的方法和装置，使得筛选结果更加完善、准确，且节省人力、节约时间，提高筛选效率。

第一方面，本申请实施例提供了一种数据库相似语句筛选的方法，该方法包括：

基于目标标准语句的多个目标扩展语句的语义向量和语义向量预期，从多个所述目标扩展语句中筛选获得待质检扩展语句；

获得每个所述待质检扩展语句的语义向量与数据库中每个其他扩展语句的语义向量的相似度；

基于所述相似度和第一预设筛选条件，从各个所述待质检扩展语句和各个所述其他扩展语句中筛选获得相似待质检扩展语句和对应的相似其他扩展语句。

可选的，所述基于目标标准语句的多个目标扩展语句的语义向量和语义向量预期，从多个所述目标扩展语句中筛选获得待质检扩展语句，包括：

利用预先训练的语义度量模型获得所述多个目标扩展语句的语义向量；

基于多个所述目标扩展语句的语义向量获得语义中心向量；

获得每个所述目标扩展语句的语义向量与所述语义中心向量的第一余弦距离；

基于所述第一余弦距离和第二预设筛选条件，从各个所述目标扩展语句筛选获得所述待质检扩展语句。