[发明专利]相似问集合的评分方法、装置、计算机设备和存储介质有效
申请号: | 202011127938.1 | 申请日: | 2020-10-21 |
公开(公告)号: | CN111967254B | 公开(公告)日: | 2021-04-06 |
发明(设计)人: | 武士雄;刘思亮;文博;刘云峰 | 申请(专利权)人: | 深圳追一科技有限公司 |
主分类号: | G06F40/279 | 分类号: | G06F40/279;G06F40/211;G06F40/30 |
代理公司: | 广州华进联合专利商标代理有限公司 44224 | 代理人: | 方高明 |
地址: | 518051 广东省深圳市南山区粤海街道*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 相似 集合 评分 方法 装置 计算机 设备 存储 介质 | ||
本申请涉及一种相似问集合的评分方法、装置、计算机设备和存储介质。所述方法包括:获取相似问集合,确定所述相似问集合中所包括的相似问语句的数量;分别对各个所述相似问语句进行向量编码得到各个句向量,确定各个所述句向量在所述相似问集合的语义空间中的目标分布情况;将所述目标分布情况与预设的均匀分布情况进行比较,确定所述目标分布情况与所述均匀分布情况之间的差异度;基于所述差异度和所述相似问语句的数量确定所述相似问集合的质量评分。采用本方法能够实现对相似问集合的质量进行准确检测。
技术领域
本申请涉及计算机技术领域,特别是涉及一种相似问集合的评分方法、装置、计算机设备和存储介质。
背景技术
随着计算机技术的发展,出现了文本识别、语音识别等技术,可以识别出输入的文本或者语音的意图。为了全面、准确地识别用户的意图,通常会建立相似问语句库,将相似问语句库中的相似问语句作为训练数据对识别模型进行训练。相似问语句是意图相同,表达方式不同的语句,例如“我没钱啊”、“我钱用完了”等。
在对识别模型进行训练之前,需要对相似问语句库中的相似问集合的质量进行评价。然而,目前没有对相似问集合的质量进行准确检测的方法。
发明内容
基于此,有必要针对上述技术问题,提供一种能够实现对相似问集合的质量进行准确检测的相似问集合的评分方法、装置、计算机设备和存储介质。
一种相似问集合的评分方法,所述方法包括:
获取相似问集合,确定所述相似问集合中所包括的相似问语句的数量;
分别对各个所述相似问语句进行向量编码得到各个句向量,确定各个所述句向量在所述相似问集合的语义空间中的目标分布情况;
将所述目标分布情况与预设的均匀分布情况进行比较,确定所述目标分布情况与所述均匀分布情况之间的差异度;
基于所述差异度和所述相似问语句的数量确定所述相似问集合的质量评分。
在其中一个实施例中,所述分别对各个所述相似问语句进行向量编码得到各个句向量,确定各个所述句向量在所述相似问集合的语义空间中的目标分布情况,包括:
分别对各个所述相似问语句进行向量编码得到各个第一句向量;
对各个所述第一句向量进行降维处理,得到各个第二句向量;所述第二句向量的维度数量小于所述第一句向量的维度数量;
确定各个所述第二句向量在所述相似问集合的语义空间中的目标分布情况。
在其中一个实施例中,所述第二句向量的维度数量小于预设的数量阈值。
在其中一个实施例中,所述基于所述差异度和所述相似问语句的数量确定所述相似问集合的质量评分,包括:
基于所述差异度确定第一评分;所述差异度与所述第一评分之间成负相关关系;
基于所述相似问语句的数量确定第二评分;所述相似问语句的数量与所述第二评分成正相关关系;
基于所述第一评分和所述第二评分确定所述相似问集合的质量评分。
在其中一个实施例中,所述基于所述第一评分和所述第二评分确定所述相似问集合的质量评分,包括:
将所述第一评分和所述第二评分相加,得到所述相似问集合的质量评分。
在其中一个实施例中,所述将所述目标分布情况与预设的均匀分布情况进行比较,确定所述目标分布情况与所述均匀分布情况之间的差异度,包括:
通过拟合优度检验将所述目标分布情况与预设的均匀分布情况进行比较,确定所述目标分布情况与所述均匀分布情况之间的差异度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳追一科技有限公司,未经深圳追一科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011127938.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:摄像光学镜头
- 下一篇:二度体重力异常积分解数值模拟方法和装置