[发明专利]确定搜索词权重的方法、装置、计算机设备和存储介质在审
申请号: | 202010010947.6 | 申请日: | 2020-01-06 |
公开(公告)号: | CN111241811A | 公开(公告)日: | 2020-06-05 |
发明(设计)人: | 谭瑞;李钢;权佳成;张瑜;车驰;陈旭阳 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G06F40/216 | 分类号: | G06F40/216;G06F40/284;G06F40/289;G06K9/62 |
代理公司: | 深圳市明日今典知识产权代理事务所(普通合伙) 44343 | 代理人: | 王杰辉 |
地址: | 518000 广东省深圳市福田区福*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 确定 搜索词 权重 方法 装置 计算机 设备 存储 介质 | ||
1.一种确定搜索词权重的方法,其特征在于,所述方法包括:
从搜索内容资源中获取行业的多个主要词;
计算所述多个主要词的词向量,获得多个目标词向量;
计算所述多个目标词向量的多个聚类中心;
接收用户输入的搜索语句,并对所述搜索语句进行分词处理,获得多个搜索词;
计算所述多个搜索词中每一个搜索词到所述多个聚类中心的余弦距离,获得多个目标余弦距离;
将所述多个目标余弦距离分别输入词权计算模型中,接收所述词权计算模型输出对应的权重值,根据所述对应的权重值确定所述多个搜索词中对应的搜索词的权重。
2.根据权利要求1所述的确定搜索词权重的方法,其特征在于,在所述从搜索内容资源中获取行业的多个主要词的步骤中,包括:
从搜索库中获取搜索内容资源;
对所述搜索内容资源进行分词,并过滤无关字符和无关词,获得多个关键词;
对所述多个关键词进行聚类,并从聚类结果中选出与行业相关的多个类别;
从所述多个类别中每一个类别抽取权重高的预设数量的关键词,获得多个主要词。
3.根据权利要求1所述的确定搜索词权重的方法,其特征在于,在所述计算所述多个目标词向量的多个聚类中心的步骤中,包括:
从所述多个目标词向量中随机选取K个目标词向量分配作为初始的聚类中心,每一个目标词向量作为一个初始的聚类中心;
计算未分配的目标词向量到各聚类中心的余弦距离;
分别选取余弦距离最大的一个目标词向量分配到对应聚类中心;
根据各聚类中心所分配到的目标词向量重新计算聚类中心;
判断重新计算之后的聚类中心是否发生变化;
若未发生变化,则将重新计算之后的聚类中心作为所述多个目标词向量的多个聚类中心;
若发生变化,则返回所述计算未分配的目标词向量到各聚类中心的余弦距离的步骤中。
4.根据权利要求1所述的确定搜索词权重的方法,其特征在于,在所述将所述多个目标余弦距离分别输入词权计算模型中,接收所述词权计算模型输出对应的权重值,根据所述对应的权重值确定所述多个搜索词中对应的搜索词的权重的步骤之后,包括:
将所述权重值进行归一化处理,限制所述权重值在预设范围内。
5.根据权利要求1所述的确定搜索词权重的方法,其特征在于,在所述将所述多个目标余弦距离分别输入词权计算模型中,接收所述词权计算模型输出对应的权重值,根据所述对应的权重值确定所述多个搜索词中对应的搜索词的权重的步骤之后,包括:
将多个搜索词在所述搜索内容资源中进行搜索,获得多个文档;
根据所述权重值计算所述多个文档的总权重;
根据所述多个文档的总权重从高到低进行排序显示搜索结果。
6.根据权利要求1所述的确定搜索词权重的方法,其特征在于,所述词权计算模型为线性加权模型,其计算公式为n为聚类中心的个数,cos(vecword*center_veca)为搜索词到第a个聚类中心的余弦距离。
7.根据权利要求1所述的确定搜索词权重的方法,其特征在于,在所述对所述搜索语句进行分词处理的步骤中,包括:
采用分词模型对所述搜索语句进行分词处理;
若出现未加载词,则将所述未加载词剔除,所述未加载词是指词未在分词模型中。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010010947.6/1.html,转载请声明来源钻瓜专利网。