[发明专利]确定搜索词权重的方法、装置、计算机设备和存储介质在审
申请号: | 202010010947.6 | 申请日: | 2020-01-06 |
公开(公告)号: | CN111241811A | 公开(公告)日: | 2020-06-05 |
发明(设计)人: | 谭瑞;李钢;权佳成;张瑜;车驰;陈旭阳 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G06F40/216 | 分类号: | G06F40/216;G06F40/284;G06F40/289;G06K9/62 |
代理公司: | 深圳市明日今典知识产权代理事务所(普通合伙) 44343 | 代理人: | 王杰辉 |
地址: | 518000 广东省深圳市福田区福*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 确定 搜索词 权重 方法 装置 计算机 设备 存储 介质 | ||
本申请涉及搜索技术领域,特别涉及一种确定搜索词权重的方法、装置、计算机设备和存储介质。所述方法包括:从搜索内容资源中获取行业的多个主要词;计算多个主要词的词向量,获得多个目标词向量;计算多个目标词向量的多个聚类中心;接收用户输入的搜索语句,并对搜索语句进行分词处理,获得多个搜索词;计算多个搜索词中每一个搜索词到多个聚类中心的余弦距离,获得多个目标余弦距离;将多个目标余弦距离分别输入词权计算模型中,接收词权计算模型输出对应的权重值,根据对应的权重值确定多个搜索词中对应的搜索词的权重。解决搜索系统难以有效识别用户搜索长短句文本的意图,致使搜索结果不能直接给想要的答案,严重影响用户体验的问题。
技术领域
本申请涉及搜索技术领域,特别涉及一种确定搜索词权重的方法、装置、计算机设备和存储介质。
背景技术
搜索系统的目的是收集领域内知识并帮助人们在茫茫网海中快速找到所需要的信息,因此,理解用户搜索意图对搜索的精准召回具有重要意义。而在垂直领域内构建搜索系统初期,严重缺乏用户行为数据,搜索系统难以有效识别用户搜索长短句文本的意图,致使搜索结果不能直接给想要的答案,严重影响用户体验。
针对现有技术不足,本申请提出一种确定搜索词权重的方法、装置、计算机设备和存储介质,旨在解决搜索系统难以有效识别用户搜索长短句文本的意图,致使搜索结果不能直接给想要的答案,严重影响用户体验的问题。
本申请提出的技术方案是:
一种确定搜索词权重的方法,所述方法包括:
从搜索内容资源中获取行业的多个主要词;
计算所述多个主要词的词向量,获得多个目标词向量;
计算所述多个目标词向量的多个聚类中心;
接收用户输入的搜索语句,并对所述搜索语句进行分词处理,获得多个搜索词;
计算所述多个搜索词中每一个搜索词到所述多个聚类中心的余弦距离,获得多个目标余弦距离;
将所述多个目标余弦距离分别输入词权计算模型中,接收所述词权计算模型输出对应的权重值,根据所述对应的权重值确定所述多个搜索词中对应的搜索词的权重。
进一步地,在所述从搜索内容资源中获取行业的多个主要词的步骤中,包括:
从搜索库中获取搜索内容资源;
对所述搜索内容资源进行分词,并过滤无关字符和无关词,获得多个关键词;
对所述多个关键词进行聚类,并从聚类结果中选出与行业相关的多个类别;
从所述多个类别中每一个类别抽取权重高的预设数量的关键词,获得多个主要词。
进一步地,在所述计算所述多个目标词向量的多个聚类中心的步骤中,包括:
从所述多个目标词向量中随机选取K个目标词向量分配作为初始的聚类中心,每一个目标词向量作为一个初始的聚类中心;
计算未分配的目标词向量到各聚类中心的余弦距离;
分别选取余弦距离最大的一个目标词向量分配到对应聚类中心;
根据各聚类中心所分配到的目标词向量重新计算聚类中心;
判断重新计算之后的聚类中心是否发生变化;
若未发生变化,则将重新计算之后的聚类中心作为所述多个目标词向量的多个聚类中心;
若发生变化,则返回所述计算未分配的目标词向量到各聚类中心的余弦距离的步骤中。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010010947.6/2.html,转载请声明来源钻瓜专利网。