[发明专利]确定搜索词权重的方法、装置、计算机设备和存储介质在审

专利信息
申请号: 202010010947.6 申请日: 2020-01-06
公开(公告)号: CN111241811A 公开(公告)日: 2020-06-05
发明(设计)人: 谭瑞;李钢;权佳成;张瑜;车驰;陈旭阳 申请(专利权)人: 平安科技(深圳)有限公司
主分类号: G06F40/216 分类号: G06F40/216;G06F40/284;G06F40/289;G06K9/62
代理公司: 深圳市明日今典知识产权代理事务所(普通合伙) 44343 代理人: 王杰辉
地址: 518000 广东省深圳市福田区福*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 确定 搜索词 权重 方法 装置 计算机 设备 存储 介质
【说明书】:

本申请涉及搜索技术领域,特别涉及一种确定搜索词权重的方法、装置、计算机设备和存储介质。所述方法包括:从搜索内容资源中获取行业的多个主要词;计算多个主要词的词向量,获得多个目标词向量;计算多个目标词向量的多个聚类中心;接收用户输入的搜索语句,并对搜索语句进行分词处理,获得多个搜索词;计算多个搜索词中每一个搜索词到多个聚类中心的余弦距离,获得多个目标余弦距离;将多个目标余弦距离分别输入词权计算模型中,接收词权计算模型输出对应的权重值,根据对应的权重值确定多个搜索词中对应的搜索词的权重。解决搜索系统难以有效识别用户搜索长短句文本的意图,致使搜索结果不能直接给想要的答案,严重影响用户体验的问题。

技术领域

本申请涉及搜索技术领域,特别涉及一种确定搜索词权重的方法、装置、计算机设备和存储介质。

背景技术

搜索系统的目的是收集领域内知识并帮助人们在茫茫网海中快速找到所需要的信息,因此,理解用户搜索意图对搜索的精准召回具有重要意义。而在垂直领域内构建搜索系统初期,严重缺乏用户行为数据,搜索系统难以有效识别用户搜索长短句文本的意图,致使搜索结果不能直接给想要的答案,严重影响用户体验。

申请内容

针对现有技术不足,本申请提出一种确定搜索词权重的方法、装置、计算机设备和存储介质,旨在解决搜索系统难以有效识别用户搜索长短句文本的意图,致使搜索结果不能直接给想要的答案,严重影响用户体验的问题。

本申请提出的技术方案是:

一种确定搜索词权重的方法,所述方法包括:

从搜索内容资源中获取行业的多个主要词;

计算所述多个主要词的词向量,获得多个目标词向量;

计算所述多个目标词向量的多个聚类中心;

接收用户输入的搜索语句,并对所述搜索语句进行分词处理,获得多个搜索词;

计算所述多个搜索词中每一个搜索词到所述多个聚类中心的余弦距离,获得多个目标余弦距离;

将所述多个目标余弦距离分别输入词权计算模型中,接收所述词权计算模型输出对应的权重值,根据所述对应的权重值确定所述多个搜索词中对应的搜索词的权重。

进一步地,在所述从搜索内容资源中获取行业的多个主要词的步骤中,包括:

从搜索库中获取搜索内容资源;

对所述搜索内容资源进行分词,并过滤无关字符和无关词,获得多个关键词;

对所述多个关键词进行聚类,并从聚类结果中选出与行业相关的多个类别;

从所述多个类别中每一个类别抽取权重高的预设数量的关键词,获得多个主要词。

进一步地,在所述计算所述多个目标词向量的多个聚类中心的步骤中,包括:

从所述多个目标词向量中随机选取K个目标词向量分配作为初始的聚类中心,每一个目标词向量作为一个初始的聚类中心;

计算未分配的目标词向量到各聚类中心的余弦距离;

分别选取余弦距离最大的一个目标词向量分配到对应聚类中心;

根据各聚类中心所分配到的目标词向量重新计算聚类中心;

判断重新计算之后的聚类中心是否发生变化;

若未发生变化,则将重新计算之后的聚类中心作为所述多个目标词向量的多个聚类中心;

若发生变化,则返回所述计算未分配的目标词向量到各聚类中心的余弦距离的步骤中。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010010947.6/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top