[发明专利]一种搜索方法和设备有效
申请号: | 201510867108.5 | 申请日: | 2015-12-01 |
公开(公告)号: | CN106815252B | 公开(公告)日: | 2020-08-25 |
发明(设计)人: | 杨旭东;黄云平 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F16/36;G06F16/338;G06F16/951;G06F16/953;G06F16/9532 |
代理公司: | 北京国昊天诚知识产权代理有限公司 11315 | 代理人: | 黄熊 |
地址: | 英属开曼群岛大开*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 搜索 方法 设备 | ||
1.一种搜索方法,其特征在于,包括:
接收用户输入的搜索关键词,并基于所述搜索关键词,得到与所述搜索关键词相关的至少一个搜索文档;
确定所述搜索关键词的语义向量,其中,所述语义向量用于表征所述搜索关键词在语义向量空间中的位置;
根据所述搜索关键词的语义向量和每一个所述搜索文档的语义向量,分别计算每一个所述搜索文档与所述搜索关键词之间的语义相关性,其中,所述文档的语义向量是根据所述文档标题的语义向量、所述文档标识的语义向量以及所述文档所属类目的语义向量融合得到的;
根据所述语义相关性,对所述搜索文档进行排序,并按照排序结果将所述搜索文档输出给所述用户;
其中,所述文档标识的语义向量的确定过程包括:
确定文档库中包含的每一个文档的三元组表达式,其中,所述三元组表达式中包含所述文档标识、所述文档所属类目以及所述文档标题;
根据所述文档标题中包含的切词列表,将每一个所述三元组表达式转换成一组深度神经网络模型的第一训练样本,其中,所述第一训练样本中包含正训练样本和负训练样本;所述训练样本中包含上下文信息和所述上下文信息生成目标词的概率值,所述上下文信息中包含所述文档标题中包含的切词片段、所述文档标识、所述文档所属类目;
基于得到的所述第一训练样本,采用随机梯度下降算法训练得到文档标识对应的权重矩阵,其中,所述权重矩阵的一个行向量表示一个文档标识的语义向量。
2.如权利要求1所述的搜索方法,其特征在于,所述文档的语义向量是根据所述文档标题的语义向量、所述文档标识的语义向量以及所述文档所属类目的语义向量融合得到的,包括:
确定文档标题的语义向量、所述文档标识的语义向量以及所述文档所属类目的语义向量;
根据预设的权重值,分别确定所述文档标题的语义向量的权重值、所述文档标识的语义向量的权重值以及所述文档所属类目的语义向量的权重值;
利用所述文档标题的语义向量的权重值、所述文档标识的语义向量的权重值以及所述文档所属类目的语义向量对应的权重值和所述文档标题的语义向量、所述文档标识的语义向量以及所述文档所属类目的语义向量融合得到所述文档的语义向量。
3.如权利要求2所述的搜索方法,其特征在于,所述方法还包括:
获取用户的行为历史数据,其中,所述行为历史数据中包含所述用户发送的查询请求中包含的关键词以及所述用户查看的与所述关键词对应的所述文档的标识;
将所述行为历史数据转换成为深度神经网络模型的第二训练样本;
基于得到的所述第二训练样本,采用随机梯度下降算法对得到的所述文档标识对应的权重矩阵进行更新,得到更新后的权重矩阵,其中,所述更新后的权重矩阵的一个行向量表示一个文档标识的语义向量。
4.如权利要求2所述的搜索方法,其特征在于,确定所述文档标题的语义向量,包括:
对所述文档的标题进行归一化处理;
对归一化处理后的所述文档的标题进行切词处理以及实体短语识别,得到用于训练词向量模型的训练语料;
基于所述训练语料和词向量模型,训练得到所述文档标题中包含的词的词向量和包含的短语的词向量;
将得到的所述词的词向量和所述短语的词向量,融合得到所述文档标题的语义向量。
5.如权利要求1所述的搜索方法,其特征在于,确定所述搜索关键词的语义向量,包括:
对所述搜索关键词进行归一化处理;
对归一化处理后的所述搜索关键词进行切词处理以及实体短语识别,得到用于训练词向量模型的训练语料;
基于所述训练语料和词向量模型,训练得到所述搜索关键词中包含的词的词向量和包含的短语的词向量;
将得到的所述词的词向量和所述短语的词向量,融合得到所述搜索关键词的语义向量。
6.如权利要求1至5任一项所述的搜索方法,其特征在于,计算每一个所述搜索文档与所述搜索关键词之间的语义相关性,包括:
针对每一个所述搜索文档,根据所述搜索文档的语义向量与所述搜索关键词的语义向量,利用余弦相似度计算方法,计算得到所述搜索文档与所述搜索关键词之间的语义相关性。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510867108.5/1.html,转载请声明来源钻瓜专利网。