[发明专利]查询改写方法及装置在审
| 申请号: | 201510689095.7 | 申请日: | 2015-10-21 |
| 公开(公告)号: | CN106610972A | 公开(公告)日: | 2017-05-03 |
| 发明(设计)人: | 吴小琼;吴黎霞 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 北京博思佳知识产权代理有限公司11415 | 代理人: | 林祥 |
| 地址: | 英属开曼群岛大开*** | 国省代码: | 暂无信息 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 查询 改写 方法 装置 | ||
1.一种查询改写方法,其特征在于,包括:
接收用户输入的搜索关键词;
选取对应于所述搜索关键词的扩展词,所述扩展词与所述搜索关键词在预设维度的语义向量空间中分别对应的语义向量之间的相似度达到预设相似度;
将所述搜索关键词改写为被选中的扩展词。
2.根据权利要求1所述的方法,其特征在于,所述选取对应于所述搜索关键词的扩展词,包括:
调取预定义的搜索关键词与扩展词之间的对应关系,所述对应关系中记载的每对搜索关键词和扩展词在所述语义向量空间中分别对应的语义向量之间的相似度均达到预设相似度;
获取所述对应关系中记载的与所述搜索关键词对应的扩展词。
3.根据权利要求1所述的方法,其特征在于,所述语义向量是通过神经网络算法将对应的搜索关键词或扩展词映射至所述语义向量空间而得到。
4.根据权利要求3所述的方法,其特征在于,通过下述方式将搜索关键词或扩展词映射至所述语义向量空间并得到对应的所述语义向量:
通过神经网络算法将构成搜索关键词或扩展词的所有分词分别映射至所述语义向量空间,得到对应的分词向量;按照预设策略将构成搜索关键词或扩展词的所有分词分别对应的分词向量进行组合,并将得到的整词向量作为所述语义向量。
5.根据权利要求4所述的方法,其特征在于,所述分词向量对应的分词属于作为训练样本的所有样本特征词对应的分词结果集合,其中所述样本特征词为样本搜索关键词或样本扩展词,且每一样本搜索关键词分别与相关联的每一样本扩展词构成具有预设关联度的一样本特征词组;
以及,当所述分词结果集合中的每个分词分别对应于所述语义向量空间 中各维度数值均为任意初始值的样本分词向量时,由构成任一样本特征词的所有分词分别对应的样本分词向量按照所述预设策略组合为所述任一样本特征词对应的样本整词向量,且任一样本特征词组中的样本搜索关键词和样本扩展词分别对应的样本整词向量之间存在对应的初始相似度;
其中,当以所述任一样本特征词组对应的预设关联度为目标、通过所述神经网络算法对与所述任一样本特征词组中的样本搜索关键词和样本扩展词分别对应的样本整词向量相应的每一样本分词向量进行训练时,若训练结果使得所述初始相似度变化至匹配于所述预设关联度,则确定所述任一样本特征词组对应的所有分词被映射至所述语义向量空间,且与所述任一样本特征词组中的样本搜索关键词和样本扩展词分别对应的样本整词向量相应的每一样本分词向量被训练为相应分词对应的分词向量。
6.根据权利要求5所述的方法,其特征在于,所述训练样本来自以下至少之一:
历史搜索点击日志中提取的历史搜索关键词和被点击的业务对象对应的历史扩展词;
所述历史搜索关键词和从所述被点击的业务对象的展示内容中提取的预测扩展词;
所述历史扩展词和从所述被点击的业务对象的展示内容中提取的预测搜索关键词;
从所述被点击的业务对象的展示内容中提取的预测搜索关键词和预测扩展词;
用户创建的搜索关键词和用户创建的扩展词;
其中,所述历史搜索关键词、所述预测搜索关键词和用户创建的搜索关键词被作为样本搜索关键词,所述历史扩展词、所述预测扩展词和用户创建的扩展词被作为样本扩展词。
7.根据权利要求4所述的方法,其特征在于,所述预设策略包括:
当所述语义向量空间为n维时,将构成任一词的所有m个分词分别在所 述语义向量空间中对应的n维分词向量组成m×n规格的特征矩阵;
分别将所述特征矩阵中的每列m个元素按照预设算法进行计算,以得到所述任一词对应的整词向量在相应维度上的数值;
将各列的计算结果组合为n维整词向量,以作为所述任一词在所述语义向量空间中对应的语义向量。
8.根据权利要求7所述的方法,其特征在于,所述预设算法包括以下任一:
平均算法;
加权平均算法,且同一列中每一元素的权重与该元素对应分词的出现词频正相关。
9.根据权利要求1所述的方法,其特征在于,所述扩展词与所述搜索关键词属于相同的业务对象类别。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510689095.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种ZIP压缩文件的标识确定方法及装置
- 下一篇:电视数据查询方法及装置





