[发明专利]一种搜索方法和系统有效
申请号: | 201210160827.X | 申请日: | 2012-05-22 |
公开(公告)号: | CN103425691A | 公开(公告)日: | 2013-12-04 |
发明(设计)人: | 陈超;韩小梅;宋超;韦袆 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京润泽恒知识产权代理有限公司 11319 | 代理人: | 苏培华 |
地址: | 英属开曼群岛大开*** | 国省代码: | 开曼群岛;KY |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 搜索 方法 系统 | ||
1.一种搜索方法,其特征在于,包括:
接收查询词串,检索与查询词串相关的各产品信息;
提取对应所述查询词串的第一核心产品词;所述第一核心产品词为最小语义单元;
提取对应所述各产品信息的各第二核心产品词;所述第二核心产品词为最小语义单元;
针对每一、第二核心产品词,以第一核心产品词匹配关键产品词,查找所述关键产品词对应的怀疑产品词列表中是否存在所述第二核心产品词;如果存在,则降低所述第二核心产品词对应的产品信息的权重;其中,所述怀疑产品词列表中包括怀疑产品词;所述怀疑产品词与所述关键产品词进行组合后,得到的合成产品词与所述关键产品词不属于相同类目;
结合调整后的各产品信息的权重,将各产品信息排序输出。
2.根据权利要求1所述的方法,其特征在于,还包括:
构建所述怀疑产品词列表的步骤,所述构建所述怀疑产品词列表的步骤包括:
针对数据库中各产品信息,按最大语义单元进行大粒度切分,提取切分结果中的第三核心产品词;
针对所述第三核心产品词,当按最小语义单元进行小粒度切分时,若得到的各词中有至少两个为产品词,则按照词的组成顺序,将第一个产品词作为关键产品词,将最后一个产品词作为所述关键产品词的候选怀疑产品词;
计算所述关键产品词与候选怀疑产品词的相关性,筛选相关性符合阈值的候选怀疑产品词;
针对同一关键产品词,基于筛选后的各候选怀疑产品词生成所述关键产品词的怀疑产品词列表。
3.根据权利要求2所述的方法,其特征在于,计算所述关键产品词与候选怀疑产品词的相关性,筛选相关性符合阈值的候选怀疑产品词包括:
针对所述关键产品词与所述候选怀疑产品词,通过所述关键产品词的各类目点击率向量化所述关键产品词,通过所述候选怀疑产品词的各类目点击率向量化候选怀疑产品词;
计算所述关键产品词对应的向量与所述候选怀疑产品词对应的向量之间的夹角值,并基于所述夹角值筛选相关性符合阈值的候选怀疑产品词。
4.根据权利要求3所述的方法,其特征在于,针对所述关键产品词与所述候选怀疑产品词,通过所述关键产品词的各类目点击率向量化所述关键产品词,通过所述候选怀疑产品词的各类目点击率向量化候选怀疑产品词包括:
针对所述关键产品词与所述候选怀疑产品词,从搜索日志中分别分析统计各自相关类目的点击率,获得相关类目的权重列表;
将所述关键产品词的所述权重列表中的各值转化为第一向量,将所述候选怀疑产品词的权重列表中的各值转化为第二向量。
5.根据权利要求4所述的方法,其特征在于,计算所述关键产品词对应的向量与所述候选怀疑产品词对应的向量之间的夹角值,并基于所述夹角值筛选相关性符合阈值的候选怀疑产品词包括:
计算第一向量和第二向量的余弦夹角值;当所述余弦夹角值大于阈值时,则将所述候选怀疑产品词删除。
6.根据权利要求2所述的方法,其特征在于,计算所述关键产品词与候选怀疑产品词的相关性,筛选相关性符合阈值的候选怀疑产品词包括:
针对所述关键产品词与所述候选怀疑产品词,通过对所述关键产品词的类目点击率、属性目点击率、产品词点击率三个维度分别向量化所述关键产品词,通过对所述候选怀疑产品词的类目点击率、属性目点击率、产品词点击率三个维度分别向量化所述候选怀疑产品词;
针对每一个维度,计算关键产品词对应向量和候选怀疑产品词对应向量的夹角值,并基于得到的三个维度的夹角值筛选相关性符合阈值的候选怀疑产品词。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210160827.X/1.html,转载请声明来源钻瓜专利网。
- 上一篇:脱硫废气处理装置
- 下一篇:一种制备动物疫苗的可换热的压缩空气处理系统