[发明专利]一种搜索方法和系统有效
申请号: | 201210160827.X | 申请日: | 2012-05-22 |
公开(公告)号: | CN103425691A | 公开(公告)日: | 2013-12-04 |
发明(设计)人: | 陈超;韩小梅;宋超;韦袆 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京润泽恒知识产权代理有限公司 11319 | 代理人: | 苏培华 |
地址: | 英属开曼群岛大开*** | 国省代码: | 开曼群岛;KY |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 搜索 方法 系统 | ||
技术领域
本申请涉及网络技术领域,特别是涉及一种搜索方法和系统。
背景技术
在搜索领域,特别是针对于产品的搜索过程中,由于不同产品词的组合,对于用户输入的某一产品词,搜索引擎可能返回与用户输入的产品词所对应的产品相关性不高的周边产品。比如对于用户输入的MP3,由于与MP3相对应的产品词组合非常多,比如MP3下载线,MP3扬声器等产品,而MP3下载线,MP3扬声器与MP3是两种不同的产品。由于传统的搜索基本上基于关键产品词的匹配方法进行搜索,很容易搜索出与用户输入的查询词串对应产品相关性比较低的周边产品,比如前述用户输入的是MP3,而搜索引擎的搜索中MP3下载线,MP3扬声器在搜索结果中权重很高等情况,即搜索引擎返回的排序靠前的产品信息结果中,大量存在与查询词串对应产品的相关性低的产品信息。
现有技术中,为了解决上述与用户输入查询词串所属产品相关性低的周边产品的干扰,存在两种技术方案:
1、通过类目来避免周边结果。主要方法是:首先根据日志信息,统计用户的查询词串对应类目的点击率,然后确定所述查询词串对应的类目倾向,对不属于相关类目的产品信息进行降权,即降低返回的结果中不属于相关类目的信息的权重。
对于该种方法来说,在准确率上存在比较大的问题,比如:如果有类目作弊,比如:把手机电池放在手机类目下,在搜索手机的时候会出现周边(手机电池)。另外,如果一个查询词串与多个类目相关,在判断所述查询词串与各相关类目倾向性时,是通过点击率判断类目倾向性的,如果与查询词串相关的某个类目点击率很低,则很容易忽略这些类目,导致搜索引擎很难把与查询词串相关的所有类目全部召回,搜索准确度低。
2、线上结果人工审核。通过人工审核的方式确定每一个产品词对应的周边词集合,即出现了周边词就可以认为这条产品信息不应该出现。
该种方法虽然准确率很高,但是需要花费大量的人工时间进行审核,人力成本很大。
发明内容
本申请所要解决的技术问题是提供一种搜索方法和系统,准确、全面、快捷的解决搜索结果中,与用户查询词串对应的产品相关性低的周边产品信息,在搜索结果中权重高的问题。
为了解决上述问题,本申请公开了一种搜索方法,包括:
接收查询词串,检索与查询词串相关的各产品信息;
提取对应所述查询词串的第一核心产品词;所述第一核心产品词为最小语义单元;
提取对应所述各产品信息的各第二核心产品词;所述第二核心产品词为最小语义单元;
针对每一、第二核心产品词,以第一核心产品词匹配关键产品词,查找所述关键产品词对应的怀疑产品词列表中是否存在所述第二核心产品词;如果存在,则降低所述第二核心产品词对应的产品信息的权重;其中,所述怀疑产品词列表中包括怀疑产品词;所述怀疑产品词与所述关键产品词进行组合后,得到的合成产品词与所述关键产品词不属于相同类目;
结合调整后的各产品信息的权重,将各产品信息排序输出。
优选的,还包括:
构建所述怀疑产品词列表的步骤,所述构建所述怀疑产品词列表的步骤包括:
针对数据库中各产品信息,按最大语义单元进行大粒度切分,提取切分结果中的第三核心产品词;
针对所述第三核心产品词,当按最小语义单元进行小粒度切分时,若得到的各词中有至少两个为产品词,则按照词的组成顺序,将第一个产品词作为关键产品词,将最后一个产品词作为所述关键产品词的候选怀疑产品词;
计算所述关键产品词与候选怀疑产品词的相关性,筛选相关性符合阈值的候选怀疑产品词;
针对同一关键产品词,基于筛选后的各候选怀疑产品词生成所述关键产品词的怀疑产品词列表。
优选的,计算所述关键产品词与候选怀疑产品词的相关性,筛选相关性符合阈值的候选怀疑产品词包括:
针对所述关键产品词与所述候选怀疑产品词,通过所述关键产品词的各类目点击率向量化所述关键产品词,通过所述候选怀疑产品词的各类目点击率向量化候选怀疑产品词;
计算所述关键产品词对应的向量与所述候选怀疑产品词对应的向量之间的夹角值,并基于所述夹角值筛选相关性符合阈值的候选怀疑产品词。
优选的,针对所述关键产品词与所述候选怀疑产品词,通过所述关键产品词的各类目点击率向量化所述关键产品词,通过所述候选怀疑产品词的各类目点击率向量化候选怀疑产品词包括:
针对所述关键产品词与所述候选怀疑产品词,从搜索日志中分别分析统计各自相关类目的点击率,获得相关类目的权重列表;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210160827.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:脱硫废气处理装置
- 下一篇:一种制备动物疫苗的可换热的压缩空气处理系统