[发明专利]一种基于关键词的检索方法和系统在审
申请号: | 201210158906.7 | 申请日: | 2012-05-21 |
公开(公告)号: | CN103425687A | 公开(公告)日: | 2013-12-04 |
发明(设计)人: | 卢中县;王磊;杨松;陈超 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京润泽恒知识产权代理有限公司 11319 | 代理人: | 赵娟 |
地址: | 英属开曼群岛大开*** | 国省代码: | 开曼群岛;KY |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 关键词 检索 方法 系统 | ||
技术领域
本申请涉及信息搜索的技术领域,特别是涉及一种基于关键词的检索方法和一种基于关键词的检索系统。
背景技术
随着网络技术的发展和普及,能帮助用户在海量的网络资源中搜索其所需信息的搜索引擎技术也得到了大力发展和普及,目前,搜索引擎已成为每个网民不可缺少的上网工具之一。
公知的是,搜索引擎是基于用户提交的关键词进行检索,用户在搜索页面输入检索关键词(query),搜索引擎会采用该query在其检索库中进行检索,判断是否有匹配的信息。然而,在实际中可能出现的一种情况是,搜索引擎可能在检索库中检索不到数据或检索到很少数据,对于这种检索不到数据或检索到很少数据的query,可以称之为零少结果query。如何提高零少结果query的召回率,以提升用户的搜索体验和网站的点击率,成为本领域技术人员迫切需要解决的问题。其中,召回率是指检索出的相关文档数和检索库中所有的相关文档数的比率,其衡量的是搜索系统的查全率。
发明内容
本申请的目的是提供一种基于关键词的检索方法和系统,用以提高零少结果query的召回率,从而提升用户的搜索体验和网站的点击率。
为了解决上述问题,本申请公开了一种基于关键词的检索方法,包括:
接收提交的原始关键词;
对所述原始关键词进行分词,获得分词条目term;
按照预置规则对所述分词条目term进行处理,生成所述原始关键词对应的扩展关键词;
为各原始关键词和扩展关键词分配相应的权重;
采用所述原始关键词和扩展关键词进行检索,获得匹配的候选检索结果及其相关性得分,所述相关性得分根据各原始关键词和扩展关键词的权重计算获得;
根据所述相关性得分从所述候选检索结果中提取最终检索结果。
优选地,所述按照预置规则对所述分词条目term进行处理,生成所述原始关键词对应的扩展关键词的步骤包括:
对所述原始关键词的分词条目term和/或分词条目term组合进行拼写纠错处理,并将所述拼写纠错处理的结果作为相似关键词;
和/或,
对所述原始关键词的分词条目term和/或分词条目term组合进行拼写建议处理,并选取所述拼写建议处理的结果作为相似关键词。
优选地,所述按照预置规则对所述分词条目term进行处理,生成所述原始关键词对应的扩展关键词的步骤包括:
获取所述分词条目term和/或分词条目term组合的同义词;
采用所述同义词替换所述原始关键词中对应的分词条目term或分词条目term组合,将替换后的结果作为相似关键词。
优选地,所述按照预置规则对所述分词条目term进行处理,生成所述原始关键词对应的扩展关键词的步骤包括:
获取分词条目term对应的词性信息,所述词性信息包括特征词性信息;
获取与具有特征词性信息的分词条目term相比,少一个或多个字的新词;
统计所述新词与原始关键词的相似度,若大于第一预设阈值,则将所述新词作为相似关键词。
优选地,所述按照预置规则对所述分词条目term进行处理,生成所述原始关键词对应的扩展关键词的步骤包括:
获取分词条目term对应的词性信息,所述词性信息包括特征词性信息;
获取与具有特征词性信息的分词条目term相比,少一个或多个字的新词;
分别统计所述分词条目term及对应新词作为检索词时,所对应的用户点击类目的向量;
若所述分词条目term对应的用户点击类目的向量,和新词对应的用户点击类目的向量的相似度大于第二预设阈值,则将所述新词作为相似关键词。
优选地,所述扩展关键词还包括重写关键词,所述按照预置规则对所述分词条目term进行处理,生成所述原始关键词对应的扩展关键词的步骤包括:
去除符合预设条件的分词条目term,获得重写关键词。
优选地,所述去除符合预设条件的分词条目term,获得重写关键词的步骤包括:
去除所述原始关键词中的一个或多个分词条目term,得到多个候选词N;其中N包含的term数组为{t1,t2,...,tm},其中m<n;
采用如下公式计算所述候选词的分值score:
score=0.6*scoreDelTerm+0.4*scoreSaved Terms
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210158906.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种新型经济炉排
- 下一篇:关系圈的处理方法和系统