[发明专利]一种基于关键词的检索方法和系统在审
申请号: | 201210158906.7 | 申请日: | 2012-05-21 |
公开(公告)号: | CN103425687A | 公开(公告)日: | 2013-12-04 |
发明(设计)人: | 卢中县;王磊;杨松;陈超 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京润泽恒知识产权代理有限公司 11319 | 代理人: | 赵娟 |
地址: | 英属开曼群岛大开*** | 国省代码: | 开曼群岛;KY |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 关键词 检索 方法 系统 | ||
1.一种基于关键词的检索方法,其特征在于,包括:
接收提交的原始关键词;
对所述原始关键词进行分词,获得分词条目term;
按照预置规则对所述分词条目term进行处理,生成所述原始关键词对应的扩展关键词;
为各原始关键词和扩展关键词分配相应的权重;
采用所述原始关键词和扩展关键词进行检索,获得匹配的候选检索结果及其相关性得分,所述相关性得分根据各原始关键词和扩展关键词的权重计算获得;
根据所述相关性得分从所述候选检索结果中提取最终检索结果。
2.根据权利要求1所述的方法,其特征在于,所述按照预置规则对所述分词条目term进行处理,生成所述原始关键词对应的扩展关键词的步骤包括:
对所述原始关键词的分词条目term和/或分词条目term组合进行拼写纠错处理,并将所述拼写纠错处理的结果作为相似关键词;
和/或,
对所述原始关键词的分词条目term和/或分词条目term组合进行拼写建议处理,并选取所述拼写建议处理的结果作为相似关键词。
3.根据权利要求2所述的方法,其特征在于,所述按照预置规则对所述分词条目term进行处理,生成所述原始关键词对应的扩展关键词的步骤包括:
获取所述分词条目term和/或分词条目term组合的同义词;
采用所述同义词替换所述原始关键词中对应的分词条目term或分词条目term组合,将替换后的结果作为相似关键词。
4.根据权利要求2所述的方法,其特征在于,所述按照预置规则对所述分词条目term进行处理,生成所述原始关键词对应的扩展关键词的步骤包括:
获取分词条目term对应的词性信息,所述词性信息包括特征词性信息;
获取与具有特征词性信息的分词条目term相比,少一个或多个字的新词;
统计所述新词与原始关键词的相似度,若大于第一预设阈值,则将所述新词作为相似关键词。
5.根据权利要求2所述的方法,其特征在于,所述按照预置规则对所述分词条目term进行处理,生成所述原始关键词对应的扩展关键词的步骤包括:
获取分词条目term对应的词性信息,所述词性信息包括特征词性信息;
获取与具有特征词性信息的分词条目term相比,少一个或多个字的新词;
分别统计所述分词条目term及对应新词作为检索词时,所对应的用户点击类目的向量;
若所述分词条目term对应的用户点击类目的向量,和新词对应的用户点击类目的向量的相似度大于第二预设阈值,则将所述新词作为相似关键词。
6.根据权利要求1或2所述的方法,其特征在于,所述扩展关键词还包括重写关键词,所述按照预置规则对所述分词条目term进行处理,生成所述原始关键词对应的扩展关键词的步骤包括:
去除符合预设条件的分词条目term,获得重写关键词。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210158906.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种新型经济炉排
- 下一篇:关系圈的处理方法和系统