[发明专利]一种检索结果相似条目的合并方法及其系统无效
申请号: | 201210451656.6 | 申请日: | 2012-11-12 |
公开(公告)号: | CN102930038A | 公开(公告)日: | 2013-02-13 |
发明(设计)人: | 李道远;程鑫;高俊;顾鑫 | 申请(专利权)人: | 江苏外博资讯有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 上海麦其知识产权代理事务所(普通合伙) 31257 | 代理人: | 董红曼 |
地址: | 226010 江苏省南通市南*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 检索 结果 相似 目的 合并 方法 及其 系统 | ||
技术领域
本发明涉及信息搜索技术,尤其涉及一种检索结果相似条目的合并方法及其系统。
背景技术
随着计算机及信息技术的快速发展,由计算机自动或辅助用户生成的信息越来越多,如何在海量信息中检索特定信息由此变得十分重要。为了解决此类问题,各种计算机信息检索技术应运而生,包括计算机文件检索系统、网络搜索引擎、在线数据库联机检索系统等。计算机用户利用这些系统通过键入关键词而查找所需信息,此类系统在很大程度上解决了用户检索信息的难题,但是它们还缺乏精确检索的能力以及良好的用户体验。例如,用户在使用大多数网络搜索引擎使用关键词检索信息时,经常会得到来自于不同来源的内容雷同的条目。当此类条目数量显著时,用户会收到大量重复信息对其的干扰,不利于用户迅速准确的获取所需信息。
同时,经过多年发展,计算机文件相似度检测技术也逐渐成熟。例如,使用散列算法可以检测文件内容是否相同,通过计算两个文件的Jaccard指数或者其它类似的SimHashing算法可得到两个文件的相似度。此类技术和技术已被广泛的用于检索文本文件的相似度。
随着用户搜索需求的增长,通常单一的搜索引擎难以满足用户搜索的需要,因此出现了一种利用多个搜索引擎资源,通过集成检索结果为用户提供最终结果的元搜索技术。但由于此类技术涉及到整合多个搜索服务提供方资源、不可避免的触及不同搜索厂商的利益,容易引发商业争斗和政治问题,所以元搜索技术至今仍术被广泛应用。
发明内容
本发明提出了一种检索结果相似条目的合并方法,包括如下步骤:
步骤一:获取包含至少一项条目的检索结果;
步骤二:对所述检索结果中的条目进行相似度对比,获得所述条目之间的相似度对比值;
步骤三:将所述相似度对比值与所述相似度阈值比较,根据比较结果,合并相似条目;
步骤四:显示相似条目合并后的检索结果。
其中,所述步骤一中的检索结果的生成步骤包括:
步骤A1:获取关键词,对所述关键词进行预处理;
步骤A2:判断所述预处理后的关键词是否符合要求;若符合要求的,则根据所述关键词进行检索生成检索结果;若不符合要求的,则重新执行所述步骤A1、A2,直至生成检索结果。
其中,所述步骤一中进一步包括:根据权值将所述条目由高到低排序。
其中,进一步包括:权值相同的所述条目根据所述条目被引用次数由高到低排序。
其中,所述步骤三中,所述相似度阈值采用默认值或用户设定值。
其中,所述步骤三中,所述合并相似条目包括:
步骤B1:判断已处理条目集合是否为空;若所述已处理条目集合为空,则初始化所述已处理条目集合,将所述检索结果中的未处理条目集合中的任意一个条目作为起始条目,并将该起始条目存入所述已处理条目集合中,执行步骤B2;若所述已处理条目集合不为空,则执行步骤B2;
步骤B2:将所述未处理条目集合的一个条目与已处理条目集合中的所有条目依次计算相似度对比值,并将所述相似度对比值与相似度阈值比较,若大于等于相似度阈值则将该当前两条目进行合并生成合并条目,将所述条目以所述合并条目的子条目的方式存入所述已处理条目集合;若小于相似度阈值,则将所述条目以所述已处理条目集合的子集的方式存入所述已处理条目集合;
步骤B3:重复执行所述步骤B2,直至所述术处理条目集合为空时为止。
其中,进一步包括:当重新设定相似度阈值时,重新执行所述步骤二至步骤四。
其中,在所述步骤B2中,以所述已合并条目中的权值最高的子条目作为代表项。
本发明还提出了一种检索结果相似条目的合并系统,包括:
条目处理装置,其处理检索结果中的各条目;
相似度对比装置,其与所述条目处理装置连接,对所述检索结果中的条目进行相似度对比,生成所述相似度对比值;
阈值设定装置,其与所述条目处理装置连接,实现设定所述相似度阈值;
显示装置,其与所述条目处理装置连接,向用户显示所述相似条目合并后的检索结果。
其中,进一步包括:
数据库,其存储有海量信息;
检索装置,其与所述数据库及所述条目处理装置连接,用于根据关键词检索所述海量信息生成所述检索结果,并生成所述检索结果中各条目与所述关键词的匹配度的权值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江苏外博资讯有限公司,未经江苏外博资讯有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210451656.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种吊扇用水平安全支架
- 下一篇:空腔式吸声墙板