[发明专利]用于搜索字串的方法和设备在审

专利信息
申请号: 201610158006.0 申请日: 2016-03-18
公开(公告)号: CN107203567A 公开(公告)日: 2017-09-26
发明(设计)人: 代洪涛;张磊;陈超;黄坤武;刘晶晶 申请(专利权)人: 伊姆西公司
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 北京市金杜律师事务所11256 代理人: 王茂华,马明月
地址: 美国马*** 国省代码: 暂无信息
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 用于 搜索 字串 方法 设备
【说明书】:

技术领域

本公开的实施例总体上涉及信息搜索领域,并且更具体地,涉及用于搜索字串的方法和设备。

背景技术

在信息搜索领域中,诸如倒排索引之类搜索技术可被用来在海量文档(例如,互联网上的网页)中搜索给定的字串。在传统的倒排索引技术中,待搜索的字符串被划分为项(token)。在此使用的术语“项”是指组成字串的单位,诸如字符、单词、词组,等等。在进行搜索时,会对包含所有项的所有文档进行搜索。

这种搜索所面临的最大问题是搜索效率。可以理解,对于字串中的每一项,可能存在包含该项的大量文档;反之,在一个文档中,每一项可能出现数次。传统的搜索引擎必须处理所有这些文档中的所有这些项。这极大地降低了搜索效率,使得字串搜索成为一个耗时的过程。迟缓的响应转而降低了使用搜索引擎的用户体验。

发明内容

总体上,本公开的实施例提出用于搜索字串的方法和设备。

根据本公开的第一方面,提供了一种用于搜索字串的方法,包括:确定包含该字串中的第一项的第一文档集合,以及包含该字串中的第二项的第二文档集合;以及基于该第一文档集合和该第二文档集合生成第三文档集合,该第三文档集合中的文档:i)被包括在该第一文档集合和该第二文档集合二者中,并且ii)该第一项和该第二项在该文档中的距离等于该第一项和该第二项在该字串中的距离。

根据本公开的第二方面,提供了一种用于搜索字串的设备,包括: 处理单元,被配置用于:确定包含该字串中的第一项的第一文档集合,以及包含该字串中的第二项的第二文档集合;以及基于该第一文档集合和该第二文档集合生成第三文档集合,该第三文档集合中的文档:i)被包括在该第一文档集合和该第二文档集合二者中,并且ii)该第一项和该第二项在该文档中的距离等于该第一项和该第二项在该字串中的距离。

根据本公开的第三方面,提供了一种计算机程序产品。该计算机程序产品被有形地存储在非瞬态计算机可读存储介质上,并且包括机器可执行指令,该指令在被执行时使得机器执行根据本公开的第一方面的方法的步骤。

应当理解,发明内容部分中所描述的内容并非旨在限定本公开实施例的关键或重要特征,亦非用于限制本公开的范围。本公开的其它特征将通过以下的描述变得容易理解。

附图说明

结合附图并参考以下详细说明,本公开各实施例的上述和其他特征、优点及方面将变得更加明显。在附图中,相同或相似的附图标记表示相同或相似的元素,其中:

图1示出了本公开的实施例适用于其中的示例环境;

图2示出了根据本公开的某些实施例的用于搜索字串的方法的流程图;

图3示出了根据本公开的某些实施例的在搜索字串过程中生成文档集合的示例过程;以及

图4示出了可以用来实施本公开的实施例的计算设备的示意性框图。

在所有附图中,相同或相似参考数字表示相同或相似元素。

具体实施例

下面将参照附图更详细地描述本公开的实施例。虽然附图中显示 了本公开的某些实施例,然而应当理解的是,本公开可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例,相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是,本公开的附图及实施例仅用于示例性作用,并非用于限制本公开的保护范围。

在此使用的术语“包括”、“包含”及类似术语应该被理解为是开放性的术语,即“包括/包含但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”;术语“另一实施例”表示“至少一个另外的实施例”。其他术语的相关定义将在下文描述中给出。

如上所述,在传统搜索技术中,对包含待搜索字串中的所有项的所有文档进行搜索。然而,一般而言,作为搜索对象的文档的数目非常庞大,而每个文档中包含的各项的数目也可能多达数百万。因此,传统搜索技术往往需要相当大的运算量,导致整个搜索过程非常耗时。

为了解决这些以及其他潜在问题,本公开的实施例提供一种用于搜索字串的方法。该方法基于包含字串中的两个项的两个文档集合,生成新的文档集合。该新的文档集合被包括在这两个文档集合中,并且这两个项在该新的文档集合中的各文档中的距离等于它们在字串中的距离。如此,可以基于新的文档集合执行字串搜索。这种搜索方式有效减少了需要搜索的文档的数目,从而显著减少了搜索过程中所需的运算量,提高了搜索性能。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于伊姆西公司,未经伊姆西公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201610158006.0/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top