[发明专利]一种通过关键词检索页面的方法及装置有效
申请号: | 201010104946.4 | 申请日: | 2010-01-29 |
公开(公告)号: | CN101777074A | 公开(公告)日: | 2010-07-14 |
发明(设计)人: | 柯宗贵;柯宗庆 | 申请(专利权)人: | 蓝盾信息安全技术股份有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 510630广东省广州市天河*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 通过 关键词 检索 页面 方法 装置 | ||
技术领域
本发明涉及计算机及互联网领域,特别是涉及一种通过关键词检索页面的 方法及装置。
背景技术
在检查互联网信息或文本页面的过程中,通常要分析页面内容。有时遇到 这样的需求:有些页面虽然包含目标关键词,但是却不是要寻找的目的页面。 需要考虑如何剔除这样的页面。
现有技术提出了两种方案,其一是通过设置URL过滤来剔除不需要的页 面;其二是通过设置剔除关键词名单,将包含这些关键词的页面直接剔除。但 是现有技术提出的两种方案都较容易误判一些页面。
发明内容
本发明提供了一种通过关键词检索页面的方法及装置,用以降低检索页面 的过程中对包含目标关键词但不是目的页面的误判率。
本发明的一种通过关键词检索页面的方法,包括下列步骤:在页面中检索 目标关键词;根据目标关键词在页面中的位置确定该目标关键词所在的段落; 在所述段落中检索要剔除的关键词;将检索到要剔除关键词的页面从检索结果 中过滤;在上述检索过程中,需检索至少一个目标关键词,以及至少一个要剔 除的关键词,并且各目标关键词与各要剔除的关键词之间存在对应关系;所述 的对应关系是目标关键词与要剔除的关键词之间存在一一对应关系,或者一个 目标关键词与至少二个要剔除的关键词之间存在对应关系。
本发明的一种通过关键词检索页面的装置,包括:第一检索单元,用于在 页面中检索目标关键词;定位单元,用于根据目标关键词在页面中的位置确定 该目标关键词所在的段落;第二检索单元,用于在所述段落中检索要剔除的关 键词;过滤单元,用于将检索到要剔除关键词的页面从检索结果中过滤;数据 库单元,用于存储各目标关键词与各要剔除的关键词之间的对应关系,并在第 一检索单元需检索至少一个目标关键词,第二检索单元需检索至少一个要剔除 的关键词时,调用所述对应关系;所述的对应关系是目标关键词与要剔除的关 键词之间的一一对应关系,或者一个目标关键词与至少二个要剔除的关键词之 间的对应关系。
本发明有益效果如下:由于本发明在包含目标关键词的段落中针对要剔除 关键词进行了重检索,并将任一段落中同时包含目标关键词和要剔除关键词的 页面过滤掉,所以提高了识别目标页面的能力,同时降低误判页面的概率。
附图说明
图1为本发明实施例中的方法步骤流程图;
图2为本发明实施例中的装置结构示意图。
具体实施方式
为了降低检索页面的过程中对包含目标关键词但不是目的页面的误判率, 本发明提供了一种通过关键词检索页面的方法及装置,主要思路是通过划分目 标关键词所在段落,并通过重检索要剔除的关键词来过滤页面。
参见图1所示,实施例中的方法包括以下主要步骤:
S1、在页面中检索目标关键词。
S2、根据目标关键词在页面中的位置确定该目标关键词所在的段落。
S3、在上述段落中检索要剔除的关键词。
S4、将检索到要剔除关键词的页面从检索结果中过滤。
更为具体的,在检索过程中,需检索至少一个目标关键词,以及至少一个 要剔除的关键词,并且各目标关键词与各要剔除的关键词之间存在对应关系。 例如:目标关键词与要剔除的关键词之间存在一一对应关系;又例如:一个目 标关键词与至少二个要剔除的关键词之间存在对应关系。
如果一个目标关键词与至少二个要剔除的关键词之间存在对应关系,则步 骤S4的判断逻辑可以是在所述段落中检索到目标关键词对应的任一要剔除的 关键词,则将该页面从检索结果中过滤;也可以是在所述段落中检索到目标关 键词对应的所有要剔除的关键词,则将该页面从检索结果中过滤。
以下通过上述本发明背景技术记载的内容作为待检索页面的内容,目标关 键词与要剔除的关键词之间存在一一对应关系为例,目标关键词为“关键词”, 要剔除的关键词为“现有技术”,描述在具体实现中的过程。
S101、按照文本顺序以“关键词”在本发明背景技术中检索,在本发明背 景技术第一段检索到“关键词”。
S102、定位检索到的“关键词”所在的段落为第一段。
S103、在第一段中检索“现有技术”,未检索到,则按文本顺序继续检索。
S104、在本发明背景技术第二段检索到“关键词”。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于蓝盾信息安全技术股份有限公司,未经蓝盾信息安全技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201010104946.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种网摘树之间的联合系统和方法
- 下一篇:光学信息记录介质