[发明专利]一种基于搜索策略的多主题信息采集方法有效

专利信息
申请号: 201310677257.6 申请日: 2013-12-13
公开(公告)号: CN103617286B 公开(公告)日: 2017-02-22
发明(设计)人: 仲兆满;李存华;管燕 申请(专利权)人: 淮海工学院
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 连云港润知专利代理事务所32255 代理人: 刘喜莲
地址: 222000 江苏省连云港市海*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明是一种基于搜索策略的多主题信息采集方法,其步骤如下(1)将主题规则集拆分成原子规则集;(2)判定原子规则集中原子规则的关系;(3)将原子规则集调度到内置搜索队列、通用搜索队列;(4)用和中的原子规则进行搜索采集。本发明方法针对多主题信息采集效率低下的问题,提出将主题的规则拆分成原子规则,并利用原子规则间的相同、互换、包含三种关系达到减少在互联网上搜索采集次数的目的,提高了多主题信息采集的性能。
搜索关键词: 一种 基于 搜索 策略 主题 信息 采集 方法
【主权项】:
一种基于搜索策略的多主题信息采集方法,其特征在于:其具体步骤如下:A、将主题规则集R拆分成原子规则集Ra;B、判定原子规则集Ra中原子规则的关系;C、将原子规则集Ra分配到内置搜索队列QI、通用搜索队列Qc;D、用QI和Qc中的原子规则进行搜索采集;步骤A中所述的将主题规则集R拆分成原子规则集Ra,其具体步骤如下:A1、依次从R中取出每条主题规则Ri,Ra置空;A2、判段Ri中是否包含“+”关系;如果包含,则转步骤A3;否则,Ra={Ri},转步骤A5;A3、判断Ri中是否存在“与”分配律;如果存在m个(m>0),循环执行m次“与”分配律运算,得到Ri′;否则,Ri′=Ri,转步骤A4;A4、依据“+”关系将Ri′切分成n条原子规则,将n条原子规则放入Ra,转步骤A5;A5、得到原子规则集Ra;步骤(C)中所述的将原子规则集Ra分配到内置搜索队列QI、通用搜索队列Qc,其具体步骤如下:C1、遍历Ra中所有原子规则,没有关系的原子规则直接分别放入QI、Qc;如果原子规则有关系,记有关系的原子规则集为Ra′,判定Ra′是否为空,如果不为空,转步骤C2;否则,转步骤C6;C2、从Ra′取出一条原子规则,判断它与其他原子规则之间的关系;如果两条原子规则选或分别放入QI、Qc,转步骤C5;否则,转步骤C3;C3、如果选或放入QI,选和放入Qc,转步骤C5;否则转步骤C4;C4、如选放入QI,选和放入Qc,转步骤C5;C5、判断Ra′中的原子规则是否全部分配完毕,完成转步骤C6;否则,转步骤C2;C6、得到内置搜索队列QI和通用搜索队列Qc。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于淮海工学院,未经淮海工学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201310677257.6/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top