[发明专利]一种基于搜索策略的多主题信息采集方法有效
申请号: | 201310677257.6 | 申请日: | 2013-12-13 |
公开(公告)号: | CN103617286B | 公开(公告)日: | 2017-02-22 |
发明(设计)人: | 仲兆满;李存华;管燕 | 申请(专利权)人: | 淮海工学院 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 连云港润知专利代理事务所32255 | 代理人: | 刘喜莲 |
地址: | 222000 江苏省连云港市海*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明是一种基于搜索策略的多主题信息采集方法,其步骤如下(1)将主题规则集拆分成原子规则集;(2)判定原子规则集中原子规则的关系;(3)将原子规则集调度到内置搜索队列、通用搜索队列;(4)用和中的原子规则进行搜索采集。本发明方法针对多主题信息采集效率低下的问题,提出将主题的规则拆分成原子规则,并利用原子规则间的相同、互换、包含三种关系达到减少在互联网上搜索采集次数的目的,提高了多主题信息采集的性能。 | ||
搜索关键词: | 一种 基于 搜索 策略 主题 信息 采集 方法 | ||
【主权项】:
一种基于搜索策略的多主题信息采集方法,其特征在于:其具体步骤如下:A、将主题规则集R拆分成原子规则集Ra;B、判定原子规则集Ra中原子规则的关系;C、将原子规则集Ra分配到内置搜索队列QI、通用搜索队列Qc;D、用QI和Qc中的原子规则进行搜索采集;步骤A中所述的将主题规则集R拆分成原子规则集Ra,其具体步骤如下:A1、依次从R中取出每条主题规则Ri,Ra置空;A2、判段Ri中是否包含“+”关系;如果包含,则转步骤A3;否则,Ra={Ri},转步骤A5;A3、判断Ri中是否存在“与”分配律;如果存在m个(m>0),循环执行m次“与”分配律运算,得到Ri′;否则,Ri′=Ri,转步骤A4;A4、依据“+”关系将Ri′切分成n条原子规则,将n条原子规则放入Ra,转步骤A5;A5、得到原子规则集Ra;步骤(C)中所述的将原子规则集Ra分配到内置搜索队列QI、通用搜索队列Qc,其具体步骤如下:C1、遍历Ra中所有原子规则,没有关系的原子规则直接分别放入QI、Qc;如果原子规则有关系,记有关系的原子规则集为Ra′,判定Ra′是否为空,如果不为空,转步骤C2;否则,转步骤C6;C2、从Ra′取出一条原子规则,判断它与其他原子规则之间的关系;如果两条原子规则选或分别放入QI、Qc,转步骤C5;否则,转步骤C3;C3、如果选或放入QI,选和放入Qc,转步骤C5;否则转步骤C4;C4、如选放入QI,选和放入Qc,转步骤C5;C5、判断Ra′中的原子规则是否全部分配完毕,完成转步骤C6;否则,转步骤C2;C6、得到内置搜索队列QI和通用搜索队列Qc。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于淮海工学院,未经淮海工学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201310677257.6/,转载请声明来源钻瓜专利网。
- 上一篇:包含非等轴碳酸钙微粒的烟草材料
- 下一篇:一种基站功率自优化方法