[发明专利]一种网络资源数据采集系统及其实现方法有效

专利信息
申请号: 201611178759.4 申请日: 2016-12-19
公开(公告)号: CN106603292B 公开(公告)日: 2019-12-10
发明(设计)人: 陈德淼;季统凯 申请(专利权)人: 国云科技股份有限公司
主分类号: H04L12/24 分类号: H04L12/24;H04L29/08;G06F16/953;G06F16/958
代理公司: 44332 广东莞信律师事务所 代理人: 余伦
地址: 523808 广东省东莞市松山湖高*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 网络资源 数据 采集 系统 及其 实现 方法
【权利要求书】:

1.一种网络资源数据采集系统,其特征在于,所述的系统包含资源配置管理模块、任务配置管理模块和数据管理模块及监控管理模块;

所述的资源配置管理模块包含资源基础信息维护模块、资源配置信息维护模块、资源规则测试模块和资源信息发布/撤销模块;所述的资源基础信息维护模块用于保存和修改资源基础信息表,按输入的资源数据表名称自动生成资源采集信息表;所述的资源配置信息维护模块用于对资源信息采集规则进行配置,修改资源基础信息表;所述的资源规则测试模块用于对配置的采集规则进行测试;所述的资源信息发布/撤销模块用于发布和撤销资源信息,发布资源信息后自动生成资源监控信息表;

所述的任务配置管理模块包含任务基础信息维护模块和任务的启动、停止和重启模块;所述的任务基础信息维护模块用于保存和修改任务基础信息表;所述的任务的启动、停止和重启模块分别用于启动任务、停止任务和重新启动任务,启动任务后自动生成任务监控信息表;

所述的数据管理模块包含数据浏览和统一搜索;所述的数据浏览用于采集数据的统一展示,显示某个资源的采集信息,包含资源名称、采集数据量和数据浏览功能;所述的统一搜索用于对采集内容的关键字进行检索,按关键字搜索采集内容结果集信息;

所述的监控管理模块包含资源监控管理和任务监控管理;所述的资源监控管理用于对资源信息进行监控,包含资源名称、监控时间、监控URL、监控值、监控结果信息;所述的任务监控管理用于对任务运行进行监控,包含任务名称、开始时间、结束时间、采集网页数信息;

所述的资源基础信息表包含:资源编号,资源名称,数据表名称,关键字,总标记,类别,原网页名称,原网页URL,标题标记,链接标记,日期标记,内容标题标记,时间标记,内容标记,作者标记,自定义标记,来源标记,备注,数据记录,状态信息;

所述的任务基础信息表包含:任务编号,任务名称,资源编号,开始时间,结束时间,是否循环,任务周期,下次启动时间,状态信息;

所述的资源采集信息表,包含:资源采集编号,任务编号,类型,标题,时间,作者,来源,内容标题,采集URL,上层URL,内容,关键词,采集时间,状态,备注,资源编号;

所述的资源监控信息表,包含:资源监控编号,资源编号,监控URL,监控值,监控时间,状态,备注;

所述的任务监控信息表,包含:任务监控编号,任务编号,开始时间,结束时间,状态,采集网页数量。

2.一种利用权利要求1所述的网络资源数据采集系统实现的方法,其特征在于,所述的方法包括:

步骤1:在系统数据库中添加资源基础信息,配置采集规则,发布资源信息;

步骤2:添加任务信息,选择资源名称,设定任务运行周期及任务开始运行时间,启动任务运行即可;

所述的实现方法包括资源配置管理维护、任务配置管理维护和数据查询管理及监控管理;

所述的资源配置管理维护包括如下步骤:

第一步,添加资源基础信息表,包含资源名称和数据表名称信息;

第二步,配置资源采集信息,包含采集网址、采集规则和采集内容信息;

第三步,测试网址采集内容;

第四步,提交资源信息,自动生成资源采集信息表;

第五步,发布资源信息;

所述的任务配置管理维护包括如下步骤:

第一步,添加任务基础信息表,包含任务名称、资源名称、是否循环、任务周期、开始时间信息;

第二步,启动任务运行;

第三步,在任务设定的开始运行时间进行数据采集;

所述的数据查询管理包括如下步骤:

第一步,数据导航,展示所有资源的信息采集数量;

第二步,数据浏览,浏览每个资源的详细采集数据;

第三步,统一搜索,输入检索信息关键字,点查询,显示信息采集结果集信息;

所述的监控管理包括如下步骤:

第一步,资源监控,对资源信息进行监控,展示资源的监控时间、监控URL、监控值和监控结果;

第二步,任务监控,对任务信息进行监控,展示任务的开始时间,结束时间,采集网页数量。

3.根据权利要求2所述的方法,其特征在于,网络资源数据采集的详细流程为:

第一步,添加资源基础信息表,包含资源名称和数据表名称信息;

第二步,配置资源采集信息,包含采集网址、采集规则和采集内容信息;

第三步,测试网址采集内容;

第四步,提交资源信息,自动生成资源采集信息表;

第五步,发布资源信息;

第六步,添加任务基础信息表,包含任务名称、资源名称、是否循环、任务周期、开始时间信息;

第七步,启动任务运行;

第八步,数据采集;

第九步,数据导航,展示所有资源的信息采集数量;

第十步,数据浏览,浏览每个资源的详细采集数据;

第十一步,统一搜索,输入检索信息关键字,点查询,显示信息采集结果集信息;

第十二步,资源监控,对资源信息进行监控,展示资源的监控时间,监控URL,监控值和监控结果;

第十三步,任务监控,对任务信息进行监控,展示任务的开始时间,结束时间,采集网页数量。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国云科技股份有限公司,未经国云科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201611178759.4/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top