[发明专利]一种数据维护方法及系统有效

专利信息
申请号: 201210593896.X 申请日: 2012-12-31
公开(公告)号: CN103077107A 公开(公告)日: 2013-05-01
发明(设计)人: 庄为亮 申请(专利权)人: TCL集团股份有限公司
主分类号: G06F11/34 分类号: G06F11/34
代理公司: 深圳中一专利商标事务所 44237 代理人: 张全文
地址: 516001 广东省惠州市*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 数据 维护 方法 系统
【说明书】:

技术领域

发明属于基于网络爬虫的数据维护领域,尤其涉及一种数据维护方法及系统。

背景技术

在当前信息空前爆炸的时代,人们不再担心信息的匮乏,而是为筛选有用的信息付出大量的代价。

现有的数据聚合方法有:采用网络爬虫技术实现的聚合方法。下面具体以网络爬虫技术的其中一种----Web-Harvest为例进行说明,Web-Harvest是一个Java开源Web数据抽取工具,它能够收集指定的Web页面并从这些页面中提取有用的数据。其提取数据的过程主要是通过基于可扩展标记语言(Extensible Markup Language,xml)配置文件的方式来进行定义的,每个xml配置文件描述了提取数据的一系列任务,而这些任务又是以一种链式的方式执行,所以一个任务返回结果可以当作另外一个任务的输入内容,这可以从下面的代码看出:

其中,上述的xpath为xml路径语言(xml Path Language)。当Web-Harverst执行上述代码提取视频页面播放地址时,其步骤为:

1、http处理器发送http请求,并从指定的页面地址(Universal Resource Locator,url)上面下载页面内容;

2、http-to-xml处理器将已下载的页面上的一些超文本标记语言(Hypertext Markup Language,HTML)清除,以产生可扩展超文本置标语言(Extensible Hyper Text Markup Language,XHTML);

3、xpath处理器根据其表达式expression的序列从xml寻找符合的内容。

但如果网络爬虫技术聚合的数据没有得到及时维护,则很可能聚合到错误的数据,原因如下:由于采用网络爬虫技术实现的数据聚合方法中,每个聚合过程都被定义在一个或多个基于xml的配置文件中,因此当页面的布局排版或者样式发生变化时,根据原来表达式提取的数据将为空或者是不符合预期。而由于通过网络爬虫技术实现的数据聚合方法生成的配置文件又较多,开发人员难以实时关注网站各个页面布局排版的变化,从而难以及时获知需调整的配置文件。

发明内容

本发明实施例提供了一种数据维护方法及系统,旨在解决现有开发人员难以实时关注网站各个页面布局排版的变化,从而难以及时获知需调整的配置文件的问题。

本发明实施例是这样实现的,一种数据维护方法,所述方法包括下述步骤:

A、提取指定地址的页面内容;

B、以预设的监控器为依据监控所述页面内容,所述预设的监控器定义了有效的页面内容格式;

C、在所述页面内容的格式不符合所述预设的监控器定义的有效的页面内容格式时,生成对应的警告日志;

D、将生成的警告日志发送给开发人员。

本发明实施例的另一目的在于提供一种数据维护系统,所述数据聚合系统包括:

页面内容提取单元,用于提取指定地址的页面内容;

页面内容监控单元,用于以预设的监控器为依据监控所述页面内容,所述预设的监控器定义了有效的页面内容格式;

日志生成单元,用于在所述页面内容的格式不符合所述预设的监控器定义的有效的页面内容格式时,生成对应的警告日志;

页面内容预警单元,用于将生成的警告日志发送给开发人员。

本发明实施例中,由于开发人员根据接收的预警日志能够获知哪些页面内容发生改变,因此开发人员可及时获知哪些配置文件需要进行调整。

附图说明

图1是本发明第一实施例提供的一种数据维护方法的流程图;

图2是本发明第一实施例提供的一种数据维护系统的结构图;

图3是本发明第二实施例提供的另一种数据维护系统的结构图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。

本发明实施例中,使用预设的监控器监控提取的页面内容,在页面内容的格式不符合所述预设的监控器定义的有效页面内容格式时,生成对应的预警日志,并将生成的预警日志发送给开发人员。

为了说明本发明所述的技术方案,下面通过具体实施例来进行说明。

实施例一:

图1示出了本发明第一实施例提供的一种数据维护方法的流程图,详述如下:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于TCL集团股份有限公司,未经TCL集团股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201210593896.X/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top