[发明专利]通用互联网数据采集方法在审

申请号：	201710433582.6	申请日：	2017-06-09
公开（公告）号：	CN107239558A	公开（公告）日：	2017-10-10
发明（设计）人：	张鹏	申请（专利权）人：	成都布林特信息技术有限公司
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	北京天奇智新知识产权代理有限公司11340	代理人：	杨春
地址：	610000 四川省***	国省代码：	四川;51
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明提供了一种通用互联网数据采集方法，该方法包括执行事务调度，判断采集事务的类型，如果是媒体或文件链接，则执行相应的采集文档处理；如果网页采集事务访问地址不在历史抓取库中，则按新发现的网页进行采集；如果此采集事务在历史抓取库中，从历史抓取库中获取此网页地址的上次采集信息；如果间隔时间超过超过更新频率，比较当前网页地址的页面内容大小与上一次页面内容大小，如果不相等，获取此网页链接页面源码，更新历史访问库中此网页地址的采集信息，执行网页清洗抽取。本发明提出了一种通用互联网数据采集方法，利用事务控制策略进行高效数据采集，针对多维对象之间的耦合关系进行数据挖掘。
搜索关键词：	通用互联网数据采集方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

一种通用互联网数据采集方法，用于使用搜索引擎采集模块的单个事务对网站基础数据进行采集，其特征在于，包括：步骤1.事务从事务队列中获取一个非空采集事务对象；如果获取到空事务对象，则执行事务调度；步骤2.判断采集事务的深度是否超过最大的深度；事务从当前采集事务对象中获取其当前事务对象所在的采集深度；如采集深度未超过系统配置的站点采集深度，则事务继续步骤3；步骤3.判断采集事务的类型；如果是网页采集事务，则执行步骤4，如果不是网页采集事务，则执行步骤5；步骤4.判断是否是新网页还是未完成的网页链接；如果此采集事务访问地址不在历史抓取库中，则按新发现的网页进行采集即步骤7；如果此采集事务在历史抓取库中，从历史抓取库中获取此网页地址的上次采集信息，即访问地址、访问时间、页面大小、更新频率、根域名；计算上次访问时间与本次访问当前时间的间隔时间是否已经超过更新频率，如果已经超过，则比较当前网页地址的页面内容大小与上一次页面内容大小，如果相等，则不进行采集，如果不相等，则继续步骤6；步骤5.如果是媒体或文件链接，则执行相应的采集文档处理；如果是非法链接，则记录此异常链接；步骤6.获取此网页链接页面源码，更新历史访问库中此网页地址的采集信息，执行步骤8；步骤7.采集新任务网页，获取此网页链接页面的源码，在历史访问库中增加此网页地址的访问记录；步骤8.执行网页清洗抽取，该网页清洗抽取步骤用于从网页源码中提取指定的特征信息，清除网页源码中的无用信息或噪声数据，然后再从清洗好数据中提取出需要的信息。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于成都布林特信息技术有限公司，未经成都布林特信息技术有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201710433582.6/，转载请声明来源钻瓜专利网。

上一篇：一种网页建立方法、电子设备及存储介质
下一篇：一种基于矢量网格进行空间动目标位置计算的方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]通用互联网数据采集方法在审

专利文献下载