[发明专利]一种基于B2B平台的多线程数据抓取方法有效

专利信息
申请号: 201610272886.4 申请日: 2016-04-28
公开(公告)号: CN105868412B 公开(公告)日: 2019-05-03
发明(设计)人: 徐飞 申请(专利权)人: 焦点科技股份有限公司
主分类号: G06F16/9535 分类号: G06F16/9535
代理公司: 南京瑞弘专利商标事务所(普通合伙) 32249 代理人: 陈建和
地址: 210003 江苏省南京市高新*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明公开了一种基于B2B平台的多线程数据抓取方法,1)将B2B平台的首页、多级类型目录结构作为目标对象,对网页源文件进行分析;2)在URL处理器中分析出需要的目标规则;3)通过HTTP解析器,从隧道协议中获取一定格式的数据;4)对每次URL请求分配新的线程,通过多线程模式并发处理;5)通过分类管理器进行管理每一种商品大类到小类的规则;6)对该线程超时的设置;7)根据所述固定格式数据,将所有提取的商品数据内容保存至数据库;本发明提供的基于B2B平台的多线程数据抓取方法,在大数据并发实时采集、多线程数据抓取上有显著的效果。
搜索关键词: 一种 基于 b2b 平台 多线程 数据 抓取 方法
【主权项】:
1.一种基于B2B平台的多线程数据抓取方法,其特征在于:包括如下步骤:(1)将B2B平台的首页、多级类型目录结构作为目标对象,对网页源文件进行分析,对B2B平台数据源的商品数据进行实时采集的方法为:在源文件中剔除无用的信息内容,剔除方式通过的标签库来递归调用;源文件分析出有效URL,将URL转移至下一步骤;(2)在URL处理器中分析出需要的目标规则,再做一次URL请求,获取下一层的源码内容,将源码内容放置缓冲区,然后将缓冲区的内容转移至下一目标任务进行处理;对该源码内容部分代码过滤其中不需要的内容,包括广告信息、版权信息、标签标记,以达到去伪存精的目的;找到源码内容循环分页的规律,并将源码内容进行分离;(3)通过HTTP解析器,从隧道协议中获取一定格式的数据,一定格式表示为键值对形式的数据、包装数组结构的数据、以及特征字符的结构数据;数据提取为所需要的目标数据结果,再次对该结果进行格式筛选,去除无效字符;开启多个发出HTTP请求的线程,每个URL请求只请求资源文件的一部分,合并每个线程下载的文件;(4)线程处理,对每次URL请求分配新的线程,通过多线程模式并发处理;通过线程管理器实现多线程调用操作,当某一线程失败时将自动挂起;并且每个请求需要一个单独的线程完成;在线程池中,线程数是固定的,线程总数不超过线程池中所能容纳线程的数目,当服务器不利用线程池时处理这些请求时则请求线程总数不大于50000;(5)分类管理器,通过分类管理器进行管理每一种商品大类到小类的规则,当数据匹配规则成功后,将首先获取大类商品源码,再递归调用子类商品源码文件;(6)通过对线程超时的设置,当超时区间时间内检测不到线程是否执行成功, 那么对该线程处理标记进行设置为失败,当在系统空闲状态时自动触发该线程重新启动;线程池将基于识别直接处理,或增加工作者数处理,进入待处理队列,其他线程池会直接将任务放入待处理队列,等待工作线程去取出执行; (7)根据所述一定格式数据,将所有提取的商品数据内容保存至数据库中;HTTP解析的步骤,(1)解析Html超文本标记语言源文件,包括Html文件中js脚本文件和css文件,从中进行处理;(2)通过源文件解析器进行处理,按不同的格式进行解析处理;(3)通过http包处理器获取js脚本返回的隐藏内容;(4)隐藏内容的匹配与处理;(5)最终数据处理整合;(6)线程管理器并发处理新的任务。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于焦点科技股份有限公司,未经焦点科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201610272886.4/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top