[发明专利]基于代码模板和协程池的数据采集方法、系统及电子设备在审
| 申请号: | 202011461253.0 | 申请日: | 2020-12-14 |
| 公开(公告)号: | CN112231093A | 公开(公告)日: | 2021-01-15 |
| 发明(设计)人: | 靳林林;李汉轩;李际朝;李青龙 | 申请(专利权)人: | 北京智慧星光信息技术有限公司 |
| 主分类号: | G06F9/48 | 分类号: | G06F9/48 |
| 代理公司: | 北京智宇正信知识产权代理事务所(普通合伙) 11876 | 代理人: | 李明卓 |
| 地址: | 100080 北京市*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 代码 模板 和协 数据 采集 方法 系统 电子设备 | ||
1.一种基于代码模板和协程池的数据采集方法,其特征在于,包括:
控制列表页协程池向调度服务发出任务请求,所述调度服务根据接收到的所述任务请求确定所述任务请求的分组信息,根据分组信息确定调度服务分组队列,将调度服务分组队列中队列头部的采集任务发送至列表页协程池;
控制列表页协程池接收调度服务发送的采集任务;
控制列表页协程池根据采集任务得到采集任务所对应的代码模板,所述代码模板中包含列表页解析规则和详情页解析规则;
控制列表页协程池将所述代码模板加载为采集模块;
控制列表页协程池根据采集模块得到采集模块中的入口URL;
控制列表页协程池发送入口URL下载请求,得到入口URL下载结果;
若入口URL下载结果不为空,则控制列表页协程池获取入口URL响应状态码;
若入口URL响应状态码为第一预设状态码,则控制列表页协程池调用采集模块中的列表页解析规则得到详情页URL;
控制列表页协程池将详情页URL放入详情页URL消息队列;
控制详情页协程池从详情页URL消息队列中获取详情页URL;
控制详情页协程池发送详情页URL下载请求,得到详情页URL下载结果;
若详情页URL下载结果不为空,则控制详情页协程池获取详情页响应状态码;
若详情页响应状态码为第二预设状态码,则控制详情页协程池调用采集模块中的详情页解析规则得到详情页数据;
控制详情页协程池将详情页数据放入详情页数据消息队列;
控制数据处理协程池从详情页数据消息队列中获取详情页数据,按照详情页数据中的地址分发至外部消息队列;
控制数据处理协程池标记采集任务完成,并发送任务完成标记至列表页协程池。
2.如权利要求1所述的基于代码模板和协程池的数据采集方法,其特征在于,控制列表页协程池根据采集任务得到采集任务所对应的代码模板的步骤中,包括:
控制列表页协程池根据采集任务得到采集任务所对应的代码模板的更新时间,并根据更新时间得到更新结果;
若更新结果为有更新,则控制列表页协程池向调度服务请求更新的代码模板,将接收到的更新代码模板作为采集任务所对应的代码模板;
若更新结果为无更新,则控制列表页协程池在本地代码模板库中查找采集任务所对应的代码模板,得到查找结果;
若查找结果为存在,则控制列表页协程池加载本地代码模板库中的代码模板,将本地代码模板库中的代码模板作为采集任务所对应的代码模板;
若查找结果为不存在,则控制列表页协程池向调度服务请求代码模板,将接收到的代码模板作为采集任务所对应的代码模板。
3.如权利要求1所述的基于代码模板和协程池的数据采集方法,其特征在于,控制列表页协程池将所述代码模板加载为采集模块的步骤之后,还包括:
控制列表页协程池对采集模块进行初始化处理,得到初始化的采集模块。
4.如权利要求1所述的基于代码模板和协程池的数据采集方法,其特征在于,控制列表页协程池将详情页URL放入详情页URL消息队列的步骤之前,还包括:
控制列表页协程池将详情页URL与详情页URL数据库中的URL进行比较,得到比较结果;
若比较结果为详情页URL与详情页URL数据库中的URL重复,则控制列表页协程池去除详情页URL;
若比较结果为详情页URL与详情页URL数据库中的URL不重复,控制列表页协程池保留详情页URL。
5.如权利要求4所述的基于代码模板和协程池的数据采集方法,其特征在于,控制列表页协程池将详情页URL与详情页URL数据库中的URL进行比较,得到比较结果的步骤中,包括:
控制列表页协程池根据代码模板确定代码模板的数据类型,所述数据类型用于表征代码模板采集的网站类型;
控制列表页协程池根据代码模板的数据类型确定代码模板所对应的去重数据库,详情页URL数据库包含若干个去重数据库,数据类型库包含若干种数据类型,去重数据库与数据类型一一对应;
控制列表页协程池将详情页URL与代码模板所对应的去重数据库中的URL进行比较,得到比较结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京智慧星光信息技术有限公司,未经北京智慧星光信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011461253.0/1.html,转载请声明来源钻瓜专利网。





