[发明专利]面向广告投放的主从分布内容爬取机器人在审
申请号: | 202110971084.3 | 申请日: | 2021-08-23 |
公开(公告)号: | CN113656673A | 公开(公告)日: | 2021-11-16 |
发明(设计)人: | 刘文平 | 申请(专利权)人: | 刘文平 |
主分类号: | G06F16/951 | 分类号: | G06F16/951;G06F16/955;G06K9/62;G06Q30/02 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 312400 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 面向 广告 投放 主从 分布 内容 机器人 | ||
1.面向广告投放的主从分布内容爬取机器人,其特征在于,设计实现基于Redis的分布式内容爬取机器人,通过分布式网络部署方式进行抓取与存储;分布式内容爬取机器人总体架构包括一个中枢调度器、多个爬取器结点、Web配置管理模块、代理池模块、分布式存储模块、Redis数据库与MongoDB数据库,具体为:
第一,基于广告投放的实际需求,提出一个主从分布内容爬取机器人来索引网页信息并进行周期性更新,构建训练集与测试集,实现广告投放页面的快速响应;
第二,内容爬取机器人由一个中枢调度器和众多抓取爬虫组成,并基于Web方式实现抓取规则配置与运行状态实时监测,中枢调度器与爬虫结点间采用Redis内存数据库实现双向通信,其中中枢调度器采用多级URL队列实现URL规则匹配与去重操作,同时周期性监测抓取规则变化进行规则重调度,并根据配置调节各个规则队列调度速率并通过一致性哈希算法在多个抓取爬虫间进行任务均衡;另外,每个抓取爬虫采用多线程池设计来并发请求URL,先提取页面链接,再采用开源Goose模块提取元数据与正文内容后,采用分片与复制集机制对内容进行分布式存储,同时使用代理IP来防止网站屏蔽内容爬取机器人。
2.根据权利要求1所述的面向广告投放的主从分布内容爬取机器人,其特征在于,主从分布内容爬取机器人基本运行流程为:首先启动MongoDB分布式数据库与Redis数据库,确认两者正常运行,然后启动Web配置管理模块Flask监听本地5000端口,将针对特定站点指定的抓取规则依次配置存储到Redis数据库,再启动中枢调度器,调度器首先加载系统配置文件到全局,加载规则更新线程,该线程从Redis中读取事先制定的抓取规则到全局字典并更新规则版本信息,该线程创建调度线程并启动它,周期性动态监测规则版本号,发现规则变动就激活调度标志通知调度线程立即开始一次新的调度,调度线程在一次调度进程中进行两个进程:规则初始调度与规则队列均衡调度,其中规则初始调度根据是否达到更新周期,由规则种子列表驱动一次更新性调度,规则队列调度根据各个队列在配置中的优先级与权重确定其调度速率后,去重并更新其调度状态,由一致性哈希进程投入当前存活爬取器的调度队列;代理池启动后负责周期性获取互联网实时代理IP信息有效性检测后投入Redis;爬取器启动后,加载多个线程单元从对应的调度队列中加载URL交给下载组件,下载后提取URL回馈给调度器,页面放入数据队列等待存储模块的处理,最后启动存储模块将页面预处理后提取有效信息,存入分布式数据库MongoDB中,同时通过FlaskWeb后台监测系统运行状态;各个组件间相互独立,都可以部署在不同的机器结点上,实现资源有效利用。
3.根据权利要求1所述的面向广告投放的主从分布内容爬取机器人,其特征在于,中枢调度器的设计:中枢调度类由规则更新线程类与规则调度线程类组成,三者共同依托环境类来工作,环境类提供全局运行字典变量,存储实时的抓取规则和一些全局共享的变量信息,还提供Redis数据库连接池变量,该工作类定义两个静态方法:
第一方法:链接检测方法进行链接状态调度逻辑,同时执行实际调度操作,对未出现过的链接创建新的URL对象类,判断已有URL对象的当前状态,如果是爬行失败状态则根据调度记录表统计参与调度与调度失败的次数,如果次数超过设定值则放弃该URL的抓取,否则在调度时间间隔满足时,给予又一次参与调度的机会,在当前状态不为失败时,如果其当前状态是爬行中或者已调度,则放弃这次调度,如果当前状态为爬行成功且URL的类型为分支,基于分支结点内容变化较快,立即对它进行调度,剩余的所有情况则在满足时间间隔的条件下进行调度;
第二方法:基于哈希的去重功能,同时更新URL对象信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于刘文平,未经刘文平许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110971084.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:移动轨迹的显示方法、装置、存储介质及电子装置
- 下一篇:智能光疗椅及系统