[发明专利]面向广告投放的主从分布内容爬取机器人在审
申请号: | 202110971084.3 | 申请日: | 2021-08-23 |
公开(公告)号: | CN113656673A | 公开(公告)日: | 2021-11-16 |
发明(设计)人: | 刘文平 | 申请(专利权)人: | 刘文平 |
主分类号: | G06F16/951 | 分类号: | G06F16/951;G06F16/955;G06K9/62;G06Q30/02 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 312400 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 面向 广告 投放 主从 分布 内容 机器人 | ||
本发明根据面向广告投放实际抓取要求设计并实现了基于Redis的分布式内容爬取机器人,通过分布式网络部署方式进行抓取与存储,一是根据广告投放训练集与测试集分类采集的要求,提出多线程分布式网络内容爬取机器人,设计基于标签的多站点分类采集规则,基于多任务并发调度策略实现任务速率可控、均衡分配的调度核心、多线程池化并发抓取,实现自动化Web规则配置与系统状态监测;二是提出分布式内容爬取机器人部署方案,并进行集成测试与抓取结果评估。本发明设计的分布式架构可以大幅提高内容爬取机器人的效率,并对特定数据进行有效存储,能够满足广告投放的实际需求,具有重要的现实意义和巨大的运用价值。
技术领域
本发明涉及一种主从分布内容爬取机器人,特别涉及一种面向广告投放的主从分布内容爬取机器人,属于内容爬取机器人技术领域。
背景技术
随着网络技术的跨越式发展,特别是移动互联网的到来极大丰富了网络数据与信息量,互联网的营销意义与广告价值日益显著。与通过传统媒体的投放方式相比,互联网广告具有独特的优势,首先其展示素材丰富,可以将声音图片文字等多维元素有机融合在一起,并且其价格远低于同等效果的传统媒体广告。其次,网络广告天生具有强交互性,在拉近广告主与用户间距离的同时还可以方便的统计出广告投放效果,另外广告内容针对性强,传播范围广且不受时空限制,具有独特的优势。
互联网广告的演化大致经历了三个阶段,目前以用户行为为主导的广告投放变得越来越重要,投放系统已经能够收集用户行为信息,通过特征分析等手段向用户推荐其最感兴趣的广告。但无论广告投放模式如何发展,都离不开一个高效的网络内容爬取系统对海量数据的收集索引更新等这些基础性工作,网络内容爬取作为搜索引擎的核心组件,自然也是广告投放系统中必不可少的组成部分,网络内容爬取系统的效率将直接关系到整个投放系统的性能。目前Google等大型机构已研发出一些网络内容爬取系统架构,但这些解决方案仅为用户提供了简单的不可定制的搜索接口。
现有技术开源世界中有大量的网络内容爬取项目存在,但很大一部分是集中式网络内容爬取系统,面对现如今爆炸性的海量数据采集,其信息采集效率与采集规模难以满足实际应用需要,另外集中式内容爬取系统的运行模式,容易受到内存、处理器等硬件与带宽方面的资源限制,一旦出现故障,整个系统将陷入瘫痪。而分布式网络内容爬取采用多机带来的硬件资源与网络资源相对集中式内容爬取系统有显著的速度与规模优势,可以轻松解决系统资源带来的瓶颈问题。但开源内容爬取程序多是通用性内容爬取系统,可定制性差,无法满足广告投放的实际需求,因此对面向广告投放的分布式内容爬取系统的研发具有重要的现实意义和巨大的运用价值。
Google-bot是谷歌公司提供搜索服务的基础性爬虫,采用之前抓取过的数据与网站主提交的站点地图来产生种子URL列表,从种子开始提取网页中链接到抓取队列,更新旧链接,去除死链接,加入新链接到Google索引器。但Google-bot也面临着巨大的挑战,同时抓取数千个网页,要与已存储的网页区分开的同时还要持续检测网页更新来自动判别更新间隔。更新策略对一个优秀的内容爬取机器人系统来说至关重要,重复抓取没有变化的网页将严重影响内容爬取机器人效率。
综上所述,现有技术的面向广告投放的内容爬取系统存在不足,本发明的难点和待解决的问题主要集中在以下方面:
第一,现有技术的网络内容爬取系统多是通用性内容爬取系统,针对广告投放的可定制性差,无法结合互联网广告投放系统针对性的处理网页信息,无法结合广告投放需求索引和管理网页信息,不具有广告内容爬取系统的速度与规模优势,无法满足广告投放的实际需求,同时仅为用户提供了简单的不可定制的搜索接口,缺乏可扩展性,无法面向广告投放使用;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于刘文平,未经刘文平许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110971084.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:移动轨迹的显示方法、装置、存储介质及电子装置
- 下一篇:智能光疗椅及系统