[发明专利]一种配置化爬虫质量监测的方法及系统在审
申请号: | 201810007604.7 | 申请日: | 2018-01-04 |
公开(公告)号: | CN108228431A | 公开(公告)日: | 2018-06-29 |
发明(设计)人: | 张波;李界鹏;王能 | 申请(专利权)人: | 北京中关村科金技术有限公司 |
主分类号: | G06F11/32 | 分类号: | G06F11/32;G06F11/30;H04L12/24;H04L12/26;H04L29/08 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 罗满 |
地址: | 100025 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 网站 记录参数 爬虫 授权 读取 监测时间段 爬虫程序 质量监测 配置文件 报警 监测 配置 数据库 计算机可读存储介质 多方位监测 报警信号 用户需求 申请 服务器 个性化 保存 | ||
本申请公开了一种配置化爬虫质量监测的方法,包括:获取爬虫程序爬取各网站的授权记录参数,并将授权记录参数保存到数据库中;读取配置文件,以得到需要监测的网站ID、监测时间段及报警阈值;从数据库中读取网站ID对应网站的监测时间段的授权记录参数;判断授权记录参数是否超过报警阈值;若是,则发出报警信号。该方法通过获取爬虫程序爬取各网站的授权记录参数,能够实现多方位监测爬虫程序的授权过程及爬虫质量;通过读取配置文件,以得到需要监测的网站ID、监测时间段及报警阈值,达到根据用户需求做个性化监测的效果。本申请同时还提供了一种配置化爬虫质量监测的系统、服务器及计算机可读存储介质,具有上述有益效果。
技术领域
本申请涉及网络爬虫领域,特别涉及一种配置化爬虫质量监测的方法、系统、服务器及计算机可读存储介质。
背景技术
随着互联网技术的飞速发展,大数据时代已经到来,数据采集成为至关重要的环节。爬虫程序作为数据采集的一个重要源头,发挥着不可替代的作用。
现有技术中,一般用爬虫质量来指代爬虫程序爬取的数据的质量,主要根据一定时间内爬取数据的数量以及爬取数据的正确性来判断爬虫质量的高低。通常来说,当被爬虫程序访问的目标网站经过维护或改版后,爬虫质量会出现一定程度的下降。
目前已有的爬虫质量监测方案是对网站的授权结果做次数统计,并笼统地对爬虫程序的产出效果进行监测,定期生成报告。可见,已有的配置化爬虫质量监测方案的监测对象单一,监测得到的报告内容笼统,不能根据用户需求做个性化监测。
因此,如何实现根据用户需求对爬虫质量做个性化监测是本领域技术人员目前需要解决的技术问题。
发明内容
本申请的目的是提供一种配置化爬虫质量监测的方法、系统、服务器及计算机可读存储介质,该方法能够实现根据用户需求对爬虫质量做个性化监测。
为解决上述技术问题,本申请提供一种配置化爬虫质量监测的方法,该方法包括:
获取爬虫程序爬取各网站的授权记录参数,并将所述授权记录参数保存到数据库中;
读取配置文件,以得到需要监测的网站ID、监测时间段及报警阈值;
从所述数据库中读取所述网站ID对应网站的所述监测时间段的授权记录参数;
判断所述授权记录参数是否超过所述报警阈值;
若是,则发出报警信号。
可选的,在所述获取爬虫程序爬取各网站的授权记录参数之前,还包括:
从所述配置文件中读取到需要校验的字段名称及校验方式;
当所述爬虫程序爬取到数据时,利用所述校验方式校验所述数据中所述字段名称对应的数据字段;
将校验失败的数据字段标记为异常数据。
可选的,所述授权记录参数包括流水号、爬虫类型、http url、状态码、授权耗时、异常数据数量中的至少一项。
可选的,判断所述授权记录参数是否超过所述报警阈值,包括:
计算状态值为“成功完成”的状态码所占比例的变化率,并判断所述变化率是否超过变化率报警阈值;
若未超过,则计算所述授权耗时的平均值,并判断所述平均值是否超过授权耗时报警阈值;
若所述平均值未超过所述授权耗时报警阈值,则统计http url的平均响应时间,并判断所述平均响应时间是否超过响应时间报警阈值;
若所述平均响应时间未超过所述响应时间报警阈值,则判断所述异常数据数量是否超过异常数据数量报警阈值;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京中关村科金技术有限公司,未经北京中关村科金技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810007604.7/2.html,转载请声明来源钻瓜专利网。