[发明专利]提升数据抓取成功率的系统及相应的数据抓取处理方法在审
申请号: | 201910372042.0 | 申请日: | 2019-05-06 |
公开(公告)号: | CN110059239A | 公开(公告)日: | 2019-07-26 |
发明(设计)人: | 宋志朋 | 申请(专利权)人: | 上海富数科技有限公司 |
主分类号: | G06F16/951 | 分类号: | G06F16/951;G06F17/27;G06K9/62 |
代理公司: | 上海智信专利代理有限公司 31002 | 代理人: | 王洁;郑暄 |
地址: | 201802 上海市嘉定区科*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据抓取 成功率 抓取 错误提示 错误信息 规则引擎模块 数据抓取模块 分析模块 决策结果 统计模块 系统访问 系统实现 用户返回 匹配 验证 中断 纠正 | ||
本发明涉及一种提升数据抓取成功率的系统,包括数据抓取模块、统计模块、规则引擎模块、分析模块,用于匹配原始错误信息对应的决策结果。本发明还涉及一种基于该系统实现提升抓取成功率的数据抓取处理方法。采用了本发明的提升数据抓取成功率的系统及相应的数据抓取处理方法,能够给用户返回更加友好的错误提示文案,并引导用户对错误提示及时纠正,满足系统访问条件,进而能顺利抓取到数据,避免因错误信息多次中断数据抓取过程,让用户多次验证,使数据抓取过程更方便快捷。
技术领域
本发明涉及数据处理领域,尤其涉及数据抓取领域,具体是指一种提升数据抓取成功率的系统及相应的数据抓取处理方法。
背景技术
当用户提交抓取请求后,由于要抓取的信息很多,与外部数据源系统会有多次交互,由于每个用户资料完善度、等级、是否已实名认证等等不相同,可能会出现各种各样的中断,比如当抓取一些重要的页面信息,如果用户还未实名认证过,此时需要先进行实名认证后,才可以继续后面的抓取流程。如果用户输入的密码不正确,多次尝试仍失败后,需要引导用户去密码重置。
另外对接到外部的数据源系统都是走的Restful接口交互,返回的错误信息多种多样,很多错误信息有较差的阅读感,需要做同义转换,对用户友好。
传统调用方式如图1所示,步骤为:用户通过手机访问H5页面,输入登录名和密码,提交抓取请求到后端Web;后端Web会根据业务场景,向外部数据源发起多次请求,以期待抓取到目标数据;有可能拿到正确的数据,也有可能因为某些条件不满足,会报错,返回错误信息;然后将错误信息返回给用户,让用户自己想办法解决,本次交互流程结束。
发明内容
本发明的目的是克服了上述现有技术的缺点,提供了一种满足样本多样性、操作简便、成功率高的提升数据抓取成功率的系统及相应的数据抓取处理方法。
为了实现上述目的,本发明的提升数据抓取成功率的系统及相应的数据抓取处理方法如下:
该提升数据抓取成功率的系统,其主要特点是,所述的系统包括:
数据抓取模块,与前台H5页面和外部数据源相连接,用于进行数据抓取;
统计模块,与所述的数据抓取模块相连接,用于统计每种错误信息提示的文案出现的次数;
规则引擎模块,与所述的数据抓取模块相连接,用于查询原始错误信息,获取标准输出文案和动作指令;
分析模块,与所述的规则引擎模块相连接,用于匹配原始错误信息对应的决策结果。
较佳地,所述的系统还包括规则库,与所述的规则引擎模块相连接,用于存储错误信息对应的标准输出文案和动作指令。
较佳地,所述的系统还包括样本库,与所述的分析模块相连接,用于存储原始错误信息对应的决策结果。
该基于上述系统实现提升抓取成功率的数据抓取处理方法,其主要特点是,所述的方法包括以下步骤:
(1)系统向外部数据源发起抓取请求,判断是否从外部数据源成功抓取数据,如果是,将数据响应至前台H5页面并输出至用户,退出步骤;否则,继续步骤(2);
(2)将外部数据源返回的信息提示传输至统计模块,统计每种错误信息提示的文案出现的次数;
(3)判断所述的统计模块中相同文案出现的次数是否超过预设阈值,如果是,则通知运营人员进行所述的文案对应的动作配置;否则,继续步骤(1);
(4)在规则库中查询错误信息并匹配对应的决策结果。
较佳地,所述的步骤(4)具体包括以下步骤:
(4.1)将原始错误信息传输至规则引擎模块并进行预处理;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海富数科技有限公司,未经上海富数科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910372042.0/2.html,转载请声明来源钻瓜专利网。