[发明专利]采集互联网金融网页的项目列表的方法及系统在审
申请号: | 201911094400.2 | 申请日: | 2019-11-11 |
公开(公告)号: | CN111045659A | 公开(公告)日: | 2020-04-21 |
发明(设计)人: | 唐积强;吴震;施力;杨菁林;徐小磊;李焱余;胡晓光;刘刚;周洋 | 申请(专利权)人: | 国家计算机网络与信息安全管理中心;深圳市任子行科技开发有限公司 |
主分类号: | G06F8/30 | 分类号: | G06F8/30 |
代理公司: | 深圳市顺天达专利商标代理有限公司 44217 | 代理人: | 郭伟刚 |
地址: | 100029*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 采集 互联网 金融 网页 项目 列表 方法 系统 | ||
本发明公开了一种采集互联网金融网页的项目列表的方法及系统,该方法包括:脚本生成端展示互联网金融网页对应的可视化配置界面;脚本生成端根据用户在可视化配置界面上的配置操作生成项目列表采集脚本,并将项目列表采集脚本存储至数据库;当时间到达项目列表采集脚本的执行时间点时,脚本生成端从数据库中取出项目列表采集脚本,并将项目列表采集脚本放入任务队列;脚本生成端将任务队列中的项目列表采集脚本分发至执行端;执行端运行项目列表采集脚本,得到项目列表采集信息,并将项目列表采集信息存储至执行端的本地文件系统。通过本发明,通过可视化配置方式,极大的简化了脚本配置工作,从而提高了数据采集效率。
技术领域
本发明涉及数据处理技术领域,尤其涉及采集互联网金融网页的项目列表的方法及系统。
背景技术
现有技术中,从网页上获取信息一般通过爬虫脚本的方式实现。但爬虫脚本需要根据技术人员编写。但这种方式需要分析目标网站的网页组织形式,数据接口以及页面上Javascript逻辑代码,编写出相应的程序代码或脚本,来实现根据某种规则过滤出特定的数据。即当需要从不同的网页上爬取数据时便需要编写不同的爬虫脚本,对技术人员来说无疑是巨大的工作量,脚本编写工作费时费力,从而导致数据采集效率低下。
发明内容
本发明的主要目的在于解决现有技术中脚本编写工作费时费力,导致数据采集效率低下的技术问题。
为实现上述目的,本发明提供一种采集互联网金融网页的项目列表的方法,所述方法应用于采集互联网金融网页的项目列表的系统,所述系统包括生成端和执行端,所述方法包括:
所述脚本生成端展示互联网金融网页对应的可视化配置界面;
所述脚本生成端根据用户在所述可视化配置界面上的配置操作生成项目列表采集脚本,并将所述项目列表采集脚本存储至数据库;
当时间到达所述项目列表采集脚本的执行时间点时,所述脚本生成端从所述数据库中取出所述项目列表采集脚本,并将所述项目列表采集脚本放入任务队列;
所述脚本生成端将所述任务队列中的项目列表采集脚本分发至所述执行端;
所述执行端运行所述项目列表采集脚本,得到项目列表采集信息,并将所述项目列表采集信息存储至所述执行端的本地文件系统。
可选的,所述脚本生成端展示互联网金融网页对应的可视化配置界面,包括:
所述脚本生成端获取互联网金融网页的经过修改的网页源码;
所述脚本生成端对所述经过修改的网页源码进行渲染,得到并展示可视化配置界面。
可选的,所述脚本生成端获取互联网金融网页的经过修改的网页源码,包括:
所述脚本生成端发起互联网金融网页开启请求;
服务端接收所述互联网金融网页开启请求,并通过所述服务端本地无头浏览器将所述互联网金融网页开启请求对应的互联网金融网页的统一资源定位符发送至代理拦截器;
所述服务器接收所述代理拦截器基于所述互联网金融网页的统一资源定位符反馈的网页源码,并通过修改脚本对所述网页源码进行修改,得到互联网金融网页的经过修改的网页源码;
所述服务器将所述互联网金融网页的经过修改的网页源码反馈给所述脚本生成端,以供所述脚本生成端获取所述互联网金融网页的经过修改的网页源码。
可选的,所述脚本生成端将所述任务队列中的项目列表采集脚本分发至所述执行端,包括:
所述脚本生成端根据所述执行端可执行的脚本数量M,将N个项目列表采集脚本分发至所述执行端,其中,所述N小于或等于M。
可选的,所述执行端运行所述项目列表采集脚本,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国家计算机网络与信息安全管理中心;深圳市任子行科技开发有限公司,未经国家计算机网络与信息安全管理中心;深圳市任子行科技开发有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911094400.2/2.html,转载请声明来源钻瓜专利网。