[发明专利]代理服务器及互联网数据的采集方法在审
| 申请号: | 201711396097.2 | 申请日: | 2017-12-21 |
| 公开(公告)号: | CN108108440A | 公开(公告)日: | 2018-06-01 |
| 发明(设计)人: | 龚权 | 申请(专利权)人: | 北京慧数科技有限公司 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 北京兆君联合知识产权代理事务所(普通合伙) 11333 | 代理人: | 刘俊玲 |
| 地址: | 100193 北京市海淀区东*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 采集 代理服务器 互联网数据 采集软件 模拟浏览器 站点 数据流 脚本 登录 渲染 数据采集效率 接收客户端 目标服务器 采集数据 人力物力 数据采集 网站内容 客户端 数据包 数据发 源程序 网站 解析 回复 发送 | ||
本发明公开了一种代理服务器及互联网数据的采集方法,包括一种互联网数据的采集方法,包括接收客户端发送的向目标服务器的待采集站点采集数据的采集请求;解析所述采集请求并得到待采集站点的URL地址;模拟浏览器登录所述URL地址并执行Javascript脚本渲染以得到所述待采集站点的数据流;将所述数据流作为回复数据包发送给所述客户端。本发明能够模拟浏览器登录采用Javascript脚本渲染的网站并进行数据采集,然后由代理服务器将采集到的数据发送给采集软件,无需改变传统采集软件的源程序,即可对传统采集软件无法采集的网站内容进行采集,提高了数据采集效率,降低了人力物力。
技术领域
本发明涉及互联网数据采集技术领域,尤其涉及一种代理服务器及互联网数据的采集方法。
背景技术
已知,目前互联网已经十分普及,互联网时代也是大数据的时代,在互联网中每时每刻都在产生着海量的数据,而掌握了越多的大数据,凭借对海量数据的处理分析,能够使得更高层面的决策、判断更加有理有据,为不同的行业提供数据支持,为企业高管、政府人员等提供数据参考,因此,采集互联网数据成为了目前大数据公司必备的能力,然而,目前的互联网数据采集软件通常采用htp交互进行数据采集,这种采集方式对于采用Javascript解密渲染的网站或页面数据无法采集,而在采集软件层面进行改进会导致整个软件程序结构的改动,研发成本很大,因此,上述问题均亟待解决。
发明内容
针对现有技术中存在的缺陷,本发明实施例提供一种代理服务器及互联网数据的采集方法。
为解决上述技术问题,本发明的实施例采用的技术方案是:
一种互联网数据的采集方法,包括:
接收客户端发送的向目标服务器的待采集站点采集数据的采集请求;
解析所述采集请求并得到待采集站点的URL地址;
模拟浏览器登录所述URL地址并执行Javascript脚本渲染以得到所述待采集站点的数据流;
将所述数据流作为回复数据包发送给所述客户端。
作为优选,所述浏览器配置为采用能够执行Javascript脚本渲染并得到站点内容的浏览器。
本发明实施例进一步提供一种代理服务器,包括:
数据接收模块,其用于接收客户端发送的向目标服务器的待采集站点采集数据的采集请求;
解析模块,其用于解析所述采集请求并得到待采集站点的URL地址;
模拟模块,其用于模拟浏览器登录所述URL地址并执行Javascript脚本渲染以得到所述待采集站点的数据流;
数据发送模块,其用于将所述数据流作为回复数据包发送给所述客户端。
作为优选,所述浏览器配置为采用能够执行Javascript脚本渲染并得到站点内容的浏览器。
与现有技术相比,本发明的实施例提供的代理服务器及互联网数据的采集方法,能够通过代理服务器模拟浏览器登录采用Javascript脚本渲染的站点网站并对该站点的网页内容数据进行采集,然后由代理服务器将采集得到的数据发送给采集软件,无需改变传统采集软件的源程序,即可对传统采集软件无法采集的网站内容进行采集,提高了数据采集效率,降低了人力物力。
附图说明
图1为本发明的实施例的方法步骤示意图;
图2为本发明的实施例的结构框图。
图中标号:1-数据接收模块2-解析模块3-模拟模块4-数据发送模块
具体实施方式
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京慧数科技有限公司,未经北京慧数科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711396097.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:行为数据的识别方法及装置
- 下一篇:一种数据库表结构分析方法和系统





