[发明专利]一种基于浏览器的网页内容采集系统及其采集方法在审
申请号: | 201810252226.9 | 申请日: | 2018-03-26 |
公开(公告)号: | CN110555145A | 公开(公告)日: | 2019-12-10 |
发明(设计)人: | 赵志全 | 申请(专利权)人: | 上海伯言科技有限公司 |
主分类号: | G06F16/951 | 分类号: | G06F16/951;G06F16/953;G06F16/9535 |
代理公司: | 31297 上海宏京知识产权代理事务所(普通合伙) | 代理人: | 邓文武 |
地址: | 201822 上海市嘉*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 程序模块 采集规则 浏览器 云端 采集系统 验证 采集 模拟浏览器 内容格式化 采集目标 操作流程 访问请求 外部应用 网页内容 网页提取 初始化 跨平台 操作系统 调用 返回 成功 | ||
1.一种基于浏览器的网页内容采集系统,其特征在于,其包括云端程序模块和前端程序模块,所述云端程序模块用于模拟浏览器向对应的采集目标发起访问请求,以及将接收到的内容格式化后返回给调用其接口的前端程序模块;所述前端程序模块根据外部应用的需求,针对指定的网页提取采集规则和验证采集规则;所述云端程序模块提供了两个接口:网页代理访问接口和引用资源代理访问接口;所述前端程序模块提供了两个接口:与工作区相连的工作区接口和与跨域通讯组件相连的跨域通讯组件接口。
2.根据权利要求1所述的一种基于浏览器的网页内容采集系统,其特征在于,所述工作区以网页的形式提供给外部应用通过IFrame嵌套调用。
3.根据权利要求2所述的一种基于浏览器的网页内容采集系统,其特征在于,所述工作区在被调用时可传入多个控制参数,包括待采集页网址、待采集标签范围、待采集属性范围。
4.根据权利要求2所述的一种基于浏览器的网页内容采集系统,其特征在于,工作区可以直接与用户进行交互,为用户提供可视化的操作体验。
5.根据权利要求1所述的一种基于浏览器的网页内容采集系统,其特征在于,所述跨域通讯组件以脚本资源形式由外部应用通过引用的方式调用,外部应用可通过跨域通讯组件与前端程序模块进行通讯,以此来间接控制前端程序模块为其提供服务。
6.一种基于浏览器的网页内容采集系统的采集方法,其特征在于,其包括工作区初始化和工作区操作两大步骤,其中,
工作区初始化的流程为:
A1、外部应用通过IFrame方式调用前端程序模块,调用时可传递相关参数,参数中必须包括待采集网页的网址;
A2、前端程序模块创建工作区,并将待采集网页的网址转发给云端程序模块;
A3、云端程序模块模拟浏览器访问位于采集目标上的待采集网页,并将接收到的网页内容格式化处理后发送给前端程序模块;格式化处理是把该网页中的引用资源地址修改为云端程序模块的相应的接口地址;
A4、前端程序模块将接收到的网页内容加载到工作区,在加载过程中,前端程序模块会逐一将引用资源的网址转发云端程序模块;
A5、云端程序模块模拟浏览器访问位于采集目标上的引用资源,并将接收到的内容格式化处理后发送给前端程序模块;格式化处理是把该引用资源中影响工作区操作的内容进行优化;
A6、前端程序模块将接收到的引用资源内容加载到工作区,加载完成后,对工作区进行预处理;预处理包括重新规划网页元素事件和开通跨域通讯功能;
A7、前端程序模块通过跨域通讯功能向外部应用发送通知,告知工作区已准备就绪;跨域通讯功能是基于HTML5消息机制而创建的跨域通讯方式;
A8、外部应用通过跨域通讯功能接收到来自前端程序模块的消息后,继续执行外部应用流程;外部应用的跨域通讯功能来源于前端程序模块提供的接口程序,跨域通讯组件;外部应用不仅可通过跨域通讯功能接收通知,还可通过该功能向前端程序模块发送通知;
工作区操作的流程包括提取采集规则流程和验证采集规则流程,其中,
所述提取采集规则流程为:
B1、用户在工作区点击需采集的内容;
B2、前端程序模块将工作区中被点击区域的内容高亮显示,以方便用户确认操作效果;若用户对选区内容不认可,可以重复步骤B1,直到符合用户要求为止;
B3、用户对选区内容认可后,可通过在工作区回车或由外部应用向前端程序模块发送确认选区的通知;
B4、前端程序模块根据选区内容提取采集规则,并向外部应用发送通知,报告采集规则;
B5、外部应用接收通知后,继续执行外部应用流程;
验证采集规则的流程为:
B6、外部应用将采集规则通过跨域通讯功能发送给前端程序模块;
B7、前端程序模块分析接收到的采集规则,并根据采集规则在工作区高亮显示采集内容;
B8、前端程序模块向外部应用发送通知,报告采集内容;
B9、外部应用接收通知后,继续执行外部应用流程。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海伯言科技有限公司,未经上海伯言科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810252226.9/1.html,转载请声明来源钻瓜专利网。