[发明专利]一种基于浏览器的网页内容采集系统及其采集方法在审
申请号: | 201810252226.9 | 申请日: | 2018-03-26 |
公开(公告)号: | CN110555145A | 公开(公告)日: | 2019-12-10 |
发明(设计)人: | 赵志全 | 申请(专利权)人: | 上海伯言科技有限公司 |
主分类号: | G06F16/951 | 分类号: | G06F16/951;G06F16/953;G06F16/9535 |
代理公司: | 31297 上海宏京知识产权代理事务所(普通合伙) | 代理人: | 邓文武 |
地址: | 201822 上海市嘉*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于浏览器的网页内容采集系统及其采集方法,采集系统由云端程序模块和前端程序模块两部分组成,云端程序模块用于模拟浏览器向对应的采集目标发起访问请求,并将接收到的内容格式化后返回给调用其接口的前端程序模块,前端程序模块根据外部应用的需求,针对指定的网页提取采集规则和验证采集规则。采集方法包括工作区初始化和工作区操作两部分,工作区操作流程包括提取采集规则流程和验证采集规则流程。本发明采用云端技术与浏览器相结合的方式,成功地解决了现有技术在跨平台上存在的问题,且基于本发明的产品不依赖具体的操作系统和具体的浏览器。 | ||
搜索关键词: | 程序模块 采集规则 浏览器 云端 采集系统 验证 采集 模拟浏览器 内容格式化 采集目标 操作流程 访问请求 外部应用 网页内容 网页提取 初始化 跨平台 操作系统 调用 返回 成功 | ||
【主权项】:
1.一种基于浏览器的网页内容采集系统,其特征在于,其包括云端程序模块和前端程序模块,所述云端程序模块用于模拟浏览器向对应的采集目标发起访问请求,以及将接收到的内容格式化后返回给调用其接口的前端程序模块;所述前端程序模块根据外部应用的需求,针对指定的网页提取采集规则和验证采集规则;所述云端程序模块提供了两个接口:网页代理访问接口和引用资源代理访问接口;所述前端程序模块提供了两个接口:与工作区相连的工作区接口和与跨域通讯组件相连的跨域通讯组件接口。/n
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海伯言科技有限公司,未经上海伯言科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201810252226.9/,转载请声明来源钻瓜专利网。