[发明专利]一种基于脚本的网页采集服务方法和系统有效

专利信息
申请号: 201811637869.1 申请日: 2018-12-29
公开(公告)号: CN109815387B 公开(公告)日: 2021-11-19
发明(设计)人: 张凯;程学旗;俞晓明;刘悦;余智华;孙海洲 申请(专利权)人: 中国科学院计算技术研究所
主分类号: G06F16/953 分类号: G06F16/953
代理公司: 北京律诚同业知识产权代理有限公司 11006 代理人: 祁建国;梁挥
地址: 100080 北*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明涉及一种基于脚本的网页采集服务方法和系统,包括:客户端,服务前端和服务执行单元,服务执行单元处理服务请求的过程包括:根据脚本队列中采集脚本的顺序,调度脚本队列中位于队首的采集脚本作为执行脚本;解释执行执行脚本,当执行脚本执行到调用函数时,判断调用函数是否为采集函数,若是,则将采集网页的任务发给网页采集模块,对执行脚本指定的网址进行网页采集处理,得到网址的网页信息作为采集函数的返回值,否则执行调用函数调用的功能,并将执行结果作为调用函数的返回值。由此本发明可通过调用服务的方式处理复杂的网页采集任务,适应性更强。
搜索关键词: 一种 基于 脚本 网页 采集 服务 方法 系统
【主权项】:
1.一种基于脚本的网页采集服务方法,包括:设置客户端,生成采集脚本作为服务请求;设置服务前端,接收并将该服务请求转发给服务执行单元,该服务执行单元处理该服务请求,并返回处理结果至该客户端,其特征在于,该服务执行单元处理该服务请求的过程包括:步骤1、将服务请求中该采集脚本加入待执行的脚本队列;步骤2、根据该脚本队列中采集脚本的顺序,调度该脚本队列中位于队首的采集脚本作为执行脚本;步骤3、解释执行该执行脚本,当该执行脚本执行到调用函数时,判断该调用函数是否为采集函数,若是,则执行步骤4,否则执行步骤5;步骤4、将采集网页的任务发给网页采集模块,对该执行脚本指定的网址进行网页采集处理,得到该网址的网页信息作为该采集函数的返回值,执行步骤6;步骤5、执行该调用函数调用的功能,并将执行结果作为该调用函数的返回值,执行步骤6;步骤6、返回该步骤3继续解释执行该执行脚本,直到该执行脚本执行完毕,得到该执行脚本的执行结果。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院计算技术研究所,未经中国科学院计算技术研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201811637869.1/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top