[发明专利]一种基于脚本的网页采集服务方法和系统有效
申请号: | 201811637869.1 | 申请日: | 2018-12-29 |
公开(公告)号: | CN109815387B | 公开(公告)日: | 2021-11-19 |
发明(设计)人: | 张凯;程学旗;俞晓明;刘悦;余智华;孙海洲 | 申请(专利权)人: | 中国科学院计算技术研究所 |
主分类号: | G06F16/953 | 分类号: | G06F16/953 |
代理公司: | 北京律诚同业知识产权代理有限公司 11006 | 代理人: | 祁建国;梁挥 |
地址: | 100080 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及一种基于脚本的网页采集服务方法和系统,包括:客户端,服务前端和服务执行单元,服务执行单元处理服务请求的过程包括:根据脚本队列中采集脚本的顺序,调度脚本队列中位于队首的采集脚本作为执行脚本;解释执行执行脚本,当执行脚本执行到调用函数时,判断调用函数是否为采集函数,若是,则将采集网页的任务发给网页采集模块,对执行脚本指定的网址进行网页采集处理,得到网址的网页信息作为采集函数的返回值,否则执行调用函数调用的功能,并将执行结果作为调用函数的返回值。由此本发明可通过调用服务的方式处理复杂的网页采集任务,适应性更强。 | ||
搜索关键词: | 一种 基于 脚本 网页 采集 服务 方法 系统 | ||
【主权项】:
1.一种基于脚本的网页采集服务方法,包括:设置客户端,生成采集脚本作为服务请求;设置服务前端,接收并将该服务请求转发给服务执行单元,该服务执行单元处理该服务请求,并返回处理结果至该客户端,其特征在于,该服务执行单元处理该服务请求的过程包括:步骤1、将服务请求中该采集脚本加入待执行的脚本队列;步骤2、根据该脚本队列中采集脚本的顺序,调度该脚本队列中位于队首的采集脚本作为执行脚本;步骤3、解释执行该执行脚本,当该执行脚本执行到调用函数时,判断该调用函数是否为采集函数,若是,则执行步骤4,否则执行步骤5;步骤4、将采集网页的任务发给网页采集模块,对该执行脚本指定的网址进行网页采集处理,得到该网址的网页信息作为该采集函数的返回值,执行步骤6;步骤5、执行该调用函数调用的功能,并将执行结果作为该调用函数的返回值,执行步骤6;步骤6、返回该步骤3继续解释执行该执行脚本,直到该执行脚本执行完毕,得到该执行脚本的执行结果。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院计算技术研究所,未经中国科学院计算技术研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201811637869.1/,转载请声明来源钻瓜专利网。