[发明专利]一种基于网页分割和搜索算法的服务包装方法有效

专利信息
申请号: 201910447448.0 申请日: 2019-05-27
公开(公告)号: CN110222251B 公开(公告)日: 2022-04-01
发明(设计)人: 罗智凌;王乃博;吕西亚;杨子桐;廖翔勇;尹建伟;李莹;邓水光 申请(专利权)人: 浙江大学
主分类号: G06F16/951 分类号: G06F16/951
代理公司: 杭州天勤知识产权代理有限公司 33224 代理人: 胡红娟;曹兆霞
地址: 310013 浙江*** 国省代码: 浙江;33
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 网页 分割 搜索 算法 服务 包装 方法
【权利要求书】:

1.一种基于网页分割和搜索算法的服务包装方法,包括以下步骤:

服务提取阶段,包括动态包装和/或静态包装;针对动态包装,对动态网页进行解析,并在解析获得的动态表单信息中标记可能存在的表单,用户在可能存在的表单中标记并定义需要的表单;针对静态包装,对静态网页进行解析,并对解析得到的静态表单进行分块和标记,用户选择并定义所需的分块,并填写服务的名称和描述信息和提取规则;

服务调用阶段,用户输入调用服务的相关信息,后端系统根据接收的服务调用相关信息,按照提取规则生成相应服务,并返回前端;动态包装包括以下步骤:

S1-1、动态页面信息解析,具体包括:

S1-1-1、用户自己填写一个url地址,此地址为任意一个可被国际互联网访问的web链接;

S1-1-2、使用爬虫技术爬取此url地址对应web页面的源码;

S1-1-3、查找页面中是否存在form标签,将网页源码转换为结构化类数据,在类数据中查找form标签,并做好标记;

S1-1-4、在GUI显示后台不断打印出解析日志信息;

S1-1-5、使用图像处理技术,标记页面中所有可能存在的表单信息,以及每个表单中的每一个输入框的位置、可能的提交按钮的位置;

S1-2、用户选择表单并定义输入参数信息,具体包括:

S1-2-1、用户自主选择自己是否需要使用表单,如需要,选择表单编号,如不需要,跳过此步骤;

S1-2-2、用户自主定义每个输入框的名称以及示例值,选择提交按钮编号;

S1-2-3、将用户修改后的信息提交给后台,后台根据此信息生成form表单提取规则;

静态包装包括以下步骤:

S1-3、静态页面信息解析,具体包括:

S1-3-1、使用爬虫技术爬取url地址对应web页面的源码;

S1-3-2、使用广度优先搜索算法,找到页面中所有可能存在的项;

S1-3-3、使用网页分割算法将页面中所有结构相同的项合并成一个分块;

S1-3-4、使用加权排序算法,筛选出最多10个最大的分块;

S1-3-5、使用图像处理技术,将筛选出的分块进行标记;

S1-3-6、在GUI显示后台不断打印出的解析日志信息;

S1-4、用户选择分块并定义输入参数信息;

S1-4-1、用户自主选择自己想要的分块的编号;

S1-4-2、用户定义系统自动分析好的分块内数据编号的名称及描述,以及是否需要此分块;

S1-4-3、用户填写所生成服务的名称,描述信息;

S1-4-4、系统将用户修改后的服务信息和每个项的提取规则以json格式提交给服务生成后台;

S1-5、生成服务;

S1-5-1、服务生成后台解析传过来的服务信息和提取规则信息,并进行容错检查;

S1-5-2、后台生成用户所需要的服务和对应服务调用的地址和查询参数,等待调用;

调用阶段的具体过程为:

S2-1、用户填写服务规定的查询参数,调用API;

S2-2、调用后台根据用户所调用的API的地址,利用爬虫技术,打开API对应的真实url地址;

S2-3、调用后台根据用户包装服务时的选择,决定是否填写并查询表单信息;

S2-4、调用后台利用爬虫技术,爬取处理完表单后的页面源码;

S2-5、系统根据已存储的提取规则信息,对页面中相关项进行提取,并按照用户所定义的返回结果的名字和参数,进行结构化转化,生成返回结果;

S2-6、调用后台根据用户的查询参数,对返回结果进行筛选;

S2-7、系统将调用结果返回给前端。

2.如权利要求1所述的基于网页分割和搜索算法的服务包装方法,其特征在于,爬虫工具为python3.6环境下的Selenium+BeautifulSoup+Pyquery。

3.如权利要求1所述的基于网页分割和搜索算法的服务包装方法,其特征在于,广度优先搜索算法为:生成页面的DOM结构树,创建遍历顺序列表,将html节点放入列表,顺序遍历列表,将每个节点的子节点放入列表最后,直到所有节点遍历完毕。

4.如权利要求1所述的基于网页分割和搜索算法的服务包装方法,其特征在于,加权排序算法为:按照每个块内列表项数目从大到小排序,取前15个块;按照每个块内长度从大到小排序,取前15个块;两个列表取交集,并取前10个块作为最后选择到的最大的分块。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201910447448.0/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top