[发明专利]一种基于网页分割和搜索算法的服务包装方法有效
| 申请号: | 201910447448.0 | 申请日: | 2019-05-27 |
| 公开(公告)号: | CN110222251B | 公开(公告)日: | 2022-04-01 |
| 发明(设计)人: | 罗智凌;王乃博;吕西亚;杨子桐;廖翔勇;尹建伟;李莹;邓水光 | 申请(专利权)人: | 浙江大学 |
| 主分类号: | G06F16/951 | 分类号: | G06F16/951 |
| 代理公司: | 杭州天勤知识产权代理有限公司 33224 | 代理人: | 胡红娟;曹兆霞 |
| 地址: | 310013 浙江*** | 国省代码: | 浙江;33 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 网页 分割 搜索 算法 服务 包装 方法 | ||
1.一种基于网页分割和搜索算法的服务包装方法,包括以下步骤:
服务提取阶段,包括动态包装和/或静态包装;针对动态包装,对动态网页进行解析,并在解析获得的动态表单信息中标记可能存在的表单,用户在可能存在的表单中标记并定义需要的表单;针对静态包装,对静态网页进行解析,并对解析得到的静态表单进行分块和标记,用户选择并定义所需的分块,并填写服务的名称和描述信息和提取规则;
服务调用阶段,用户输入调用服务的相关信息,后端系统根据接收的服务调用相关信息,按照提取规则生成相应服务,并返回前端;动态包装包括以下步骤:
S1-1、动态页面信息解析,具体包括:
S1-1-1、用户自己填写一个url地址,此地址为任意一个可被国际互联网访问的web链接;
S1-1-2、使用爬虫技术爬取此url地址对应web页面的源码;
S1-1-3、查找页面中是否存在form标签,将网页源码转换为结构化类数据,在类数据中查找form标签,并做好标记;
S1-1-4、在GUI显示后台不断打印出解析日志信息;
S1-1-5、使用图像处理技术,标记页面中所有可能存在的表单信息,以及每个表单中的每一个输入框的位置、可能的提交按钮的位置;
S1-2、用户选择表单并定义输入参数信息,具体包括:
S1-2-1、用户自主选择自己是否需要使用表单,如需要,选择表单编号,如不需要,跳过此步骤;
S1-2-2、用户自主定义每个输入框的名称以及示例值,选择提交按钮编号;
S1-2-3、将用户修改后的信息提交给后台,后台根据此信息生成form表单提取规则;
静态包装包括以下步骤:
S1-3、静态页面信息解析,具体包括:
S1-3-1、使用爬虫技术爬取url地址对应web页面的源码;
S1-3-2、使用广度优先搜索算法,找到页面中所有可能存在的项;
S1-3-3、使用网页分割算法将页面中所有结构相同的项合并成一个分块;
S1-3-4、使用加权排序算法,筛选出最多10个最大的分块;
S1-3-5、使用图像处理技术,将筛选出的分块进行标记;
S1-3-6、在GUI显示后台不断打印出的解析日志信息;
S1-4、用户选择分块并定义输入参数信息;
S1-4-1、用户自主选择自己想要的分块的编号;
S1-4-2、用户定义系统自动分析好的分块内数据编号的名称及描述,以及是否需要此分块;
S1-4-3、用户填写所生成服务的名称,描述信息;
S1-4-4、系统将用户修改后的服务信息和每个项的提取规则以json格式提交给服务生成后台;
S1-5、生成服务;
S1-5-1、服务生成后台解析传过来的服务信息和提取规则信息,并进行容错检查;
S1-5-2、后台生成用户所需要的服务和对应服务调用的地址和查询参数,等待调用;
调用阶段的具体过程为:
S2-1、用户填写服务规定的查询参数,调用API;
S2-2、调用后台根据用户所调用的API的地址,利用爬虫技术,打开API对应的真实url地址;
S2-3、调用后台根据用户包装服务时的选择,决定是否填写并查询表单信息;
S2-4、调用后台利用爬虫技术,爬取处理完表单后的页面源码;
S2-5、系统根据已存储的提取规则信息,对页面中相关项进行提取,并按照用户所定义的返回结果的名字和参数,进行结构化转化,生成返回结果;
S2-6、调用后台根据用户的查询参数,对返回结果进行筛选;
S2-7、系统将调用结果返回给前端。
2.如权利要求1所述的基于网页分割和搜索算法的服务包装方法,其特征在于,爬虫工具为python3.6环境下的Selenium+BeautifulSoup+Pyquery。
3.如权利要求1所述的基于网页分割和搜索算法的服务包装方法,其特征在于,广度优先搜索算法为:生成页面的DOM结构树,创建遍历顺序列表,将html节点放入列表,顺序遍历列表,将每个节点的子节点放入列表最后,直到所有节点遍历完毕。
4.如权利要求1所述的基于网页分割和搜索算法的服务包装方法,其特征在于,加权排序算法为:按照每个块内列表项数目从大到小排序,取前15个块;按照每个块内长度从大到小排序,取前15个块;两个列表取交集,并取前10个块作为最后选择到的最大的分块。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910447448.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种面向微博的突发事件触发词识别方法
- 下一篇:信息检索方法、装置和设备





