[发明专利]一种基于网页分割和搜索算法的服务包装方法有效

申请号：	201910447448.0	申请日：	2019-05-27
公开（公告）号：	CN110222251B	公开（公告）日：	2022-04-01
发明（设计）人：	罗智凌;王乃博;吕西亚;杨子桐;廖翔勇;尹建伟;李莹;邓水光	申请（专利权）人：	浙江大学
主分类号：	G06F16/951	分类号：	G06F16/951
代理公司：	杭州天勤知识产权代理有限公司 33224	代理人：	胡红娟;曹兆霞
地址：	310013 浙江***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于网页分割搜索算法服务包装方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于网页分割和搜索算法的服务包装方法，包括以下步骤：

服务提取阶段，包括动态包装和/或静态包装；针对动态包装，对动态网页进行解析，并在解析获得的动态表单信息中标记可能存在的表单，用户在可能存在的表单中标记并定义需要的表单；针对静态包装，对静态网页进行解析，并对解析得到的静态表单进行分块和标记，用户选择并定义所需的分块，并填写服务的名称和描述信息和提取规则；

服务调用阶段，用户输入调用服务的相关信息，后端系统根据接收的服务调用相关信息，按照提取规则生成相应服务，并返回前端；动态包装包括以下步骤：

S1-1、动态页面信息解析，具体包括：

S1-1-1、用户自己填写一个url地址，此地址为任意一个可被国际互联网访问的web链接；

S1-1-2、使用爬虫技术爬取此url地址对应web页面的源码；

S1-1-3、查找页面中是否存在form标签，将网页源码转换为结构化类数据，在类数据中查找form标签，并做好标记；

S1-1-4、在GUI显示后台不断打印出解析日志信息；

S1-1-5、使用图像处理技术，标记页面中所有可能存在的表单信息，以及每个表单中的每一个输入框的位置、可能的提交按钮的位置；

S1-2、用户选择表单并定义输入参数信息，具体包括：

S1-2-1、用户自主选择自己是否需要使用表单，如需要，选择表单编号，如不需要，跳过此步骤；

S1-2-2、用户自主定义每个输入框的名称以及示例值，选择提交按钮编号；

S1-2-3、将用户修改后的信息提交给后台，后台根据此信息生成form表单提取规则；

静态包装包括以下步骤：

S1-3、静态页面信息解析，具体包括：

S1-3-1、使用爬虫技术爬取url地址对应web页面的源码；

S1-3-2、使用广度优先搜索算法，找到页面中所有可能存在的项；

S1-3-3、使用网页分割算法将页面中所有结构相同的项合并成一个分块；

S1-3-4、使用加权排序算法，筛选出最多10个最大的分块；

S1-3-5、使用图像处理技术，将筛选出的分块进行标记；

S1-3-6、在GUI显示后台不断打印出的解析日志信息；

S1-4、用户选择分块并定义输入参数信息；

S1-4-1、用户自主选择自己想要的分块的编号；

S1-4-2、用户定义系统自动分析好的分块内数据编号的名称及描述，以及是否需要此分块；

S1-4-3、用户填写所生成服务的名称，描述信息；

S1-4-4、系统将用户修改后的服务信息和每个项的提取规则以json格式提交给服务生成后台；

S1-5、生成服务；

S1-5-1、服务生成后台解析传过来的服务信息和提取规则信息，并进行容错检查；

S1-5-2、后台生成用户所需要的服务和对应服务调用的地址和查询参数，等待调用；

调用阶段的具体过程为：

S2-1、用户填写服务规定的查询参数，调用API；

S2-2、调用后台根据用户所调用的API的地址，利用爬虫技术，打开API对应的真实url地址；

S2-3、调用后台根据用户包装服务时的选择，决定是否填写并查询表单信息；

S2-4、调用后台利用爬虫技术，爬取处理完表单后的页面源码；

S2-5、系统根据已存储的提取规则信息，对页面中相关项进行提取，并按照用户所定义的返回结果的名字和参数，进行结构化转化，生成返回结果；

S2-6、调用后台根据用户的查询参数，对返回结果进行筛选；

S2-7、系统将调用结果返回给前端。

2.如权利要求1所述的基于网页分割和搜索算法的服务包装方法，其特征在于，爬虫工具为python3.6环境下的Selenium+BeautifulSoup+Pyquery。

3.如权利要求1所述的基于网页分割和搜索算法的服务包装方法，其特征在于，广度优先搜索算法为：生成页面的DOM结构树，创建遍历顺序列表，将html节点放入列表，顺序遍历列表，将每个节点的子节点放入列表最后，直到所有节点遍历完毕。

4.如权利要求1所述的基于网页分割和搜索算法的服务包装方法，其特征在于，加权排序算法为：按照每个块内列表项数目从大到小排序，取前15个块；按照每个块内长度从大到小排序，取前15个块；两个列表取交集，并取前10个块作为最后选择到的最大的分块。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于浙江大学，未经浙江大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201910447448.0/1.html，转载请声明来源钻瓜专利网。

上一篇：一种面向微博的突发事件触发词识别方法
下一篇：信息检索方法、装置和设备

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于网页分割和搜索算法的服务包装方法有效

专利文献下载