[发明专利]一种基于网页分割和搜索算法的服务包装方法有效
| 申请号: | 201910447448.0 | 申请日: | 2019-05-27 |
| 公开(公告)号: | CN110222251B | 公开(公告)日: | 2022-04-01 |
| 发明(设计)人: | 罗智凌;王乃博;吕西亚;杨子桐;廖翔勇;尹建伟;李莹;邓水光 | 申请(专利权)人: | 浙江大学 |
| 主分类号: | G06F16/951 | 分类号: | G06F16/951 |
| 代理公司: | 杭州天勤知识产权代理有限公司 33224 | 代理人: | 胡红娟;曹兆霞 |
| 地址: | 310013 浙江*** | 国省代码: | 浙江;33 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 网页 分割 搜索 算法 服务 包装 方法 | ||
本发明公开了一种基于网页分割和搜索算法的服务包装方法,包括以下步骤:服务提取阶段,包括动态包装和/或静态包装;针对动态包装,对动态网页进行解析,并在解析获得的动态表单信息中标记可能存在的表单,用户在可能存在的表单中标记并定义需要的表单;针对静态包装,对静态网页进行解析,并对解析得到的静态表单进行分块和标记,用户选择并定义所需的分块,并填写服务的名称和描述信息和提取规则;服务调用阶段,用户输入调用服务的相关信息,后端系统根据接收的服务调用相关信息,按照提取规则生成相应服务,并返回前端。本发明极大地提升了用户获取数据的效率。
技术领域
本发明涉及服务计算领域,具体涉及一种基于网页分割和搜索算法的服务包装方法。
背景技术
随着互联网的发展,服务提供者倾向于通过网页来展示自己的服务数据,然而各式各样提供便利的网页反而对开发者使用这些源数据造成了很大的限制。服务包装系统旨在将网页中的数据进行封装,包装成一个服务,并提供调用该服务的RestFul API以供开发者在开发过程中使用该服务。
Web页面块分割技术是对现有网页文档进行分析和处理,具体将整个Web页面分割成包含信息数据的多个块的技术,从而实现广告去除、主要信息提取等功能,主要包括基于节点熵的页面分块技术,基于视觉特征的页面分块技术,基于内容距离的网页分块技术等,Web网页分割技术已被广泛应用于互联网行业的各个领域。
服务是具有多种属性,从属于某一具体服务类别,由某个或某类开发者提供的API集合。
API是一些预先定义的函数,目的是提供应用程序与开发人员基于某软件或硬件得以访问一组例程的能力,而又无需访问源码,或理解内部工作机制的细节。API具有多种输入输出属性,属于某个具体开发者,从属于某一具体服务。
网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。
发明内容
本发明的目的是提供一种基于网页分割和搜索算法的服务包装方法。该服务包装方法极大地提升了用户获取数据的效率。
为实现上述发明目的,本发明提供以下技术方案:
一种基于网页分割和搜索算法的服务包装方法,包括以下步骤:
服务提取阶段,包括动态包装和/或静态包装;针对动态包装,对动态网页进行解析,并在解析获得的动态表单信息中标记可能存在的表单,用户在可能存在的表单中标记并定义需要的表单;针对静态包装,对静态网页进行解析,并对解析得到的静态表单进行分块和标记,用户选择并定义所需的分块,并填写服务的名称和描述信息和提取规则;
服务调用阶段,用户输入调用服务的相关信息,后端系统根据接收的服务调用相关信息,按照提取规则生成相应服务,并返回前端。
本发明提供的基于网页分割和搜索算法的服务包装方法,可自动分析页面,通过若干点击和少量的输入即可完成对一个网页的封装的模块,可以将网页封装成一个服务,生成爬虫规则,并按照用户需求返回相应结构化的数据。极大地提升了用户获取数据的效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动前提下,还可以根据这些附图获得其他附图。
图1是本发明基于网页分割和搜索算法的服务包装方法及系统的实现框架;
图2是本发明基于网页分割和搜索算法的服务包装方法及系统的用户使用流程图。
具体实施方式
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910447448.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种面向微博的突发事件触发词识别方法
- 下一篇:信息检索方法、装置和设备





