[发明专利]一种网页裁剪方法及系统有效
申请号: | 201711409030.8 | 申请日: | 2017-12-22 |
公开(公告)号: | CN110020369B | 公开(公告)日: | 2021-05-11 |
发明(设计)人: | 何应腾;陈晓鸿;林湧双;过松;周剑雄;文永江;陈俊儒;董灿佳;蒋业 | 申请(专利权)人: | 中国移动通信集团广东有限公司;中国移动通信集团公司 |
主分类号: | G06F16/958 | 分类号: | G06F16/958 |
代理公司: | 北京路浩知识产权代理有限公司 11002 | 代理人: | 王莹;李相雨 |
地址: | 510623 广东省广州*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 网页 裁剪 方法 系统 | ||
本发明提供一种网页裁剪方法和系统,所述方法包括:获取目标元素的唯一性标识,根据所述唯一性标识获取目标元素的裁剪规则集,基于所述裁剪规则集的裁剪规则顺序逐层提取网页内容,对所述唯一性标识对应的目标元素进行裁剪;其中,所述裁剪规则集中包括所述目标元素的唯一性标识,且所述唯一性标识为所述裁剪规则集的起点裁剪规则。通过用户点击或搜索匹配网页元素,根据规则检索函数自动生成该元素的裁剪规则集,将剪裁规则集按照统一格式存储,在后续应用集成时,通过裁剪工具按裁剪规则集指示流程便可最终获取网页元素。通过反向定位,在保证成功率的同时,最大限度地降低定位特定元素所需遍历的HTML节点,提高了裁剪的效率。
技术领域
本发明涉及通信技术领域,更具体地,涉及一种网页裁剪方法及系统。
背景技术
网页信息裁裁剪剪,即将网页作为信息源,然后从信息源中抽取出目标信息。网页上的数据大部分都是用一种半结构化的超文本标记语言(Hypertext Markup Language,简称HTML)来描述的,但由于缺乏对数据本身的描述,使得应用程序无法直接解析并利用网页上海量的信息,造成了资源极大的浪费。网页信息裁裁剪剪的目的是将半结构化的HTML页面中隐含的目标信息抽取出来,并以更为结构化、语义更为清晰的形式表示,为用户在网页中查询数据、应用程序直接利用网页中的数据提供便利。
现有技术中进行网页信息裁剪时,采用的方案通常是使用特征值匹配,通过事先的页面分析确定特征词来定位待裁剪信息的位置;除此之外,也有通过提前分析整个网页的HTML元素并建立节点树,再根据信息抽取请求预设的配置信息快速定位待裁剪元素信息位置的方式实现信息获取。
由于采用特征词进行定位需要对网站中的词进行再三提炼,过于通用的特征词在特定网页中会造成误判,而过于特殊的特征词又难以试用其他网页的裁剪,因此通用性差,裁剪难度大;而采用节点树的方式,在确定网页元素的位置需要遍历整个网页的HTML节点,效率低下,在所需元素在网页内容占比小的情况下,效率问题愈加明显。针对网页元素的获取,采用特征词匹配的方式则通用性差,裁剪难度大,而采用节点树的方式则代价相对较大,导致其效率低下。
发明内容
本发明提供一种克服上述问题或者至少部分地解决上述问题的一种网页裁剪方法和系统,解决了现有技术中通用性差、裁剪难度大,且效率低下的问题。
根据本发明的一个方面,提供一种网页裁剪方法,包括:
根据需求匹配网页的目标元素,获取所述目标元素的唯一性标识,根据所述唯一性标识获取目标元素的裁剪规则集,基于所述裁剪规则集的裁剪规则顺序逐层提取网页内容,对所述唯一性标识对应的目标元素进行裁剪;
其中,所述裁剪规则集中包括所述目标元素的唯一性标识,且所述唯一性标识为所述裁剪规则集的起点裁剪规则。
作为优选的,根据所述唯一性标识获取目标元素的裁剪规则集前还包括:
将目标元素作为规则检索的起点元素,判断所述目标元素是否有唯一性属性;
若判断获知有唯一性属性,则将所述唯一性属性作为所述目标元素的唯一性标识;
若判断获知无唯一性属性,则对所述目标元素的父级节点元素进行规则检索,将所述父级节点元素作为规则检索的起点元素,获取所述父级节点元素的唯一性属性,将父级节点元素的唯一性属性作为所述目标元素的唯一性标识。
作为优选的,所述唯一性属性包括标识ID、整个页面唯一的元素样式。
作为优选的,获取目标元素的唯一性标识前还包括:
根据用户点击或搜索的网页元素获知用户的目标元素。
作为优选的,若判断无唯一性属性后还包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国移动通信集团广东有限公司;中国移动通信集团公司,未经中国移动通信集团广东有限公司;中国移动通信集团公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711409030.8/2.html,转载请声明来源钻瓜专利网。