[发明专利]页面元素获取方法和装置有效
申请号: | 201911407963.2 | 申请日: | 2019-12-31 |
公开(公告)号: | CN111125605B | 公开(公告)日: | 2022-07-29 |
发明(设计)人: | 徐彦卿;周梦席 | 申请(专利权)人: | 北京创鑫旅程网络技术有限公司 |
主分类号: | G06F16/958 | 分类号: | G06F16/958;G06F16/955 |
代理公司: | 北京同立钧成知识产权代理有限公司 11205 | 代理人: | 罗英;刘芳 |
地址: | 100015 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 页面 元素 获取 方法 装置 | ||
1.一种页面元素获取方法,其特征在于,应用于服务器中,所述方法包括:
获取目标网页的html文件;
根据所述html文件,获取所述html文件中与每个页面元素对应的第一标识信息,所述第一标识信息包括:所述页面元素的类型和第一标识,所述第一标识用于唯一指示所述页面元素,且所述第一标识基于html格式;
根据目标格式,对所述第一标识进行处理,获得基于所述目标格式的第二标识信息,所述第二标识信息包括:所述页面元素的类型、所述第一标识以及与所述第一标识对应的第一预设符;
所述根据所述html文件,获取所述html文件中与每个页面元素对应的第一标识信息,包括:根据CSS Selector的生成规则,对所述html文件进行解析,定位每个页面元素,获取每个页面元素对应的第一标识信息;
若所述html文件中的N个页面元素不存在第一标识但存在第一属性,根据所述html文件,获取在所述N个页面元素中与每个元素对应的第一属性信息,所述第一属性信息包括:所述N个页面元素中每个页面元素的类型和所述第一属性,所述第一属性用于指示所述N个页面元素中的每个页面元素,且所述第一属性基于html格式;
若多个页面元素的第一属性相同,则分别获取所述多个页面元素的父级页面元素的第二标识; 则根据目标格式,对所述第二标识进行处理,获取基于所述目标格式的第二标识信息,所述第二标识信息还包括:所述第二标识、与所述第二标识对应的第一预设符以及所述页面元素属于所述父级页面元素的代数;
若多个页面元素的第一属性相同且当多个页面元素的父级页面元素没有对应的标识值,则分别获取所述多个页面元素的父级页面元素的第二属性; 则根据目标格式,对所述第二属性进行处理,获取基于所述目标格式的第二标识信息,所述第二标识信息还包括:所述第二属性、与所述第二属性对应的第二预设符。
2.根据权利要求1所述的方法,其特征在于,还包括:
所述第二标识信息还包括:所述第一属性以及与所述第一属性对应的第二预设符。
3.根据权利要求1或2所述的方法,其特征在于,还包括:
存储目标页面的第二标识信息;
根据存储的目标页面的第二标识信息,生成文件。
4.根据权利要求3所述的方法,其特征在于,所述根据存储的目标页面的第二标识信息,生成文件之前,还包括:
从存储的目标页面的第二标识信息中,选择需要的页面元素对应的第二标识信息;
所述根据存储的目标页面的第二标识信息,生成文件,包括:
根据选择的第二标识信息,生成文件。
5.根据权利要求1所述的方法,其特征在于,获取目标网页的html文件,包括:
获取所述目标网页的统一资源定位系统URL,并根据所述URL,获取所述html文件。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京创鑫旅程网络技术有限公司,未经北京创鑫旅程网络技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911407963.2/1.html,转载请声明来源钻瓜专利网。