[发明专利]基于XPath的网页元素识别方法有效
申请号: | 202010145583.2 | 申请日: | 2020-03-05 |
公开(公告)号: | CN111368241B | 公开(公告)日: | 2023-05-30 |
发明(设计)人: | 龚燕玲;潘宇;汪玉林 | 申请(专利权)人: | 苏州数字力量教育科技有限公司 |
主分类号: | G06F16/958 | 分类号: | G06F16/958;G06F16/951 |
代理公司: | 北京和联顺知识产权代理有限公司 11621 | 代理人: | 吴昌旭 |
地址: | 215000 江苏省苏州市*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 xpath 网页 元素 识别 方法 | ||
1.基于XPath的网页元素识别方法,其特征在于,包括如下步骤:
(1)生成最底层元素属性的XPath;
S101从网页结构最底层提取编程人员选择元素的属性;
S102根据提取出的属性族,生成XPath,根据公式计算生成XPath的总数,
其中C表示组合,n表示总元素数,m表示选择元素数;
S103将此处生成的XPath集合称为T1,共有K条不同的XPath;
(2)寻找能找到目标元素的最具有唯一性的层级,并生成这一层级属性的XPath集合T2;
S104寻找从最底层到第一层出现过的所有属性,并计算每个属性出现的次数;
S105找到出现次数最少属性所在的层级;
S106提取出该层级的所有属性,根据排列组合的方式生成XPath,将此处生成的XPath集合称为T2,共有J条不同的XPath;
(3)将T1和T2里面的XPath结合起来;
S107将T1和T2里面的XPath结合起来,结合之后就有K×J条新的XPath集合;
S108在生成的所有XPath中,删除掉那些不能找到目标元素的XPath,剩下的即为XPath有效集合范围;当XPath有效集合范围内元素数量≥1个时,使用机器视觉识别系统进行校验;当XPath有效集合范围内元素数量为0时,使用机器视觉识别系统作为备用措施,保证流程的继续进行;
所述机器视觉识别系统包括查找单元、图像截取单元、识别单元和控件录制单元,GUI控件的属性信息被预先录制并具有唯一标识;GUI控件为非标准控件,且GUI控件的父窗口为可识别的标准控件;
控件录制单元,适于预先录制GUI控件的属性信息,属性信息包括:GUI控件的父窗口的标题和/或类名,GUI控件相对于父窗口的位置坐标以及GUI控件对应的第一图像;控件录制单元在预先录制GUI控件的属性信息时,具体适于:将鼠标移动到所述GUI控件上,指定图像半径后,捕获鼠标相对于父窗口的坐标作为所述GUI控件相对于父窗口的位置坐标,截取以鼠标位置为中心,图像半径范围内的图像作为所述第一图像;
查找单元,适于根据属性信息中的父窗口标题和/或父窗口类名查找GUI控件所在的父窗口;
图像截取单元,适于根据GUI控件相对于父窗口的位置坐标,截取预设尺寸和位置的第二图像;
识别单元,适于计算所述第二图像与第一图像之间的相似度并根据所述相似度对所述GUI控件进行识别。
2.根据权利要求1所述的基于XPath的网页元素识别方法,其特征在于:步骤S101中,属性包括HTML中的id、name、class。
3.根据权利要求1所述的基于XPath的网页元素识别方法,其特征在于:步骤S101中,属性的数量≥2个。
4.根据权利要求1所述的基于XPath的网页元素识别方法,其特征在于:步骤S105中,该层级出现次数为1。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州数字力量教育科技有限公司,未经苏州数字力量教育科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010145583.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于云计算的互动式教学辅助系统
- 下一篇:一种气冷陶瓷隔热电弧加热器