[发明专利]表单识别方法和装置有效
申请号: | 201210529911.4 | 申请日: | 2012-12-10 |
公开(公告)号: | CN103034711A | 公开(公告)日: | 2013-04-10 |
发明(设计)人: | 蔡磊;张骏;万振;傅盛;徐鸣;王昆 | 申请(专利权)人: | 北京金山安全软件有限公司;北京金山网络科技有限公司;贝壳网际(北京)安全技术有限公司;可牛网络技术(北京)有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F9/445 |
代理公司: | 北京康信知识产权代理有限责任公司 11240 | 代理人: | 吴贵明;张永明 |
地址: | 100022 北京市朝阳*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 表单 识别 方法 装置 | ||
技术领域
本发明涉及数据处理领域,具体而言,涉及一种表单识别方法和装置。
背景技术
双核浏览器,即有两个内核的浏览器,包括Trident内核与Webkit内核。Trident内核为网页浏览器(Internet Explorer,简称IE)所使用,IE浏览器在国内普及率非常高,很多网站只考虑兼容IE,而不符合万维网联盟(World Wide Web Consortium,简称W3C)标准,例如网银,在线支付类网站。Webkit内核对W3C标准支持的很完善,同时具有高速的特点。Trident内核的兼容性加Webkit内核的高速,双核浏览器满足了不同的用户需求。现有技术中,Trident内核与Webkit内核的双核表单识别采用了针对超文本标记语言(Hypertext Markup Language,简称HTML)网页中form表单进行识别,具体识别方式是当用户在页面中填入表单信息,点击提交按钮,执行提交事件后,通过执行提交事件的结果来判断表单是否提交成功。如果表单提交成功,则将表单数据存储在数据库中,数据库中会存储表单中的多个字段,视为一个成功的表单信息,通过上述描述可以看出,现有技术中在对表单进行识别时需要对提交成功后的表单中的多个字段进行判断,在多个字段均满足条件的情况下才能达到对表单的识别,此种需要对表单中多个字段进行识别的方式不仅会造成表单识别率降低,在后续用户对表单进行填写时,仍然需要对数据库中的多个字段分别进行匹配才能判断出用户正在填写的表单是否为当前网页表单,只有在判断出为当前表单时才可正常填写,造成不方便用户操作,用户体验度降低。
针对相关技术中表单识别率较低的问题,目前尚未提出有效的解决方案。
发明内容
本发明的主要目的在于提供一种表单识别方法和装置,以解决现有技术中表单识别率较低的问题。
为了实现上述目的,根据本发明的一个方面,提供了一种表单识别方法,包括:接收访问指令;加载与访问指令相对应的网页;对加载的网页的网页代码进行扫描;判断扫描到的网页代码中是否包括属性为第一预设属性的元素,其中,第一预设属性对应的元素为密码元素;判断扫描到的网页代码中是否包括属性为第二预设属性的元素,其中,第二预设属性对应的元素为用户名元素;以及若判断出扫描到的网页代码中包括属性为第一预设属性的元素,并且还包括属性为第二预设属性的元素,则确定加载的网页为表单网页。
进一步地,对加载的网页的网页代码进行扫描包括:获取产生访问指令的内核类型;若获取到的内核类型为Trident内核,则注入预设脚本代码至网页代码中以对网页代码进行扫描;以及若获取到的内核类型为Webkit内核,则对网页代码中的DOM树中的input控件进行扫描。
进一步地,在确定加载的网页为表单网页之后,表单识别方法还包括:判断是否接收到触发指令,其中,触发指令用于提交表单网页;以及若判断出接收到触发指令,则确定表单网页为有效表单。
进一步地,在产生访问指令的内核类型为Trident内核时,判断是否接收到触发指令包括:获取网页代码中属性为第三预设属性的元素,得到第一元素,其中,第三预设属性对应的元素为提交事件;复制第一元素,得到第二元素;以第二元素覆盖第一元素;以及判断第二元素是否被执行,若判断出第二元素被执行,则确定接收到触发指令。
进一步地,在产生访问指令的内核类型为Webkit内核时,判断是否接收到触发指令包括:获取网页代码中属性为第三预设属性的元素,得到第一元素,其中,第三预设属性对应的元素为提交事件;以及判断第一元素是否被执行,若判断出第一元素被执行,则确定接收到触发指令。
进一步地,在确定加载的网页为表单网页之后,并且在判断是否接收到触发指令之前,表单识别方法还包括:获取属性为第一预设属性的元素,得到密码元素;获取属性为第二预设属性的元素,得到用户名元素;查询预设数据库以判断密码数据和用户名数据是否均已保存在预设数据库中,其中,密码数据为密码元素对应的数据,用户名数据为用户名元素对应的数据;以及若判断出密码数据和用户名数据均已保存在预设数据库中,则添加密码数据至加载的网页的密码元素中,以及添加用户名数据至加载的网页的用户名元素中。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京金山安全软件有限公司;北京金山网络科技有限公司;贝壳网际(北京)安全技术有限公司;可牛网络技术(北京)有限公司,未经北京金山安全软件有限公司;北京金山网络科技有限公司;贝壳网际(北京)安全技术有限公司;可牛网络技术(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210529911.4/2.html,转载请声明来源钻瓜专利网。