[发明专利]一种页面检测方法、装置和用于页面检测的装置在审
| 申请号: | 202010265008.6 | 申请日: | 2020-04-03 |
| 公开(公告)号: | CN113495837A | 公开(公告)日: | 2021-10-12 |
| 发明(设计)人: | 张静军 | 申请(专利权)人: | 北京搜狗科技发展有限公司 |
| 主分类号: | G06F11/36 | 分类号: | G06F11/36;G06F16/957;G06K9/62;G06N3/04 |
| 代理公司: | 北京润泽恒知识产权代理有限公司 11319 | 代理人: | 郑傲日 |
| 地址: | 100084 北京市海淀区中关*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 页面 检测 方法 装置 用于 | ||
1.一种页面检测方法,其特征在于,所述方法包括:
获取待检测页面对应的目标图片;
将所述目标图片输入乱码检测模型,通过所述乱码检测模型输出所述目标图片中乱码对应的乱码类型和位置信息;其中,所述乱码检测模型为根据批量获取的样本数据训练得到,所述样本数据包括样本图片和所述样本图片对应的标注信息;所述样本图片为对第一页面的源码修改后得到的包含乱码的第二页面截图所得到,所述标注信息包括所述样本图片中乱码对应的乱码类型和位置信息。
2.根据权利要求1所述的方法,其特征在于,所述将所述目标图片输入乱码检测模型之前,所述方法还包括:
根据预设的乱码类型,修改第一页面的源码,得到包含乱码的第二页面;
对所述第一页面对应的第一图片和所述第二页面对应的第二图片进行匹配,确定所述第二图片中的乱码的位置信息;
根据所述第二图片中的乱码对应的乱码类型和位置信息,生成所述第二图片对应的标注信息;
将批量的第二图片以及第二图片对应的标注信息作为样本数据,训练乱码检测模型。
3.根据权利要求2所述的方法,其特征在于,所述根据预设的乱码类型,修改第一页面的源码,得到包含乱码的第二页面,包括:
对所述第一页面的源码进行解析,得到所述第一页面的文本结构信息;
根据所述第一页面的文本结构信息,在所述第一页面的源码中随机确定目标源码片段;
根据所述预设的乱码类型,修改所述目标源码片段,得到第二页面。
4.根据权利要求2所述的方法,其特征在于,所述对所述第一页面对应的第一图片和所述第二页面对应的第二图片进行匹配,确定所述第二图片中的乱码的位置信息,包括:
采用边缘检测技术,分别识别出所述第一图片和所述第二图片中的结构化元素;
对所述第一图片和所述第二图片中的结构化元素进行逐一比对,确定第二图片与第一图片中相应位置的不匹配的结构化元素为目标元素;
将所述目标元素对应的区域图像与所述第二图片进行匹配,得到所述目标元素在所述第二图片中的位置信息;
确定所述目标元素在所述第二图片中的位置信息为所述第二图片中的乱码的位置信息。
5.根据权利要求4所述的方法,其特征在于,所述对所述第一图片和所述第二图片中的结构化元素进行逐一比对之后,所述方法还包括:
若确定所述第二图片中的结构化元素与所述第一图片中的结构化元素全部匹配,或者,若确定所述第二图片中与所述第一图片中不匹配的结构化元素的个数超过预设数值,则确定所述第二图片为失败图片。
6.根据权利要求2所述的方法,其特征在于,所述根据所述第二图片中的乱码对应的乱码类型和位置信息,生成所述第二图片对应的标注信息,包括:
将所述第二图片中的乱码对应的乱码类型和位置信息写入预置文件,生成所述第二图片对应的标注文件。
7.根据权利要求1所述的方法,其特征在于,所述乱码检测模型包括第一网络和第二网络,所述将所述目标图片输入乱码检测模型,通过所述乱码检测模型输出所述目标图片中乱码文本对应的乱码类型和位置信息,包括:
将所述目标图片输入所述第一网络,以通过所述第一网络对所述目标图片进行图像分割,输出所述目标图片中的文本区域图像;
将所述文本区域图像输入所述第二网络,以通过所述第二网络对所述文本区域图像进行乱码检测,输出乱码检测结果,所述乱码检测结果包括:所述文本区域图像中是否包含乱码,以及乱码对应的乱码类型和位置信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京搜狗科技发展有限公司,未经北京搜狗科技发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010265008.6/1.html,转载请声明来源钻瓜专利网。





