[发明专利]一种页面检测方法、装置和用于页面检测的装置在审
| 申请号: | 202010265008.6 | 申请日: | 2020-04-03 |
| 公开(公告)号: | CN113495837A | 公开(公告)日: | 2021-10-12 |
| 发明(设计)人: | 张静军 | 申请(专利权)人: | 北京搜狗科技发展有限公司 |
| 主分类号: | G06F11/36 | 分类号: | G06F11/36;G06F16/957;G06K9/62;G06N3/04 |
| 代理公司: | 北京润泽恒知识产权代理有限公司 11319 | 代理人: | 郑傲日 |
| 地址: | 100084 北京市海淀区中关*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 页面 检测 方法 装置 用于 | ||
本发明实施例提供了一种页面检测方法、装置和用于页面检测的装置。其中的方法具体包括:获取待检测页面对应的目标图片;将所述目标图片输入乱码检测模型,通过所述乱码检测模型输出所述目标图片中乱码对应的乱码类型和位置信息;其中,所述乱码检测模型为根据批量获取的样本数据训练得到,所述样本数据包括样本图片和所述样本图片对应的标注信息;所述样本图片为对第一页面的源码修改后得到的包含乱码的第二页面截图所得到,所述标注信息包括所述样本图片中乱码对应的乱码类型和位置信息。本发明实施例可以提高检测乱码的效率。
技术领域
本发明涉及计算机技术领域,尤其涉及一种页面检测方法、装置和用于页面检测的装置。
背景技术
为保证网站的可用性与稳定性,通常需要对网站的页面进行异常检测,如检测页面是否存在乱码,以确保及时发现网站页面的异常,减少对用户的影响。所述乱码指网页中的字符被不当编码后形成的无法阅读的字符。
目前,对于页面中的乱码,可以通过预先建立的编码区间或者乱码库进行检测。具体地,使用编码区间检测乱码的过程可以如下:首先从页面中识别出所有的字符,然后对识别出的字符按字划分得到文字集合,最后使用编码区间筛选出该文字集合中的未知文字,即为乱码。其中,可以根据UTF8的编码集,预先建立各种语言的文字(如英文、日文、中文等等)对应的编码区间。
使用乱码库检测乱码的过程可以如下:首先从页面中识别出所有的字符,然后遍历页面中的所有字符,将页面中的字符与预先建立的乱码库中的乱码字符进行比对,筛选出页面中的乱码字符。
通过上述两种方法检测页面中的乱码,检测的准确性在很大程度上依赖于预先建立的编码区间或者乱码库。然而,由于不同语言之间具有较大差异,难以保证编码区间或者乱码库覆盖的准确性和完整性,进而影响乱码检测的准确率。此外,建立编码区间或者乱码库的过程较为繁琐,导致乱码检测的成本较高且检测效率较低。
发明内容
本发明实施例提供一种页面检测方法、装置和用于页面检测的装置,可以提高检测页面中乱码的效率和准确率。
为了解决上述问题,本发明实施例公开了一种页面检测方法,所述方法包括:
获取待检测页面对应的目标图片;
将所述目标图片输入乱码检测模型,通过所述乱码检测模型输出所述目标图片中乱码对应的乱码类型和位置信息;其中,所述乱码检测模型为根据批量获取的样本数据训练得到,所述样本数据包括样本图片和所述样本图片对应的标注信息;所述样本图片为对第一页面的源码修改后得到的包含乱码的第二页面截图所得到,所述标注信息包括所述样本图片中乱码对应的乱码类型和位置信息。
另一方面,本发明实施例公开了一种页面检测装置,所述装置包括:
目标获取模块,用于获取待检测页面对应的目标图片;
乱码检测模块,用于将所述目标图片输入乱码检测模型,通过所述乱码检测模型输出所述目标图片中乱码对应的乱码类型和位置信息;其中,所述乱码检测模型为根据批量获取的样本数据训练得到,所述样本数据包括样本图片和所述样本图片对应的标注信息;所述样本图片为对第一页面的源码修改后得到的包含乱码的第二页面截图所得到,所述标注信息包括所述样本图片中乱码对应的乱码类型和位置信息。
再一方面,本发明实施例公开了一种用于页面检测的装置,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
获取待检测页面对应的目标图片;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京搜狗科技发展有限公司,未经北京搜狗科技发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010265008.6/2.html,转载请声明来源钻瓜专利网。





