[发明专利]页面检测的方法和装置有效
申请号: | 201710402929.0 | 申请日: | 2017-06-01 |
公开(公告)号: | CN107329981B | 公开(公告)日: | 2021-05-25 |
发明(设计)人: | 苟健 | 申请(专利权)人: | 北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司 |
主分类号: | G06F16/951 | 分类号: | G06F16/951;G06F40/14 |
代理公司: | 中原信达知识产权代理有限责任公司 11219 | 代理人: | 张一军;姜劲 |
地址: | 100195 北京市海淀区杏石口路6*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 页面 检测 方法 装置 | ||
本发明公开了页面检测的方法和装置,涉及计算机技术领域。该方法的一具体实施方式包括:基于爬虫技术抓取页面信息;利用正则匹配技术和图形分析技术根据页面检测规则对所述页面信息进行检测,以得到页面检测结果。该实施方式实现了对页面内容的自动分析监控,提高了检测效率及准确率。
技术领域
本发明涉及计算机技术领域,尤其涉及一种页面检测的方法和装置。
背景技术
网页是一个包含超文本标记语言(HTML)标签的纯文本文件,它可以存放在世界某个角落的某一台计算机中,是万维网中的一“页”,网页可以是商品详情页、新闻页面、知识分享性页面等。
通常,各网络平台对页面都有一些具体要求,在页面发布前,需要按规定对页面进行审核,在页面发布后,也需要经常对页面进行抽查。例如对于商品详情页,在内容上需要检测每类商品的名称、商品简介、图片的内容、二维码规则等内容。
现有技术中,对页面的审核通常包括首次审核和后续抽查审核,分别采用如下两种方案:
首次审核:在页面发布前,用文本关键字对页面进行过滤,即对如商品名称、详情介绍等内容进行敏感词过滤;
后续抽查审核:在页面发布后,通过人工抽检页面,查看其名称、简介、图片或二维码等信息是否符合规定。
在实现本发明过程中,发明人发现现有技术中至少存在如下问题:
无论是首次审核还是后续抽查审核,除了文本等少数可以经机器自动过滤敏感词的信息外,对于页面发布的其他大部分信息,如众多图片、二维码等审核需要依靠人工参与审核,费时费力且效率及准确率极低。
发明内容
有鉴于此,本发明实施例提供一种页面检测的方法和装置,能够解决对于页面检测需要依靠人工参与审核,费时费力且效率及准确率极低的技术问题。
为实现上述目的,根据本发明实施例的一个方面,提供了一种页面检测的方法。
本发明实施例的一种页面检测的方法包括:基于爬虫技术抓取页面信息;利用正则匹配技术和图形分析技术根据页面检测规则对所述页面信息进行检测,以得到页面检测结果。
可选地,基于爬虫技术抓取页面信息包括:基于所述爬虫技术获取页面的超文本标记语言文件信息,分析所述超文本标记语言文件信息得到文本信息和图案信息。
可选地,所述页面检测规则包括页面布局规则、文本规则和图案规则。
可选地,根据页面检测规则对所述页面信息进行检测包括:利用所述正则匹配技术根据所述文本规则对所述文本信息进行检测;利用所述图形分析技术根据所述图案规则对所述图案信息进行检测;以及根据所述页面布局规则对所述超文本标记语言文件信息进行检测。
可选地,所述图形分析技术是OpenCV分析技术。
为实现上述目的,根据本发明实施例的另一方面,提供了一种页面检测的装置。
本发明实施例的一种页面检测的装置包括:抓取模块,用于基于爬虫技术抓取页面信息;检测模块,用于利用正则匹配技术和图形分析技术根据页面检测规则对所述页面信息进行检测,以得到页面检测结果。
可选地,所述抓取模块还用于:基于所述爬虫技术获取页面的超文本标记语言文件信息,分析所述超文本标记语言文件信息得到文本信息和图案信息。
可选地,所述页面检测规则包括页面布局规则、文本规则和图案规则。
可选地,所述检测模块还用于:利用所述正则匹配技术根据所述文本规则对所述文本信息进行检测;利用所述图形分析技术根据所述图案规则对所述图案信息进行检测;以及根据所述页面布局规则对所述超文本标记语言文件信息进行检测。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司,未经北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710402929.0/2.html,转载请声明来源钻瓜专利网。