[发明专利]不良网站检测方法及设备有效
申请号: | 201210104059.6 | 申请日: | 2012-04-10 |
公开(公告)号: | CN102663093A | 公开(公告)日: | 2012-09-12 |
发明(设计)人: | 洪博;耿光刚;王利明 | 申请(专利权)人: | 中国科学院计算机网络信息中心 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 北京同立钧成知识产权代理有限公司 11205 | 代理人: | 陈鸣 |
地址: | 100190 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 不良 网站 检测 方法 设备 | ||
技术领域
本发明涉及信息处理技术,尤其涉及一种不良网站检测方法及设备,属于网络安全技术领域。
背景技术
随着网络技术的逐渐发展,网页已成为人们获取各类信息的重要途径。然而大量色情网站的出现,不仅影响了网络环境,更时刻威胁网民特别是青少年网民的身心健康,所以如何能够快速、准确的对色情网站进行检测已成为色情网站检测领域的一个重要课题。
现有色情网页检测技术主要采取网页URL黑名单过滤技术和网页页面内容检测技术。网页URL黑名单过滤技术主要是根据色情网页URL中可能出现的敏感特征词和已获知的色情网页URL建立黑名单,并根据黑名单对网络监测、用户举报等方式提供的可疑色情网页的URL进行检测。网页页面内容检测主要是针对网页内面内容,如文本、图片、音频、视频等进行全面检测。
在实际应用中,网页URL黑名单过滤技术因需要预先建立黑名单,所以对于新产生的色情词汇、色情网页的检测有一定的滞后性,而网页页面内容检测技术,由于对图片、音频、视频的识别技术本身还不成熟,所以总体检测误差较大,并且由于处理元素较多,导致计算量大,检测效率较低。因此,基于目前的色情网页检测技术,无法实现快速、准确的色情网页检测。
发明内容
针对现有技术中的缺陷,本发明提供一种不良网页检测方法及设备,用以实现快速、准确的不良网页检测。
根据本发明的一方面,提供一种不良网页检测方法,包括:
对待检测网页进行分词处理,获取所述待检测网页的分词数据;
根据所述分词数据和预先获取的至少一个不良网页特征词,获取所述待检测网页的不良网页特征词;
根据与所述待检测网页的不良网页特征词对应的不良网页概率值,获取所述待检测网页的不良网页判定概率;
若所述不良网页判定概率大于第一预定阈值,则判定所述待检测网页为不良网页。
进一步地,在上述不良网页检测方法中,所述根据所述分词数据和预先获取的至少一个不良网页特征词,获取所述待检测网页的不良网页特征词的步骤之前,还包括:
获取不良网页特征词列表,所述不良网页特征词列表包括所述预先获取的不良网页特征词,以及分别与各预先获取的不良网页特征词对应的不良网页概率值;
相应地,所述根据所述分词数据和预先获取的至少一个不良网页特征词,获取所述待检测网页的不良网页特征词的步骤具体包括:
将所述分词数据与预先获取的不良网页特征词列表进行匹配,获取所述分词数据包括的不良网页特征词。
进一步地,在上述不良网页检测方法中,所述获取不良网页特征词列表的步骤具体包括:
获取不良网页样本集和正常网页样本集;
对所述正常网页样本集中各正常网页样本进行分词处理,获取各正常网页样本的分词数据,对所述各正常网页样本的分词数据进行词频-反文档频率统计,并根据所述词频-反文档频率的统计值获取预定数量的不良网页特征词;
对所述不良网页样本集中各不良网页样本进行分词处理,获取各不良网页样本的分词数据;
获取所述预定数量的不良网页特征词中,各不良网页特征词在所述正常网页样本的分词数据中出现的第一概率,以及在所述不良网页样本的分词数据中出现的第二概率,并根据所述第一概率和所述第二概率获取各不良网页特征词对应的不良网页概率值;
根据所述预定数量的不良网页特征词和与各不良网页特征词对应的所述不良网页概率值,生成所述不良网页特征词列表。
进一步地,在上述不良网页检测方法中,所述若所述不良网页判定概率大于第一预定阈值,则判定所述待检测网页为不良网页的步骤具体包括:
若所述不良网页判定概率大于第一预定阈值,获取各所述待检测网页的不良网页特征词的总字符长度与所述待检测网页的字符长度的比值;
若所述比值大于第二预定阈值,则判定所述待检测网页为不良网页。
进一步地,在上述不良网页检测方法中,所述若所述比值大于第二预定阈值,则判定所述待检测网页为不良网页具体包括:
若所述比值大于第二预定阈值,获取所述待检测网页的网页级别;
若所述网页级别不大于第三预定阈值,则判定所述待检测网页为不良网页。
根据本发明的另一方面,提供一种不良网页检测设备,包括:
第一处理模块,用于对待检测网页进行分词处理,获取所述待检测网页的分词数据;
第二处理模块,用于根据所述分词数据和预先获取的至少一个不良网页特征词,获取所述待检测网页的不良网页特征词;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院计算机网络信息中心,未经中国科学院计算机网络信息中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210104059.6/2.html,转载请声明来源钻瓜专利网。