[发明专利]不良网站检测方法及设备有效

申请号：	201210104059.6	申请日：	2012-04-10
公开（公告）号：	CN102663093A	公开（公告）日：	2012-09-12
发明（设计）人：	洪博;耿光刚;王利明	申请（专利权）人：	中国科学院计算机网络信息中心
主分类号：	G06F17/30	分类号：	G06F17/30;G06F17/27
代理公司：	北京同立钧成知识产权代理有限公司 11205	代理人：	陈鸣
地址：	100190 ***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	不良网站检测方法设备
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及信息处理技术，尤其涉及一种不良网站检测方法及设备，属于网络安全技术领域。

背景技术

随着网络技术的逐渐发展，网页已成为人们获取各类信息的重要途径。然而大量色情网站的出现，不仅影响了网络环境，更时刻威胁网民特别是青少年网民的身心健康，所以如何能够快速、准确的对色情网站进行检测已成为色情网站检测领域的一个重要课题。

现有色情网页检测技术主要采取网页URL黑名单过滤技术和网页页面内容检测技术。网页URL黑名单过滤技术主要是根据色情网页URL中可能出现的敏感特征词和已获知的色情网页URL建立黑名单，并根据黑名单对网络监测、用户举报等方式提供的可疑色情网页的URL进行检测。网页页面内容检测主要是针对网页内面内容，如文本、图片、音频、视频等进行全面检测。

在实际应用中，网页URL黑名单过滤技术因需要预先建立黑名单，所以对于新产生的色情词汇、色情网页的检测有一定的滞后性，而网页页面内容检测技术，由于对图片、音频、视频的识别技术本身还不成熟，所以总体检测误差较大，并且由于处理元素较多，导致计算量大，检测效率较低。因此，基于目前的色情网页检测技术，无法实现快速、准确的色情网页检测。

发明内容

针对现有技术中的缺陷，本发明提供一种不良网页检测方法及设备，用以实现快速、准确的不良网页检测。

根据本发明的一方面，提供一种不良网页检测方法，包括：

对待检测网页进行分词处理，获取所述待检测网页的分词数据；

根据所述分词数据和预先获取的至少一个不良网页特征词，获取所述待检测网页的不良网页特征词；

根据与所述待检测网页的不良网页特征词对应的不良网页概率值，获取所述待检测网页的不良网页判定概率；

若所述不良网页判定概率大于第一预定阈值，则判定所述待检测网页为不良网页。

进一步地，在上述不良网页检测方法中，所述根据所述分词数据和预先获取的至少一个不良网页特征词，获取所述待检测网页的不良网页特征词的步骤之前，还包括：

获取不良网页特征词列表，所述不良网页特征词列表包括所述预先获取的不良网页特征词，以及分别与各预先获取的不良网页特征词对应的不良网页概率值；

相应地，所述根据所述分词数据和预先获取的至少一个不良网页特征词，获取所述待检测网页的不良网页特征词的步骤具体包括：

将所述分词数据与预先获取的不良网页特征词列表进行匹配，获取所述分词数据包括的不良网页特征词。

进一步地，在上述不良网页检测方法中，所述获取不良网页特征词列表的步骤具体包括：