[发明专利]一种信息安全过滤方法在审
申请号: | 201410711235.1 | 申请日: | 2014-12-01 |
公开(公告)号: | CN104394158A | 公开(公告)日: | 2015-03-04 |
发明(设计)人: | 刘洋 | 申请(专利权)人: | 浪潮电子信息产业股份有限公司 |
主分类号: | H04L29/06 | 分类号: | H04L29/06 |
代理公司: | 济南信达专利事务所有限公司 37100 | 代理人: | 姜明 |
地址: | 250101 山东*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 信息 安全 过滤 方法 | ||
1.一种信息安全过滤方法,其特征在于,其具体实现过程为:
一、设置第一级过滤,即基于Web缓存的地址过滤,利用Web缓存技术在机器空闲或不忙时启动内容分析功能,对网页内容分类识别:使用标题判别引擎或内容判别引擎,根据预先设定的规则对缓存数据进行判断,对提供不良内容的URL进行登记,生成拦截黑名单加入数据库,同时删除缓存的不良网页,在该级将不良网站过滤掉;
二、设置第二级过滤,即基于内容的过滤,该级过滤包括:
文档预处理:对文本进行分词后加权,计算出文本中词的权值;
生成文本特征:根据上述计算的权值大小构造特征词典;
过滤:计算预先收集的满足和不满足过滤需求的两类文本的特征值,根据两类特征值的差异设置该过滤步骤中的阈值,计算得到的阈值用来判断待分析文本的特征值是否超过了该值,以决定是否进行相应的过滤处理,超过该值时,进行过滤。
2.根据权利要求1所述的一种信息安全过滤方法,其特征在于,所述分词为文档预处理的第一步,即将经第一级过滤后待处理的文档转换成词序列后,供信息过滤系统使用,上述分词采用机械匹配法、特征词库法、正向/逆向最大匹配法、抽取中频字串法、邻接约束法、最少分词法中的一种或几种的结合。
3.根据权利要求2所述的一种信息安全过滤方法,其特征在于,所述加权计算为文档预处理的第二步,其具体实现过程为:
将分词后待处理的文档D用一个m维向量表示为:D=(w1,w2,…,wi,…,wm),其中wi表示第i个词的权值;用词频因子与反向文档频度因子之积来计算词的权值,即词的加权函数表示为:Wi=f(wi)*v(wi),其中词频因子f(wi)反映词在文档中出现的频率,反向文档频度因子v(wi)表示词在文档中的重要程度。
4.根据权利要求1所述的一种信息安全过滤方法,其特征在于,所述文档特征的生成包括:
创建特征词典:经过对待处理文档的分词和词的权值计算之后,设置一个门槛值,该值作为构建特征词典的标准,权值高于门槛值的词作为特征词加入到特征词典中;然后根据词的权值大小来决定是否将对应的词加入到特征词典中;
创建好特征词典后,对特征词典中的特征词进行量化,即将其作为属性因子与词的权值进行运算,从而生成文档特征。
5.根据权利要求1-4中任一所述的一种信息安全过滤方法,其特征在于,所述文档经过两级过滤后,系统根据所得到的过滤结果,发送相关反馈给特征词典及特征阈值,以及时改变其大小范围,实现最优的过滤。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浪潮电子信息产业股份有限公司,未经浪潮电子信息产业股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410711235.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种链路层发现协议应用在同步数字体系的方法
- 下一篇:高安全性网络平台
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置