[发明专利]基于动态划分与语义加权的干扰过滤匹配算法有效
申请号: | 201310188412.8 | 申请日: | 2013-05-14 |
公开(公告)号: | CN103336761B | 公开(公告)日: | 2017-09-19 |
发明(设计)人: | 朱永强;江雪 | 申请(专利权)人: | 成都网安科技发展有限公司 |
主分类号: | G06F17/22 | 分类号: | G06F17/22;G06F17/30 |
代理公司: | 北京超凡志成知识产权代理事务所(普通合伙)11371 | 代理人: | 吴开磊 |
地址: | 610092 四川*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于动态划分与语义加权的干扰过滤匹配算法,所述算法包括干扰过滤机生成模块,用于根据当前关键字与字符编码方式,动态生成相对应的干扰过滤机;字符对应干扰权值与干扰阈值求解模块,用于计算当前编码环境下所有编码子集对应的字符干扰权值与总体干扰阈值;匹配算法执行模块,用于使用干扰过滤机,结合干扰权值与干扰阈值,对匹配串进行指定模式串的带干扰过滤的匹配。本算法的特色在于能动态的划分相对干扰信息,且可有效的识别过滤利用交叉码集进行关键字干扰的字符;使用干扰权值来标示干扰字符所携带的信息量,并使用总体干扰阈值来降低干扰过滤匹配可能产生的误报。本发明算法可广泛应用于各类可能存在干扰信息的网络数据与文档的关键字匹配、过滤与内容审计。 | ||
搜索关键词: | 基于 动态 划分 语义 加权 干扰 过滤 匹配 算法 | ||
【主权项】:
一种使用干扰过滤机,结合干扰权值与干扰阈值,对匹配串进行指定模式串的带干扰过滤的匹配方法,其特征在于,所述方法具体为:对匹配串内容进行预处理,将编码统一为Unicode编码方式;根据Unicode编码中不同字符的编码范围,将编码全集划分为若干个编码子集;根据待匹配关键字各个单元的码值范围,确定各个单元所属编码子集,进而通过关键字中所有单元,确定此关键字所使用的所有编码子集;根据编码全集与关键字使用的编码子集,用关键字的全部编码子集对编码全集取补集,得到的补集作为干扰信息码集空间,即对应此关键字的干扰过滤机;根据平均最小语义长度确定干扰过滤过程中何时放弃对连续出现的干扰字符过滤的状态阈值;根据平均最小语义长度确定各编码子集中字符类的所对应的干扰权值;设定阈值为Q,某次匹配中的权值叠加为P,对应某个编码子集k的权值为Lk,则匹配执行过程如下:1)模式串指针指向第一个字符,匹配串指针指向当前匹配位置;2)根据已确定的干扰集,判断当前匹配串指针指向字符是否为干扰字符,如是,则转3),否则转5);3)模式串指针不动,匹配串指针后移一个单元,若此时匹配串已扫描完毕,则转7),否则,对2)中确定干扰字符的干扰权值Lk进行叠加,即计算P=P+Lk;4)判断权值的叠加值是否超过Q,若超过,则转1),否则转2);5)若此时模式串与匹配串指针对应的字符相等,则两个指针同时后移一个单元,若此时模式串指针已经指向模式串最后一个字符单元,则转6),若此时匹配串已扫描完毕,则转7),否则令P=0,转2);若对应字符不相等,则匹配串指针后移一个单元,若此时匹配串已扫描完毕,则转7),否则令P=0,转1);6)发生匹配,记录相应信息,若此时匹配串已扫描完毕,则转7),否则转1);7)所有字符比较完毕,匹配结束。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都网安科技发展有限公司,未经成都网安科技发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201310188412.8/,转载请声明来源钻瓜专利网。
- 上一篇:一种可触摸控制的空调机
- 下一篇:一种升降横移式安全彩色香薰浴霸