[发明专利]一种基于干扰特征的关键词识别方法及装置在审
申请号: | 202011244265.8 | 申请日: | 2020-11-10 |
公开(公告)号: | CN112364153A | 公开(公告)日: | 2021-02-12 |
发明(设计)人: | 万志勇;林壮源;张裕桥 | 申请(专利权)人: | 中数通信息有限公司 |
主分类号: | G06F16/335 | 分类号: | G06F16/335;G06F16/332 |
代理公司: | 北京知汇林知识产权代理事务所(普通合伙) 11794 | 代理人: | 董涛 |
地址: | 510507 广东省*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 干扰 特征 关键词 识别 方法 装置 | ||
本申请公开了一种基于干扰特征的关键词识别方法及装置,属于信息安全领域,所述方法包括:建立敏感词数据库以及关键词组合规则;将待测试文本输入到敏感词数据库以及关键词组合规则中,进行匹配;得到匹配结果并输出。所述装置包括:建立数据库及规则模块、匹配模块以及输出模块;本申请最大限度的降低关键词过滤的误检率。与传统关键词识别算法对比,干扰特征的关键词算法具备更好的抗干扰能力。能够过滤一些利用变形字、噪音、普通词汇来发送的不良信息,提高关键词过滤效果。
技术领域
本发明属于信息安全领域,具体涉及一种基于干扰特征的关键词识别方法及装置。
背景技术
2013年以来,不良信息呈现大规模泛滥的态势,出现了大量不良文本信息,这些不良信息包括淫秽、色情、暴力等低俗信息;赌博、犯罪等技能教唆信息;毒品、违禁药品、刀具枪械、监听器、假证件、发票等管制品买卖信息;虚假股票、信用卡、彩票等诈骗信息,以及网络销赃等多方面内容。2018年来,有一些人利用噪音和普通词汇发送或发布不良信息行为,对这些利用噪音和普通词汇发送不良文本进行过滤是一个很大的问题。
现有的检测不良文本信息的方式是基于“敏感”词汇列表的来进行检测的。首先将之前定义为“敏感”词汇设为关键词存入数据库,后续将待检测的文本集进行关键词匹配,若待检测的文本集中含有列表中的“敏感”词汇的,则认为该文本集中含有不良信息。这种检测方式比较简单,但这种方式存在着不足,首先定义“敏感”词汇的力度,小的话容易漏过滤,大的话容易造成误判。其次,用户为了避免信息被过滤,往往会对“敏感”词汇中间进行加噪音处理,而这种词汇变形的数据是无穷的。
现有技术中存在敏感词误判以及敏感词加噪后无法滤除的问题,目前尚未提出有效的解决方案。
发明内容
为解决现有技术中的不足,本申请提出一种基于干扰特征的关键词识别方法及装置,最大限度的降低关键词过滤的误检率。
一种基于干扰特征的关键词识别方法,包括如下步骤:
建立敏感词数据库以及关键词组合规则;
将待测试文本输入到敏感词数据库以及关键词组合规则中,进行匹配;
得到匹配结果并输出。
所述建立敏感词库以及关键词组合规则,包括如下步骤:
用户输入规则;
根据用户输入规则提取出关键词以及关键词组合规则;
根据所提取的关键词进行变异扩充,得到敏感词数据库;
输出敏感词数据库以及关键词组合规则。
所述将待测试文本输入到敏感词数据库以及关键词组合规则中,进行匹配,过程如下:
输入待测试文本;
提取所述待测试文本的关键词;
判断所述关键词是否与敏感词数据库能够匹配;
若匹配,则所述关键词为敏感关键词,需过滤掉;
若不匹配,则判断所述关键词是否与敏感特征词数据库能够匹配;若不匹配,则所述关键词不是敏感关键词,则不需过滤;若匹配,则判断所述关键词中是否存在噪音;
若不存在噪音,则所述关键词不是敏感关键词,则不需过滤;
若存在噪音,则所述关键词是具有干扰信息的关键词,需过滤掉。
所述判断所述关键词中是否存在噪音,过程如下:
记录所述关键词的第一个字符,为对应的原始内容索引;
记录所述关键词的最后一个字符,为对应的原始内容最后一个字符索引;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中数通信息有限公司,未经中数通信息有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011244265.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种超级计算机架构实现方法
- 下一篇:一种保健品制粒机