[发明专利]一种基于干扰特征的关键词识别方法及装置在审

申请号：	202011244265.8	申请日：	2020-11-10
公开（公告）号：	CN112364153A	公开（公告）日：	2021-02-12
发明（设计）人：	万志勇;林壮源;张裕桥	申请（专利权）人：	中数通信息有限公司
主分类号：	G06F16/335	分类号：	G06F16/335;G06F16/332
代理公司：	北京知汇林知识产权代理事务所(普通合伙) 11794	代理人：	董涛
地址：	510507 广东省***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于干扰特征关键词识别方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请公开了一种基于干扰特征的关键词识别方法及装置，属于信息安全领域，所述方法包括：建立敏感词数据库以及关键词组合规则；将待测试文本输入到敏感词数据库以及关键词组合规则中，进行匹配；得到匹配结果并输出。所述装置包括：建立数据库及规则模块、匹配模块以及输出模块；本申请最大限度的降低关键词过滤的误检率。与传统关键词识别算法对比，干扰特征的关键词算法具备更好的抗干扰能力。能够过滤一些利用变形字、噪音、普通词汇来发送的不良信息，提高关键词过滤效果。

技术领域

本发明属于信息安全领域，具体涉及一种基于干扰特征的关键词识别方法及装置。

背景技术

2013年以来，不良信息呈现大规模泛滥的态势，出现了大量不良文本信息，这些不良信息包括淫秽、色情、暴力等低俗信息；赌博、犯罪等技能教唆信息；毒品、违禁药品、刀具枪械、监听器、假证件、发票等管制品买卖信息；虚假股票、信用卡、彩票等诈骗信息，以及网络销赃等多方面内容。2018年来，有一些人利用噪音和普通词汇发送或发布不良信息行为，对这些利用噪音和普通词汇发送不良文本进行过滤是一个很大的问题。

现有的检测不良文本信息的方式是基于“敏感”词汇列表的来进行检测的。首先将之前定义为“敏感”词汇设为关键词存入数据库，后续将待检测的文本集进行关键词匹配，若待检测的文本集中含有列表中的“敏感”词汇的，则认为该文本集中含有不良信息。这种检测方式比较简单，但这种方式存在着不足，首先定义“敏感”词汇的力度，小的话容易漏过滤，大的话容易造成误判。其次，用户为了避免信息被过滤，往往会对“敏感”词汇中间进行加噪音处理，而这种词汇变形的数据是无穷的。

现有技术中存在敏感词误判以及敏感词加噪后无法滤除的问题，目前尚未提出有效的解决方案。

发明内容

为解决现有技术中的不足，本申请提出一种基于干扰特征的关键词识别方法及装置，最大限度的降低关键词过滤的误检率。

一种基于干扰特征的关键词识别方法，包括如下步骤：

建立敏感词数据库以及关键词组合规则；

将待测试文本输入到敏感词数据库以及关键词组合规则中，进行匹配；

得到匹配结果并输出。

所述建立敏感词库以及关键词组合规则，包括如下步骤：

用户输入规则；

根据用户输入规则提取出关键词以及关键词组合规则；

根据所提取的关键词进行变异扩充，得到敏感词数据库；

输出敏感词数据库以及关键词组合规则。