[发明专利]一种基于干扰特征的关键词识别方法及装置在审
申请号: | 202011244265.8 | 申请日: | 2020-11-10 |
公开(公告)号: | CN112364153A | 公开(公告)日: | 2021-02-12 |
发明(设计)人: | 万志勇;林壮源;张裕桥 | 申请(专利权)人: | 中数通信息有限公司 |
主分类号: | G06F16/335 | 分类号: | G06F16/335;G06F16/332 |
代理公司: | 北京知汇林知识产权代理事务所(普通合伙) 11794 | 代理人: | 董涛 |
地址: | 510507 广东省*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 干扰 特征 关键词 识别 方法 装置 | ||
1.一种基于干扰特征的关键词识别方法,其特征在于,所述方法包括以下步骤:
建立敏感词数据库以及关键词组合规则;
将待测试文本输入到敏感词数据库以及关键词组合规则中,进行匹配;
得到匹配结果并输出。
2.根据权利要求1所述的基于干扰特征的关键词识别方法,其特征在于:
所述建立敏感词库以及关键词组合规则,包括如下步骤:
用户输入规则;
根据用户输入规则提取出关键词以及关键词组合规则;
根据所提取的关键词进行变异扩充,得到敏感词数据库;
输出敏感词数据库以及关键词组合规则。
3.根据权利要求1所述的基于干扰特征的关键词识别方法,其特征在于:
所述将待测试文本输入到敏感词数据库以及关键词组合规则中,进行匹配,过程如下:
输入待测试文本;
提取所述待测试文本的关键词;
判断所述关键词是否与敏感词数据库能够匹配;
若匹配,则所述关键词为敏感关键词,需过滤掉;
若不匹配,则判断所述关键词是否与敏感特征词数据库能够匹配;若不匹配,则所述关键词不是敏感关键词,则不需过滤;若匹配,则判断所述关键词中是否存在噪音;
若不存在噪音,则所述关键词不是敏感关键词,则不需过滤;
若存在噪音,则所述关键词是具有干扰信息的关键词,需过滤掉。
4.根据权利要求1所述的基于干扰特征的关键词识别方法,其特征在于:
所述判断所述关键词中是否存在噪音,过程如下:
记录所述关键词的第一个字符,为对应的原始内容索引;
记录所述关键词的最后一个字符,为对应的原始内容最后一个字符索引;
判断两个索引之差是否大于关键词因子的字符数;
若大于,则所述关键词为具有干扰信息的关键词,需滤除掉;
若不大于,则所述关键词不是敏感关键词,则不需过滤。
5.一种基于干扰特征的关键词识别装置,其特征在于:采用所述的基于干扰特征的关键词识别方法实现,包括:建立数据库及规则模块、匹配模块以及输出模块;
所述建立数据库及规则模块、匹配模块以及输出模块依次顺序连接;
所述建立数据库及规则模块,用于建立敏感词数据库以及关键词组合规则;
所述匹配模块,用于将待测试文本输入到敏感词数据库以及关键词组合规则中,进行匹配;
所述输出模块,用于得到匹配结果并输出。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中数通信息有限公司,未经中数通信息有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011244265.8/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种超级计算机架构实现方法
- 下一篇:一种保健品制粒机