[发明专利]基于DFA算法的敏感词过滤方法及系统在审
申请号: | 202110338568.4 | 申请日: | 2021-03-30 |
公开(公告)号: | CN113157904A | 公开(公告)日: | 2021-07-23 |
发明(设计)人: | 肖景海;廖先林;徐瀚昌 | 申请(专利权)人: | 北京优医达智慧健康科技有限公司 |
主分类号: | G06F16/335 | 分类号: | G06F16/335;G06F16/31 |
代理公司: | 北京冠和权律师事务所 11399 | 代理人: | 朱健 |
地址: | 100000 北京市丰台区卢沟桥*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 dfa 算法 敏感 过滤 方法 系统 | ||
本发明提供了一种基于DFA算法的敏感词过滤方法及系统,其中,敏感词过滤方法包括:将敏感词进行汇总,构建敏感词库;基于敏感词库生成敏感词查找树;将待检索文本内容按照文字顺序在敏感词查找树中检索,得到文字内容中包含的全部敏感词。因此,本发明提出一种基于DFA算法的敏感词过滤方法及系统,通过构建一个敏感词库,使用DAF算法,快速检查文字信息中是否存在敏感词汇,实现敏感词过滤,还可以找出其中的敏感词汇,帮助用户修改调整。
技术领域
本发明涉及信息过滤技术领域,特别涉及一种基于DFA算法的敏感词过滤方法及系统。
背景技术
随着互联网的日益普及和不断深入,通过网络、人们可以看到越来越多的言论文章,同时、其本身发布的言论文章也会被越来越多的人看到。控制这些言论文章的质量,确保其中没有敏感词汇、在互联网上的传播和扩散不会影响社会的稳定和用户的使用,就显得尤为必要。以往,发布言论文章的场景有限,对它们的扩散延迟性也没有什么要求,所以多采用管理员检查后再传播的方式,一些门户网站的评论留言就是采用这种方式。如今,发布文字信息的场景愈加广泛,如留言、弹幕、评论、即时通讯等,而且对这些文字信息的及时传播扩散也有了更多要求,一个能够在发布上传前即可快速完成检查的处理方式显得尤为重要。
现有技术方案在检查敏感词的时候,需要逐个取出敏感词,检索文字内容里是否包含,该处理需要检查到文字内容里的每个文字,而且,面对敏感词很多、文字内容很长情况时,这种过滤方式需要花费大量时间去完成检索,如果过滤要求是提示全部敏感词,则需要完完整整的对每个敏感词进行检索处理,时间花费就会更多。因此,本发明提出一种基于DFA算法的敏感词过滤方法,通过构建一个敏感词库,使用DAF算法(确定有穷自动机,Deterministic Finite Automaton),快速检查文字信息中是否存在敏感词汇,实现敏感词过滤,还可以找出其中的敏感词汇,帮助用户修改调整。
发明内容
本发明的目的在于提供一种基于DFA算法的敏感词过滤方法,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:一种基于DFA算法的敏感词过滤方法,包括:
将敏感词进行汇总,构建敏感词库;
基于所述敏感词库生成敏感词查找树;
将待检索文本内容按照文字顺序在所述敏感词查找树中检索,得到所述文字内容中包含的全部敏感词。
进一步地,所述基于所述敏感词库生成敏感词查找树,包括:
检查所述敏感词库;判断所述敏感词库中是否存在未处理敏感词;
当所述敏感词库中不存在未处理敏感词时,敏感词查找树构建完成;
当所述敏感词库中存在未处理敏感词时,将未处理敏感词取出,并针对取出的未处理敏感词进行二次检查。
进一步地,所述针对取出的未处理敏感词进行二次检查时,当未处理敏感词存在多个时,将未处理敏感词逐一进行二次检查。
进一步地,所述针对取出的未处理敏感词进行二次检查时,判断所述未处理敏感词中是否存在未处理敏感字符;当所述未处理敏感词中存在未处理敏感字符时,将所述未处理敏感词中的下一个字符取出,在敏感词查找树的树根节点中检查是否存在以所述字符为标识的子树,如果不存在以所述字符为标识的子树,则创建一个以所述字符为标识的子树;如果存在以所述字符为标识的子树,则将以所述字符为标识的子树作为新的查找树。
进一步地,所述将待检索文本内容按照文字顺序在所述敏感词查找树中检索,包括:
检查待检索文本内容;判断所述待检索文本内容中是否存在未处理字符;
当所述待检索文本内容中存在未处理字符时,将所述未处理字符的下一个字符取出;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京优医达智慧健康科技有限公司,未经北京优医达智慧健康科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110338568.4/2.html,转载请声明来源钻瓜专利网。