[发明专利]基于DFA算法的敏感词过滤方法及系统在审
申请号: | 202110338568.4 | 申请日: | 2021-03-30 |
公开(公告)号: | CN113157904A | 公开(公告)日: | 2021-07-23 |
发明(设计)人: | 肖景海;廖先林;徐瀚昌 | 申请(专利权)人: | 北京优医达智慧健康科技有限公司 |
主分类号: | G06F16/335 | 分类号: | G06F16/335;G06F16/31 |
代理公司: | 北京冠和权律师事务所 11399 | 代理人: | 朱健 |
地址: | 100000 北京市丰台区卢沟桥*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 dfa 算法 敏感 过滤 方法 系统 | ||
1.一种基于DFA算法的敏感词过滤方法,其特征在于,包括:
将敏感词进行汇总,构建敏感词库;
基于所述敏感词库生成敏感词查找树;
将待检索文本内容按照文字顺序在所述敏感词查找树中检索,得到所述文字内容中包含的全部敏感词。
2.根据权利要求1所述的敏感词过滤方法,其特征在于,所述基于所述敏感词库生成敏感词查找树,包括:
检查所述敏感词库;判断所述敏感词库中是否存在未处理敏感词;
当所述敏感词库中不存在未处理敏感词时,敏感词查找树构建完成;
当所述敏感词库中存在未处理敏感词时,将未处理敏感词取出,并针对取出的未处理敏感词进行二次检查。
3.根据权利要求2所述的敏感词过滤方法,其特征在于,所述针对取出的未处理敏感词进行二次检查时,当未处理敏感词存在多个时,将未处理敏感词逐一进行二次检查。
4.根据权利要求3所述的敏感词过滤方法,其特征在于,所述针对取出的未处理敏感词进行二次检查时,判断所述未处理敏感词中是否存在未处理敏感字符;当所述未处理敏感词中存在未处理敏感字符时,将所述未处理敏感词中的下一个字符取出,在敏感词查找树的树根节点中检查是否存在以所述字符为标识的子树,如果不存在以所述字符为标识的子树,则创建一个以所述字符为标识的子树;如果存在以所述字符为标识的子树,则将以所述字符为标识的子树作为新的查找树。
5.根据权利要求1所述的敏感词过滤方法,其特征在于,所述将待检索文本内容按照文字顺序在所述敏感词查找树中检索,包括:
检查待检索文本内容;判断所述待检索文本内容中是否存在未处理字符;
当所述待检索文本内容中存在未处理字符时,将所述未处理字符的下一个字符取出;
根据取出的未处理字符在所述敏感词查找树中查找以所述字符为标识的子树;
当所述敏感词查找树中存在以所述字符为标识的子树时,将所述敏感词查找树中以所述字符为标识的子树更新敏感词查找树;
当所述敏感词查找树中不存在以所述字符为标识的子树时,确定所述敏感词查找树是否为初始敏感词查找树;如果所述敏感词查找树是初始敏感词查找树,则在所述未处理字符后面继续进行检查待检索文本内容;如果所述敏感词查找树不是初始敏感词查找树,则在在初始敏感词查找树到当前敏感词查找树的更新过程中依次进行匹配。
6.根据权利要求5所述的敏感词过滤方法,其特征在于,当所述待检索文本内容中存在未处理字符时,将所述未处理字符的下一个字符取出的过程中,如果所述未处理字符是所述待检索文本内容中的第一个字符,则将所述未处理字符取出。
7.根据权利要求6所述的敏感词过滤方法,其特征在于,所述更新敏感词查找树时,将所述敏感词查找树中以所述字符为标识的子树替换当前的敏感词查找树,进而再在所述待检索文本内容中从所述未处理字符后面继续进行检查,重复在敏感词查找树中进行检索,直至所述待检索文本内容全部完成。
8.一种基于DFA算法的敏感词过滤系统,其特征在于,包括:服务模块、通信模块和过滤模块;所述服务模块包括敏感词数据库以及敏感词查找树,用于提供过滤服务;所述通信模块,用于连接所述服务模块与所述过滤模块之间的通信服务;所述过滤模块,用于根据所述敏感词查找树对待检索文本进行敏感词过滤。
9.根据权利要求8所述的敏感词过滤系统,其特征在于,所述服务模块采用集群部署的方式,所述服务器模块中包含多个敏感词查找树,每个所述敏感词查找树作为一个应用程序,每个应用程序维护一个守护线程。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京优医达智慧健康科技有限公司,未经北京优医达智慧健康科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110338568.4/1.html,转载请声明来源钻瓜专利网。