[发明专利]一种基于确定有穷自动机的敏感词检测方法和系统在审

专利信息
申请号: 201811307089.0 申请日: 2018-11-05
公开(公告)号: CN109446529A 公开(公告)日: 2019-03-08
发明(设计)人: 陈杰 申请(专利权)人: 用友网络科技股份有限公司
主分类号: G06F17/27 分类号: G06F17/27;G06F16/9032
代理公司: 北京中恒高博知识产权代理有限公司 11249 代理人: 陆菊华
地址: 100094 北京*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 敏感词 自动机 敏感词检测 词库 时间效率 敏感 运算量 构建 申请 过滤 匹配 文本 检查
【说明书】:

本申请公开了一种基于确定有穷自动机的敏感词检测方法和系统,所述方法包括:构建敏感词库树;匹配敏感词。与现有技术相比,本申请的技术方案采用对比正则检查方式,其时间效率随着待检文本长度和敏感词库的敏感词数量的增加而大大降低。通过使用确定有穷自动机减少了运算量,大大提高敏感词过滤的效率。

技术领域

一种敏感词检测方法和系统,特别涉及一种基于确定有穷自动机的敏感词检测方法和系统。

背景技术

随着互联网时代的到来,自由、共享、创新的互联网精神深深地影响着人们的生活和工作。互联网用户在网络上可以自由地获取知识、传播思想,而这一过程中最主要的方式是通过文字(互联网上亦称为文本)进行交流。相对于传统信息沟通交流方式(如信件、短信等),由于网络文本服务具有内容丰富、互动性强、实时性强的特点,被越来越多的网络用户使用。

基于文本的网络服务如即时通讯工具、社区论坛、电子商务、博客微博等网络服务已经渗透到社会的各个领域。然而,网民有意或无意会发布一些未经核实或者包含不良内容的信息,这些内容不但违反相关地区国家的法律法规,也极大的损害了公众利益,破坏了互联网环境。为了遵守法律法规和维护净化互联网环境,越来越多的网络服务或应用集成了关键词/敏感词过滤功能,其在网络文本服务中发挥着不可替代的作用。要保证网络文本服务的质量,提高用户的体验,希望网络文本服务平台在提供服务时具有较快的请求响应速度。因此,设计一个高效、准确度高的过滤检查方式是非常重要且必要的。

常见的敏感词检查过滤有以下两种方式。第一种是字典检查方式,这种方式主要将敏感词库的敏感词与待测文本进行逐一匹配,直到匹配完成为止。第二种方式是正则检查方式,这种方式是将敏感词库的所有词组构造成一个正则表达式,然后将正则表达式作用到文本消息,进而进行匹配检查。

字典检查方式需要反复将敏感词库中的敏感词与文本或者文本中可能出现的词组进行对比匹配,这种重复多次执行词库查找匹配大大地增加了时间消耗。对于正则检查方式,其时间效率随着待检文本长度和敏感词库的敏感词数量的增加而大大降低。

发明内容

本申请的目的在于克服上述问题或者至少部分地解决或缓解上述问题。

根据本申请的一个方面,提供了一种基于确定有穷自动机的敏感词检测方法,包括如下步骤:S2:构建敏感词库树;S4:匹配敏感词。

可选地,所述步骤4包括:S41:提取待检测文本中的待检测字符;S42:判断待检测字符是否为干扰词汇,当判断结果为是时,转为步骤下一步,否则返回false;S43:判断该字符在敏感词树中是否还有子节点,当判断结果为是时,转为下一步,否则返回true;S44:提取待检测文本中与待检测字符相邻的下一个字符作为待检测字符,并转为步骤S42。

可选地,所述步骤S2为:读取敏感词库,将敏感词构建成多个树结构;通过确定有穷自动机减少运算,提高敏感词过滤的效率。

可选地,所述步骤S4为:读取需要过滤的文本进行匹配,判断文本中是否存在敏感词。

根据本申请另一方面,提供了一种基于确定有穷自动机的敏感词检测系统,包括:敏感词库树构建装置,用于读取敏感词库,将敏感词构建成多个树结构;通过确定有穷自动机减少运算,提高敏感词过滤的效率;敏感词匹配装置,读取需要过滤的文本进行匹配,判断文本中是否存在敏感词。

根据本申请另一方面,提供了一种计算机设备,包括存储器、处理器和存储在所述存储器内并能由所述处理器运行的计算机程序,所述处理器执行所述计算机程序时实现上述任一项所述的方法。

根据本申请另一方面,提供了一种计算机可读存储介质,优选为非易失性可读存储介质,其内存储有计算机程序,所述计算机程序在由处理器执行时实现上述任一项所述的方法。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于用友网络科技股份有限公司,未经用友网络科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201811307089.0/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top