[发明专利]检测词汇的方法与装置有效
申请号: | 201210361942.3 | 申请日: | 2012-09-25 |
公开(公告)号: | CN102902766A | 公开(公告)日: | 2013-01-30 |
发明(设计)人: | 胡昌玮;李珩;杨贝斯 | 申请(专利权)人: | 中国联合网络通信集团有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/22 |
代理公司: | 北京同立钧成知识产权代理有限公司 11205 | 代理人: | 刘芳 |
地址: | 100033 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 检测 词汇 方法 装置 | ||
技术领域
本发明涉及字符校对技术,尤其涉及一种检测词汇的方法与装置。
背景技术
随着信息的爆炸式增长,信息传递途径越来越多样化,例如可以通过论坛、短信、微博和聊天工具等多种方式传递文本信息。为了防止不良信息的传播,需要对文本信息进行过滤,达到净化信息的目的。
目前对文本信息进行过滤的方式一般是检测并屏蔽敏感词,即采用敏感词库中的词汇对文本信息进行全文匹配,具体做法是把敏感词库中的所有词汇依次对文本信息进行比对,如果词汇被完全包含在文本信息中,就认为该文本信息中包含敏感词,将这些敏感词屏蔽或禁止该文本信息发布。
但是,很多敏感词为了防止被过滤掉,会在敏感词中间夹杂无意义的干扰词汇,以避开敏感词检测。例如,当“救护车”为敏感词时,会将“救护车”写成“救##护##车”的方式以避开敏感词检测。因此,需要一种方法,能够对这些夹杂干扰词汇的敏感词进行有效检测。
发明内容
本发明提供一种检测词汇的方法与装置,以解决现有技术无法检测夹杂干扰词汇的敏感词的缺陷。
本发明第一个方面提供一种检测词汇的方法,包括:
步骤a:提取待检测文本中的待检测字符;
步骤b:判断所述待检测字符是否为干扰词汇,当判断结果为是时,转为步骤c,否则,转为步骤d;
步骤c:提取所述待检测文本中与所述待检测字符相邻的下一个字符作为待检测字符,并转为步骤b;
步骤d:将所述待检测字符作为待组合字符,存储到缓存区;
步骤e:根据所述缓存区中的各待组合字符获取待检测词汇;
步骤f:判断所述待所述检测词汇是否为敏感词。
本发明另一个方面提供一种检测词汇的装置,包括:
第一提取模块,用于提取待检测文本中的待检测字符;
第一判断模块,用于判断所述待检测字符是否为干扰词汇,当判断结果为是时,触发第二提取模块,否则,触发存储模块;
所述第二提取模块,用于提取所述待检测文本中与所述待检测字符相邻的下一个字符作为待检测字符,并发送到所述第一判断模块;
所述存储模块,用于将所述待检测字符作为待组合字符,存储到缓存区;
组合模块,用于根据所述缓存区中的各待组合字符获取待检测词汇;
第二判断模块,用于判断所述待所述检测词汇是否为敏感词。
如上所述的由上述技术方案可知,本发明提供的检测词汇的方法与装置,能够对当前正在编辑的待检测文本进行实时监测,并通过去除待检测文本中的干扰词汇以有效判断出敏感词。
附图说明
图1为根据本发明一实施例的检测词汇的方法的流程示意图;
图2为根据本发明又一实施例的检测词汇的方法的流程示意图;
图3为根据本发明另一实施例的检测词汇的装置的结构示意图;
图4为根据本发明又一实施例的检测词汇的装置的结构示意图。
具体实施方式
本实施例一提供一种检测词汇的方法,该方法适用于现在所有的网络平台。本方法的执行主体为检测词汇的装置,该检测词汇的装置可以集成于各种网络平台或服务器。
如图1所示,为本实施例的检测词汇的方法的流程示意图,具体包括:
步骤101,提取待检测文本中的待检测字符。
本步骤可以将当前正在编辑的文本作为待检测文本。例如是某个用户正在编辑的帖子。检测词汇的装置按照编辑的顺序依次从待检测文本中提取待检测字符,每次可以仅提取一个。待检测字符包括所有的汉字、数字、符号,甚至英文字母等。
步骤102,判断待检测字符是否为干扰词汇,当判断结果为是时,转为步骤103,否则,转为步骤104。
干扰词汇为可以预定义的各种符号、数字或生僻字。例如“地×震”中的“×”可以是被看作是干扰词汇,或者“地1震”中的“1”可以被预设为干扰词汇,或者“地鼒震”中的“鼒”可以被预设为干扰词汇。具体可以根据实际需要进行设定,在此不再赘述。
假设当前提取的待检测字符为“×”,并判断出该待检测字符是干扰词汇时,去除该干扰词汇,并执行步骤103,否则将该待检测字符作为待组合字符存储在缓存区中。
步骤103,提取待检测文本中与待检测字符相邻的下一个字符作为待检测字符,并转为执行步骤102。
步骤104,将待检测字符作为待组合字符,存储到缓存区。
缓存区可以设置在检测词汇的装置中,也可以以单独设置的存储器的形式实现。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国联合网络通信集团有限公司,未经中国联合网络通信集团有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210361942.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:模块化分体式背投投影机箱体
- 下一篇:一种可遥控升降式的投影幕布支架