[发明专利]一种基于信息交换场景中敏感话题过滤的解决方法在审
申请号: | 201710563695.8 | 申请日: | 2017-07-12 |
公开(公告)号: | CN107341256A | 公开(公告)日: | 2017-11-10 |
发明(设计)人: | 周聪伟 | 申请(专利权)人: | 深圳市乐唯科技开发有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;H04L12/58 |
代理公司: | 深圳市凯达知识产权事务所44256 | 代理人: | 王琦 |
地址: | 518000 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 信息 交换 场景 敏感 话题 过滤 解决方法 | ||
技术领域
本发明涉及网络信息技术领域,具体为一种基于信息交换场景中敏感话题 过滤的解决方法。
背景技术
在社交,论坛,新闻评论等存在用户信息交换的场景中,常会出现一些 不适宜在公众场合展示的信息。一些软件或者网站的开发者试图屏蔽此类消 息,但还是有一些此类用户会通过分隔符,分条发送等形式来躲避开发者的 屏蔽。为了提高数据处理的效率,系统初始化时会将敏感词及分隔符等存于 内存之中,如果敏感词库过于庞大,会对操作系统内存有很大的消耗。
发明内容
本发明的目的在于提供一种基于信息交换场景中敏感话题过滤的解决方 法,具有高效,可以有效屏蔽多种敏感话题信息,净化软件环境的优点,以 解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:
一种基于信息交换场景中敏感话题过滤的解决方法,包括敏感词过滤和 相邻文本对比两个阶段,敏感词过滤阶段包括以下过滤步骤:
第一步、字母集合,先将敏感词首字组成集合;
第二步、敏感词拆分,将敏感词每个字拆分,后一个字作为前一个字的 子节点,每一个节点都有一个字段isend来标志是否到此为敏感词;
第三步、系统判断以是否为特殊扰乱字符作为判断首要判断条件。
优选的,相邻文本阶段为判断敏感词过滤阶段的二次判断。
优选的,敏感词过滤阶段为一种用来存储敏感词库的数组加树型结构。
与现有技术相比,本发明的有益效果是:本发明的基于信息交换场景中 敏感话题过滤的解决方法,开始系统接收消息,对消息判断是否含有敏感话 题,若有则直接拦截不进行转发,对接收的消息的相邻若干条消息组装成一 条消息进行敏感话题过滤,若系统判断存在敏感话题则拦截不转发,并记录 消息和消息发送人,若系统判断不存在敏感话题,则消息正常发送给接受者, 由于特定的数据结构,对敏感词的判断效率很高,有效拦截过滤各种形式组 装的带有敏感话题的信息并且能识别相邻几条信息是否可组装为带有敏感词 的信息,高效且可以有效屏蔽多种敏感话题信息,净化软件环境。
附图说明
图1为本发明的数据结构图;
图2为传统的判断流程示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行q 清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而 不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做 出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参阅图1-2,本发明提供一种技术方案:一种基于信息交换场景中敏感话 题过滤的解决方法,包括敏感词过滤和相邻文本对比两个阶段,敏感词过滤 阶段为一种用来存储敏感词库的数组加树型结构,对敏感词的判断效率很高, 大大高于一般的正则匹配,敏感词过滤阶段包括以下过滤步骤:
第一步、字母集合,先将敏感词首字组成集合;
第二步、敏感词拆分,将敏感词每个字拆分,后一个字作为前一个字的 子节点,每一个节点都有一个字段isend来标志是否到此为敏感词,本系统可 以任何im、论坛等系统无缝结合,消息的传递可以用多种协议,需要保证消 息不丢失,推荐使用生产消费模式的消息队列;
第三步、系统判断,系统判断小妖和小妖怪不是敏感词,而小妖精则被 认为是敏感词,系统判断以是否为特殊扰乱字符作为判断首要判断条件,当 对每一个字符判断之前,会先判断其是否是特殊扰乱字符,当循环到特殊无 意义字符时,会直接略过,有效拦截过滤各种形式组装的带有敏感话题的信 息。
其中数据表示如下:
相邻文本阶段为判断敏感词过滤阶段的二次判断,经过了敏感词过滤阶 段的判断为无敏感词的信息,系统会记录下本条信息,并与相邻几条信息组 装再次进行步骤一的敏感词判断。经系统判定消息含有敏感词则系统会将本 条及相邻几条信息记录,并将此用户记录,以便统计频次,对相邻信息的判 断,多一条信息,系统判断时间就会大大增加,因此相邻信息数的指定不应 太大,相邻文本阶段的判断能识别相邻几条信息是否可组装为带有敏感词的 信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳市乐唯科技开发有限公司,未经深圳市乐唯科技开发有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710563695.8/2.html,转载请声明来源钻瓜专利网。
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置