[发明专利]一种基于朴素贝叶斯的社区言论过滤系统在审

申请号：	201611254036.8	申请日：	2016-12-30
公开（公告）号：	CN108268459A	公开（公告）日：	2018-07-10
发明（设计）人：	麻建;吴剑文;何伟潮;单小红	申请（专利权）人：	广东精点数据科技股份有限公司
主分类号：	G06F17/30	分类号：	G06F17/30;G06F17/27
代理公司：	北京隆源天恒知识产权代理事务所(普通合伙) 11473	代理人：	闫冬
地址：	510630 广东省广***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	过滤系统贝叶斯词单元记忆单元输出单元转换单元词向量社区文档朴素贝叶斯分类器预处理测试模块类别标签文档转换屏蔽词库正向输出敏感
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于朴素贝叶斯的社区言论过滤系统，其特征在于，所述基于朴素贝叶斯的社区言论过滤系统包括一切词单元，一转换单元，一记忆单元，一输出单元；所述切词单元用于将言论文档进行预处理，所述切词单元包括一正向模块，一逆向模块，一t测试模块；所述转换单元用于在所述切词单元完成切词后，将言论文档转换为词向量；所述记忆单元用于将词向量打上类别标签，从而用于训练朴素贝叶斯分类器；所述输出单元用于对言论文档进行输出。

2.根据权利要求1所述的一种基于朴素贝叶斯的社区言论过滤系统，其特征在于，所述切词单元的切词方法采用双向匹配法，所述双向匹配法包括正向最大匹配法和逆向最大匹配法；

所述正向最大匹配法包括如下步骤：

A1：从左到右获取文本的M个字S，如果获得的字串S的长度小于2，则切分结束，返回字串S；

A2：在词典中查找字串S，找到则匹配成功，返回字串S并转到A1；否则转到A3；

A3：去掉字串S最右边的一个字得到字串K，如果字串K长度小于2，则切分结束返回字串K，并转到A1；否则转到A4；

A4：在词典中查找字串K，找到则匹配成功，返回字串K，并将字串S-K作为字串S转到步骤A2；

所述逆向最大匹配法包括如下步骤：

B1：从右到左获取文本的M个字S，如果获得的字串S的长度小于2，则切分结束，返回字串S；

B2：在词典中查找字串S，找到则匹配成功，返回字串S并转到B1；否则转到B3；

B3：去掉字串S最左边的一个字得到字串K，如果字串K长度小于2，则切分结束返回字串K，并转到B1；否则转到B4；

B4：在词典中查找字串K，找到则匹配成功，返回字串K，并将字串S-K作为字串S转到步骤B2。

3.根据权利要求2所述的一种基于朴素贝叶斯的社区言论过滤系统，其特征在于，如果所述正向最大匹配法和所述逆向最大匹配法对言论文档的切分结果不相同，采用t测试差方法来消除歧义，对于有序字串xyz，x相对于y及z的t测试定义为：