[发明专利]一种基于朴素贝叶斯的社区言论过滤系统在审
申请号: | 201611254036.8 | 申请日: | 2016-12-30 |
公开(公告)号: | CN108268459A | 公开(公告)日: | 2018-07-10 |
发明(设计)人: | 麻建;吴剑文;何伟潮;单小红 | 申请(专利权)人: | 广东精点数据科技股份有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 北京隆源天恒知识产权代理事务所(普通合伙) 11473 | 代理人: | 闫冬 |
地址: | 510630 广东省广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 过滤系统 贝叶斯 词单元 记忆单元 输出单元 转换单元 词向量 社区 文档 朴素贝叶斯分类器 预处理 测试模块 类别标签 文档转换 屏蔽 词库 正向 输出 敏感 | ||
1.一种基于朴素贝叶斯的社区言论过滤系统,其特征在于,所述基于朴素贝叶斯的社区言论过滤系统包括一切词单元,一转换单元,一记忆单元,一输出单元;所述切词单元用于将言论文档进行预处理,所述切词单元包括一正向模块,一逆向模块,一t测试模块;所述转换单元用于在所述切词单元完成切词后,将言论文档转换为词向量;所述记忆单元用于将词向量打上类别标签,从而用于训练朴素贝叶斯分类器;所述输出单元用于对言论文档进行输出。
2.根据权利要求1所述的一种基于朴素贝叶斯的社区言论过滤系统,其特征在于,所述切词单元的切词方法采用双向匹配法,所述双向匹配法包括正向最大匹配法和逆向最大匹配法;
所述正向最大匹配法包括如下步骤:
A1:从左到右获取文本的M个字S,如果获得的字串S的长度小于2,则切分结束,返回字串S;
A2:在词典中查找字串S,找到则匹配成功,返回字串S并转到A1;否则转到A3;
A3:去掉字串S最右边的一个字得到字串K,如果字串K长度小于2,则切分结束返回字串K,并转到A1;否则转到A4;
A4:在词典中查找字串K,找到则匹配成功,返回字串K,并将字串S-K作为字串S转到步骤A2;
所述逆向最大匹配法包括如下步骤:
B1:从右到左获取文本的M个字S,如果获得的字串S的长度小于2,则切分结束,返回字串S;
B2:在词典中查找字串S,找到则匹配成功,返回字串S并转到B1;否则转到B3;
B3:去掉字串S最左边的一个字得到字串K,如果字串K长度小于2,则切分结束返回字串K,并转到B1;否则转到B4;
B4:在词典中查找字串K,找到则匹配成功,返回字串K,并将字串S-K作为字串S转到步骤B2。
3.根据权利要求2所述的一种基于朴素贝叶斯的社区言论过滤系统,其特征在于,如果所述正向最大匹配法和所述逆向最大匹配法对言论文档的切分结果不相同,采用t测试差方法来消除歧义,对于有序字串xyz,x相对于y及z的t测试定义为:
其中ρ(z|y),ρ(y|x)分别表示z在y下的概率,y在x下的概率,σ2(ρ(z|y)),σ2(ρ(y|x))表示各自的方差,上式中,各数据的计算方法如下:
r(y,z),r(x,y)分别表示有序字串yz,xy在词典中出现的频数,r(x),r(y)分别表示x,y在词典中出现的频数,
因此,得到tx,z(y)的计算公式为:
对于一个有序字串wxyz,x,y之间的t测试差为:
Δt(x,y)=tw,y(x)-tx,z(y)
对结果进行分类处理:
情况一:tw,y(x)>0,tx,z(y)<0,Δt(x,y)>0,则表示x,y之间相互吸引,那么xy组成一个词;
情况二:tw,y(x)<0,tx,z(y)>0,Δt(x,y)<0,则表示x,y之间相互排斥,将xy分开;
情况三:tw,y(x)>0,tx,z(y)>0,表示y吸引x的同时z吸引y,当Δt(x,y)>0,xy组成一个词;当Δt(x,y)<0,将xy分开;
情况四:tw,y(x)<0,tw,z(y)<0,表示在x吸引y的同时w吸引x,当Δt(x,y)>0,xy组成一个词;当Δt(x,y)<0,将xy分开。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东精点数据科技股份有限公司,未经广东精点数据科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611254036.8/1.html,转载请声明来源钻瓜专利网。