[发明专利]针对不平衡数据的融合用户行为规则的垃圾评论过滤方法有效
申请号: | 201711247021.3 | 申请日: | 2017-12-01 |
公开(公告)号: | CN108009249B | 公开(公告)日: | 2020-08-18 |
发明(设计)人: | 丁茜;武琼;孙剑 | 申请(专利权)人: | 北京中视广信科技有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/9535;G06K9/62 |
代理公司: | 北京市盛峰律师事务所 11337 | 代理人: | 席小东 |
地址: | 100036 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 针对 不平衡 数据 融合 用户 行为 规则 垃圾 评论 过滤 方法 | ||
本发明提供一种针对不平衡数据的融合用户行为规则的垃圾评论过滤方法,包括:对少类样本数据进行重新构建,对多类样本数据集中的多类样本数据进行欠采样,重新构造得到平衡的训练样本语料库;利用训练样本语料库,提取分类特征词,对构建的贝叶斯模型进行训练;调用用户行为规则模型,检测待分类的评论数据是否为垃圾评论,对评论数据进行初步分类;对待分类的评论数据进行特征提取,使用已训练好的贝叶斯分类模型进行分类;使用Adaboosting算法,对用户行为规则模型和贝叶斯分类模型进行集成学习,利用已标记的训练样本数据进行训练,得到最终的待分类的评论数据的分类结果。优点为:全面提高垃圾评论过滤效率。
技术领域
本发明属于垃圾评论过滤技术领域,具体涉及一种针对不平衡数据的融合用户行为规则的垃圾评论过滤方法。
背景技术
随着互联网的飞速发展,越来越多的人们通过发布各种各样的言论信息来进行交流、表述自己的观点态度。与此同时,也为一些黑客提供了方便,在正常评论的平台上投放大量的广告、宣传以及辱骂的言语评论,使得用户无法获得有用的信息,也阻碍了对信息的挖掘。因此垃圾评论过滤非常重要。
从技术角度来看,对于这个垃圾评论的过滤属于文本分类范畴。现有的垃圾评论过滤技术一般分两种:监督学习方法和非监督学习方法。非监督学习:不需要人工预先标注的语料,来对评论进行分类过滤。但对于互联网上产生的多样口语化不规范的评论的情景,非监督学习方法是无法准确的识别过滤出垃圾评论的。相比非监督学习的问题,监督学习可以在一定程度上解决口语化比较重的文本分类问题。但监督学习前期需要大量的人工标注语料库,耗费人力物力很大。一些专家学者尝试使用机器学习的方法解决这一问题,如现有的垃圾评论过滤技术-贝叶斯分类算法,虽然该方法用于过滤垃圾邮件效果很好,但前提是训练语料库是均衡的。然而实际网络媒体中,用户的评论形式各异,垃圾评论负例搜集比较困难,容易使得训练数据集中某个类别的样本数远远小于另一个类别,从而使分类的性能急剧下降;并且网络媒体中,用户评论表述形式多变,尤其是广告变化多样,从而加大了对新词识别和广告识别的难度。
发明内容
针对现有技术存在的缺陷,本发明提供一种针对不平衡数据的融合用户行为规则的垃圾评论过滤方法,可有效解决上述问题。
本发明采用的技术方案如下:
本发明提供一种针对不平衡数据的融合用户行为规则的垃圾评论过滤方法,包括以下步骤:
步骤1,抓取网络媒体频道上的评论样本数据组成评论样本数据集,标记每条评论样本数据的评论数据类型;其中,所述评论数据类型包括正例样本类型和负例样本类型;
步骤2,比较所述评论样本数据集中正例样本数据和负例样本数据的数量,如果正例样本数据的数量多于负例样本数据的数量,则将正例样本数据作为多类样本数据,将负例样本数据作为少类样本数据;反之,如果正例样本数据的数量少于负例样本数据的数量,则将正例样本数据作为少类样本数据,将负例样本数据作为多类样本数据;由此将评论样本数据集划分为少类样本数据集和多类样本数据集;
步骤3,对少类样本数据集中的少类样本数据进行重新构建,对多类样本数据集中的多类样本数据进行欠采样,重新构造得到平衡的训练样本语料库;其中,训练样本语料库中的每个训练样本均被标记评论数据类型,因此,训练样本区分正例训练样本和负例训练样本;训练样本语料库包括正例训练样本子库和负例训练样本子库;
步骤4,利用训练样本语料库,提取分类特征词,对构建的贝叶斯模型进行训练;本步骤具体包括:
步骤4.1,根据公式计算正例训练样本的先验概率P(c1)和负例训练样本的先验概率P(c2):
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京中视广信科技有限公司,未经北京中视广信科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711247021.3/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置