[发明专利]一种基于文本多向量表示相互学习的垃圾评论过滤方法有效
申请号: | 201810053433.1 | 申请日: | 2018-01-19 |
公开(公告)号: | CN108304509B | 公开(公告)日: | 2021-12-21 |
发明(设计)人: | 何克晶;刘琰翔 | 申请(专利权)人: | 华南理工大学 |
主分类号: | G06F16/9535 | 分类号: | G06F16/9535;G06F40/289;G06K9/62 |
代理公司: | 广州市华学知识产权代理有限公司 44245 | 代理人: | 李斌 |
地址: | 510640 广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于文本多向量相互学习的垃圾评论过滤方法,所述方法首先对训练集的评论文本进行预处理后用多种不同的文本向量表示方法对同一文本进行向量化表示,然后采用同一种分类器训练方法根据这些不同的向量表示方式训练出多个不同的分类器,之后借鉴协同训练的思想让这些分类器间相互学习,并不断将添加集的数据进行标注并移到训练集中;最终可以得到能力都有所提升的多个分类器。本发明借鉴协同训练的思想,只需要人工标注部分数据,即可对剩余数据进行自动标注,这样不仅减少了大量的人工标注数据工作,同时也提升了分类器的分类能力,使得垃圾评论的过滤精度得以提高。 | ||
搜索关键词: | 一种 基于 文本 多向 表示 相互 学习 垃圾 评论 过滤 方法 | ||
【主权项】:
1.一种基于文本多向量表示相互学习的垃圾评论过滤方法,其特征在于,包括下述步骤:S1:获取电商网站的评论数据,并将获得的评论数据分为训练集和添加集;其中,训练集用于建立分类器,添加集用于加强训练集训练出的分类器;S2:对所有的评论数据都进行预处理:先删除数据中的噪声数据,然后对除噪后的数据进行中文分词,最后将分词结果中的停用词过滤掉;S3:使用n种不同的方法将训练集中的同一文本映射为n种不同的空间向量,即用多种不同的向量表示;S4:使用一种分类器的训练方法,利用某种形式文本向量训练得到一个分类器Cn;S5:利用分类器Cn对添加集中未标注的文本进行标注;S6:从添加集中未标注的文本中选择分类器Cn预测的分数得分最高的2k个文本En放入总样本集合E中,选取时需要注意正负样本平衡的问题,选取k个正样本和k个负样本;若样本已经在E中,则跳过该样本选取下一个样本;S7:重复S4‑S6步骤n次,每次使用的分类器训练方法一样,而文本向量化的方法不一样;S8:对选取的总样本集合E进行处理,若样本得分低于预设阈值,则直接丢弃该样本;S9:将样本集合E从添加集中移到训练集合中;S10:重复S4‑S9,直至达到预设迭代次数或添加集合数据为空或添加集合中的所有样本得分都低于预设阈值;S11:经过上述10个步骤得到了n个分类器;对于新来的评论,同样采用n种向量表示方式,然后输入到对应的分类器中,累加其正负得分,最终输出分类预测结果,由此完成垃圾评论的过滤。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南理工大学,未经华南理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201810053433.1/,转载请声明来源钻瓜专利网。