[发明专利]基于对抗训练的跨领域虚假评论识别方法在审
申请号: | 201910976702.6 | 申请日: | 2019-10-15 |
公开(公告)号: | CN110750645A | 公开(公告)日: | 2020-02-04 |
发明(设计)人: | 任亚峰;姬东鸿 | 申请(专利权)人: | 广东外语外贸大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/289;G06N3/04;G06Q30/02 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 518000 *** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 对抗训练 自然语言处理技术 预处理 混合数据 模型测试 模型训练 判断结果 输入词 数据集 扰动 构建 评论 向量 反馈 输出 评估 预测 分析 | ||
本发明涉及自然语言处理技术领域,具体涉及一种基于对抗训练的跨领域虚假评论识别方法,采用如下步骤:步骤一:对三个领域的数据集进行预处理;步骤二:预训练;步骤三:构建对抗训练模型;步骤四:模型训练;步骤五:模型测试;步骤六:对步骤四的判断结果进行评估、分析和概括,并利用反馈改善模型的性能;它采用先输入词向量上产生扰动,然后将其输入LSTM模型进行对抗训练,最后输出一个最终预测;结果表明,所提模型在三个领域的混合数据集的结果超出了之前的模型,且在跨领域的虚假评论任务上具有更好的泛化能力。
【技术领域】
本发明涉及自然语言处理技术领域,具体涉及一种基于对抗训练的跨领域虚假评论识别方法。
【背景技术】
在web2.0时代,越来越多的用户会参考在线评论做出购买决策,正面的评论可以为商业组织和个人带来巨大的经济效益和声誉,负面的评论也能影响竞争对手的销售业绩,这些使得虚假评论大量滋生。
自Jindal和Liu(2008)提出虚假评论的概念以来,虚假评论识别研究已经持续了上十年,并且大量的研究方法被提出。这些研究方法主要有两大类:传统统计模型和神经网络模型。用于虚假评论识别的传统统计模型有支持向量机、朴素贝叶斯、逻辑回归等,传统统计模型往往会结合多种特征来进行文本分类,常见的文本特征有词袋特征,词性特征,LIWC特征等,用于虚假评论识别的神经网络模型有CNN/RNN/LSTM等。
对于虚假评论识别任务,数据集的样本量相对较少,收集带标签的数据集费时费力,因此跨领域的虚假评论识别的相关工作还有待进一步研究。现有的跨领域虚假评论识别研究中,相似领域的预测效果较好,但是差异性较大的领域上的预测效果性能不佳。
【发明内容】
本发明的目的在于针对现有技术的缺陷和不足,提供基于对抗训练的跨领域虚假评论识别方法。
本发明所述的基于对抗训练的跨领域虚假评论识别方法,采用如下步骤:
步骤一:对三个领域的数据集进行预处理,三个领域分别为hotel领域、restaurant领域和doctor领域;
步骤二:预训练,使用一个由无标签和有标签的样本训练出来的预训练递归语言模型对词向量和LSTM权值进行初始化;
步骤三:构建对抗训练模型;
步骤四:模型训练,将训练集的词向量构成的嵌入层输入到对抗训练模型,得到的数据先通过一个全连接层,接着再输入到由softmax函数构成的分类器,进行对抗训练并得到训练参数;
步骤五:模型测试,将测试集的词向量构成的嵌入层输入到训练后的模型中,得到的数据先通过一个全连接层,接着再输入到softmax函数构成的分类器,分类器输出文本类别;
步骤六:对步骤四的判断结果进行评估、分析和概括,并利用反馈改善模型的性能。
进一步地,步骤一中的对三个领域的数据集进行预处理,采用如下步骤:
步骤I,词频统计:收集三个领域的文本语料,进行词频统计产生一元bow特征;
步骤II,数据集划分:将三个领域的混合数据集划分为训练集、验证集和测试集;
步骤III,打标签:根据语料的类别数量,对语料的不同类别赋予one-hot形式的标签。
进一步地,步骤三中所述的对抗训练模型基于LSTM神经网络模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东外语外贸大学,未经广东外语外贸大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910976702.6/2.html,转载请声明来源钻瓜专利网。