[发明专利]基于对抗训练的跨领域虚假评论识别方法在审
申请号: | 201910976702.6 | 申请日: | 2019-10-15 |
公开(公告)号: | CN110750645A | 公开(公告)日: | 2020-02-04 |
发明(设计)人: | 任亚峰;姬东鸿 | 申请(专利权)人: | 广东外语外贸大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/289;G06N3/04;G06Q30/02 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 518000 *** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 对抗训练 自然语言处理技术 预处理 混合数据 模型测试 模型训练 判断结果 输入词 数据集 扰动 构建 评论 向量 反馈 输出 评估 预测 分析 | ||
1.基于对抗训练的跨领域虚假评论识别方法,其特征在于:步骤一:对三个领域的数据集进行预处理,三个领域分别为hotel领域、restaurant领域和doctor领域;
步骤二:预训练,使用一个由无标签和有标签的样本训练出来的预训练递归语言模型对词向量和LSTM权值进行初始化;
步骤三:构建对抗训练模型;
步骤四:模型训练,将训练集的词向量构成的嵌入层输入到对抗训练模型,得到的数据先通过一个全连接层,接着再输入到由softmax函数构成的分类器,进行对抗训练并得到训练参数;
步骤五:模型测试,将测试集的词向量构成的嵌入层输入到训练后的模型中,得到的数据先通过一个全连接层,接着再输入到softmax函数构成的分类器,分类器输出文本类别;
步骤六:对步骤四的判断结果进行评估、分析和概括,并利用反馈改善模型的性能。
2.根据权利要求1所述的基于对抗训练的跨领域虚假评论识别方法,其特征在于:步骤一中的对三个领域的数据集进行预处理,采用如下步骤:
步骤I,词频统计:收集三个领域的文本语料,进行词频统计产生一元bow特征;
步骤II,数据集划分:将三个领域的混合数据集划分为训练集、验证集和测试集;
步骤III,打标签:根据语料的类别数量,对语料的不同类别赋予one-hot形式的标签。
3.根据权利要求1所述的基于对抗训练的跨领域虚假评论识别方法,其特征在于:步骤三中所述的对抗训练模型基于LSTM神经网络模型。
4.根据权利要求1所述的基于对抗训练的跨领域虚假评论识别方法,其特征在于:步骤三所述的对抗训练模型中,{w(t)|t=1,K,T}表示T个单词序列的集合,对应的目标输出为y;为了将离散的词输入表示成一个连续向量,定义词向量矩阵V∈R(K+1)×D,其中K表示词汇表中的单词数,每一行h对应第i个单词的词向量。注意,K+1个词向量表示序列结尾处的eos符号Veos。在第t步时,输入为离散的单词w(t),对应的词向量为v(t)。
5.根据权利要求1所述的基于对抗训练的跨领域虚假评论识别方法,其特征在于:步骤三所述的对抗训练模型中,对词向量进行了扰动;扰动是有标准界限的,但是模型可以通过学习具有非常大范数的词向量来使扰动变得无关紧要;为了防止这种情况,当对上面定义的模型应用对抗性和虚拟对抗性训练时,我们将词向量vk替换为标准化的词向量其定义为:
其中:fi为在所有训练样本中计算得出的第i个单词的频率。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东外语外贸大学,未经广东外语外贸大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910976702.6/1.html,转载请声明来源钻瓜专利网。