[发明专利]基于对抗训练的跨领域虚假评论识别方法在审
申请号: | 201910976702.6 | 申请日: | 2019-10-15 |
公开(公告)号: | CN110750645A | 公开(公告)日: | 2020-02-04 |
发明(设计)人: | 任亚峰;姬东鸿 | 申请(专利权)人: | 广东外语外贸大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/289;G06N3/04;G06Q30/02 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 518000 *** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及自然语言处理技术领域,具体涉及一种基于对抗训练的跨领域虚假评论识别方法,采用如下步骤:步骤一:对三个领域的数据集进行预处理;步骤二:预训练;步骤三:构建对抗训练模型;步骤四:模型训练;步骤五:模型测试;步骤六:对步骤四的判断结果进行评估、分析和概括,并利用反馈改善模型的性能;它采用先输入词向量上产生扰动,然后将其输入LSTM模型进行对抗训练,最后输出一个最终预测;结果表明,所提模型在三个领域的混合数据集的结果超出了之前的模型,且在跨领域的虚假评论任务上具有更好的泛化能力。 | ||
搜索关键词: | 对抗训练 自然语言处理技术 预处理 混合数据 模型测试 模型训练 判断结果 输入词 数据集 扰动 构建 评论 向量 反馈 输出 评估 预测 分析 | ||
【主权项】:
1.基于对抗训练的跨领域虚假评论识别方法,其特征在于:步骤一:对三个领域的数据集进行预处理,三个领域分别为hotel领域、restaurant领域和doctor领域;/n步骤二:预训练,使用一个由无标签和有标签的样本训练出来的预训练递归语言模型对词向量和LSTM权值进行初始化;/n步骤三:构建对抗训练模型;/n步骤四:模型训练,将训练集的词向量构成的嵌入层输入到对抗训练模型,得到的数据先通过一个全连接层,接着再输入到由softmax函数构成的分类器,进行对抗训练并得到训练参数;/n步骤五:模型测试,将测试集的词向量构成的嵌入层输入到训练后的模型中,得到的数据先通过一个全连接层,接着再输入到softmax函数构成的分类器,分类器输出文本类别;/n步骤六:对步骤四的判断结果进行评估、分析和概括,并利用反馈改善模型的性能。/n
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东外语外贸大学,未经广东外语外贸大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910976702.6/,转载请声明来源钻瓜专利网。