[发明专利]一种基于多源领域适应联合学习的跨领域文本情感分类方法有效
申请号: | 201910380979.2 | 申请日: | 2019-05-08 |
公开(公告)号: | CN110032646B | 公开(公告)日: | 2022-12-30 |
发明(设计)人: | 赵传君 | 申请(专利权)人: | 山西财经大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06N3/04 |
代理公司: | 北京中南长风知识产权代理事务所(普通合伙) 11674 | 代理人: | 张学元 |
地址: | 030006 山*** | 国省代码: | 山西;14 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明针对跨领域文本情感分类任务提出了一种多源领域适应联合学习方法与系统。此框架可以同时学习和训练多个领域的神经网络,可以从不同方面引入更丰富的监督信息。多个领域的任务可以相互补充,从而更容易得到更一般化的表示模型。特别地,本发明设计的联合训练的损失函数包括四个部分:情感分类损失、参数迁移损失、领域融合损失和防止过拟合的正则项。情感分类损失包含了源领域任务和目标领域任务上的情感分类损失,软参数迁移的方法可以有效地迁移源领域的情感知识到目标领域中,而深度领域融合可以保证在学习过程中不同领域的边际分布尽可能地相似。因此多源领域适应联合学习神经网络能够在有限的数据条件下实现更好的特征表示和泛化能力。我们在中文和英文的多领域数据集上验证了提出的多源领域适应联合学习框架,实验结果表明本发明提出的方法在跨领域文本情感分类准确率上有很大提升。 | ||
搜索关键词: | 一种 基于 领域 适应 联合 学习 文本 情感 分类 方法 | ||
【主权项】:
1.一种基于多源领域适应联合学习的跨领域文本情感分类方法,其特征在于,包括以下步骤:S1,多源领域适应联合学习(Multi‑source domain adaptation with joint learning):我们迁移多个源领域任务TaskSk(1≤k≤K)的情感知识,并利用少量的目标领域带标签数据DL,同时学习TaskSk和TaskT,得到假设
目标是最小化经验损失
提高目标领域任务上的分类效果;S2,构建特定领域的BiGRU‑ConvNets深度特征提取模型,使用在大量的无监督语料上得到的预训练词向量作为模型的输入。同时,词向量在针对特定的任务时可以微调;S3,为了预训练BiGRU‑ConvNets底层参数,使用源领域和目标领域的数据执行编码—解码操作初始化BiGRU网络的参数,编码解码的操作流程为x→C→h;S4,考虑到不同领域的情感分布的差异性,通过最小化参数迁移过程中的损失Lshare实现情感知识的迁移,目标是迁移多个源领域的知识到目标领域的特征表示中;S5,在源领域任务和目标领域任务上的整体情感损失为
S6,源领域TaskSk的特征表示记为RSk,目标领域TaskT的特征表示记为RT,我们希望经过核希尔伯特空间映射后源领域和目标领域的分布尽可能地相似,即RSk≈RT;S7,定义联合损失函数L=Lsen+λLshare+ηLdomain+σReg,优化学习的目标函数是
和参数集更新策略;S8,对于每个源任务和目标任务,我们对每个组合对(TaskSk,TaskT)进行交替训练。通过以这种方式训练网络,可以提高每个任务的性能,而无需找到更多领域特定的训练数据。使用随机梯度下降法训练参数,使用迭代的方法获得最佳参数集θopt。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山西财经大学,未经山西财经大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910380979.2/,转载请声明来源钻瓜专利网。