[发明专利]一种基于领域对抗自适应的跨领域文本情感分类方法有效
申请号: | 201811263266.X | 申请日: | 2018-10-28 |
公开(公告)号: | CN109492099B | 公开(公告)日: | 2022-03-15 |
发明(设计)人: | 贾熹滨;曾檬;史佳帅;刘洋;苏醒;郭黎敏 | 申请(专利权)人: | 北京工业大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06K9/62 |
代理公司: | 北京思海天达知识产权代理有限公司 11203 | 代理人: | 沈波 |
地址: | 100124 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 领域 对抗 自适应 文本 情感 分类 方法 | ||
1.一种基于领域对抗自适应的跨领域文本情感分类方法,其特征在于:该方法包括以下步骤:
步骤1,输入源领域和目标领域样本的词向量矩阵、情感类别标签和领域标签;
步骤2,利用基于CNN的特征提取模块,提取源领域和目标领域样本的低层特征;
步骤3,构建主任务模块,提取具有可转移性、对标签具有判别性的高层特征;
步骤3.1,通过高斯核函数将低层特征映射到RKHS,在该空间中利用MMD度量源领域和目标领域样本的距离;
该方法取最大平均差异MMD作为检验统计量,度量领域间的分歧,数学表达式如下所示:
是原始空间中连续函数f的集合,s代表源领域,t代表目标领域,xs为源领域的样本,xt为目标领域的样本,p代表源领域样本服从的特征分布,即xs~p,q代表目标领域样本服从的特征分布,即xt~q,Ep为源领域样本分布的期望值,Eq为目标领域样本分布的期望值,ns为源领域样本的数量,nt为目标领域样本的数量,为源领域的第i个样本,为目标领域的第i个样本;当源领域和目标领域的样本分布一致时p=q,期望值相同,此时MMD的值为0,当源领域和目标领域样本分布不一致且函数空间足够大时,MMD的值大于零;当给定两个特征分布p和q时,MMD的结果依赖给定的连续函数集合若过大,MMD的值趋近于无穷,不利于衡量样本差异;因此为了准确计算样本的距离,应满足下面两条性质,性质1:当且仅当p和q分布相同时,MMD等于零;并且为保证检验具备连续性,应满足性质2:MMD的经验估计可以随特征分布规模的增大迅速收敛到期望,需具备约束性;经证明当是再生核希尔伯特空间中的单位球时,即||f||H≤1,可满足上述两点性质;
一个完备的内积空间被称为希尔伯特空间(Hilbert Space),在这里将其记为f;若用空间内的点积表示映射f→f(x),即:
则希尔伯特空间被转化为再生核希尔伯特空间,这里φ表示的映射,即φ为原始空间的样本到希尔伯特空间的映射函数,因为空间中的点积可以表示函数到点的映射关系,因此函数f(x)可拆分为两部分,即f以及自变量x,该操作令f更容易被抽离出来实现最大化;此时引入分布,用E[φ(x)]替代φ(x),这里E[φ(x)]称为核嵌入分布(Kernelembedding of distributions),则源领域样本在希尔伯特空间的平均分布Ep[f(xs)]被表示为f与Ep[φ(xs)]的点积形式Ep[φ(xs),fH],即采用核函数的方式计算希尔伯特空间中的点积,同理,目标领域样本在希尔伯特空间的平均分布Eq[f(xt)]也可以被表示为f和Eq[φ(xt)]的点积形式Εq[φ(xt),fH];
其中μp=Ep[f(xs)],μq=Eq[f(xt)],由此看出源领域和目标领域的MMD距离用RKHS中两个点的距离表示,因此对上式等号两侧进行平方操作:
其中表示源领域中的第i个样本,表示源领域中的第j个样本,表示目标领域中的第i个样本,表示目标领域中的第j个样本,且i≠j,能够采用核函数计算,是RKHS中的单位球,因此采用高斯核函数或拉普拉斯核函数,若采用无穷维的高斯核函数则实现核嵌入方式表示的样本到再生核希尔伯特空间的映射,并利用高斯核函数计算领域间的MMD距离作为约束值,构建基于源领域和目标领域分布一致性的约束,实现源领域样本到目标领域的可迁移性,则领域对齐层的损失函数被表示为下式;
代表源领域样本集合,即代表源领域样本集合,即其中的表达式为:
在样本特征对齐的基础上,将源领域高层特征输入类别分类器,判断样本所属类别,保证分类器的有效性;其数学描述如下,源领域具有ns个独立同分布的标定样本目标领域具有nt个独立同分布的未标定样本表示源领域样本集,表示目标领域样本集,和均属于样本集合X,即源领域样本的标签标签集合Y={0,1,…,L-1};源领域样本和目标领域样本服从分布p和q,其中通过训练目标领域的样本获得适用于目标领域的类别分类器η:y=η(x),该分类器在目标领域样本集上的损失函数如下式所示,其中Pr(η(xt)≠y)表示输入xt经分类后结果与其对应的标签y不相等的概率:
将低层特征同时输入辅助任务模块,令具有对抗性质的领域分类器在准确判别样本所属领域的同时,通过梯度反转层引入对抗思想,将领域分类器看作生成式对抗网络中的判别器,在训练类别分类器时,使领域分类器无法判定样本的领域来源,以学习领域不变特征;领域分类器的损失函数如下所示:
其中,ns和nt分别表示源领域和目标领域样本的数量,则ns+nt表示两个领域中样本的总数,ηdomain为领域分类器,φ为映射函数,xi为需要判别的样本,di为样本xi的领域标签,该标签是一个二值变量,因此损失函数采用交叉熵损失函数,展开式如下所示,xi通过函数φ被映射到公共特征空间后,由领域分类器ηdomain判别该特征样本所属的领域类别;
步骤4,构建辅助任务模块,将低层特征作为训练数据输入具有对抗性质的领域分类器,提取具有领域不变性的高层特征;
步骤5,将目标领域样本输入已训练好的模型,输出文本数据情感类别的结果;
在训练过程中,通过优化步骤2和步骤3中三个损失函数,包括最小化类别分类器ηlabel的损失函数,最大化领域分类器ηdomain的损失函数,以及最小化领域对齐层的损失函数减小源领域和目标领域样本的差异,完成基于无监督领域对抗自适应的跨领域情感分类网络的训练,获得适用于目标领域的情感分类器,整个方法的损失函数如下所示,其中λ1和λ2为超参数,分别决定主任务模块和辅助任务模块占损失函数的影响比重;
最后在测试阶段,将目标领域的样本输入已训练好的模型,通过类别分类器输出样本所属情感类别。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811263266.X/1.html,转载请声明来源钻瓜专利网。