[发明专利]一种基于翻译匹配的跨语言属性级情感分类方法在审
| 申请号: | 202111529633.8 | 申请日: | 2021-12-14 |
| 公开(公告)号: | CN114238636A | 公开(公告)日: | 2022-03-25 |
| 发明(设计)人: | 吴含前;王志可;王启鹏;姚莉;李露 | 申请(专利权)人: | 东南大学 |
| 主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/211;G06F40/263;G06F40/58;G06N3/04;G06N3/08 |
| 代理公司: | 南京众联专利代理有限公司 32206 | 代理人: | 杜静静 |
| 地址: | 211135 江苏省南京市*** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 翻译 匹配 语言 属性 情感 分类 方法 | ||
1.一种基于翻译匹配的跨语言属性级情感分类方法,其特征在于,所述方法包括领域分类和属性情感分类两部分,在领域分类部分,利用领域判别器与语言编码器的对抗训练减小机器翻译导致真实语言与翻译语言的领域偏差问题;在属性情感分类部分,将编码后的属性序列、目标翻译句子序列输入网络,得到最终情感预测结果。
2.根据权利要求1所述的一种基于翻译匹配的跨语言属性级情感分类方法,其特征在于,所述领域分类部分为一个二分类问题,包括目标语言编码器、平均池化层、梯度反转层、全连接层和softmax层,所述目标语言编码器对带标签的翻译文本和无标签目标文本进行编码获得属性序列表示Atgt、目标翻译句子序列表示Stgt以及真实句子序列表示Utgt,句子序列表示输入所述平均池化层后可获得句子向量表示,然后将其输入所述梯度反转层,最后将梯度反转层输出结果输入全连接层和softmax层判断输入的句子表示属于翻译句子或真实句子。
3.根据权利要求2所述的一种基于翻译匹配的跨语言属性级情感分类方法,其特征在于,所述目标语言编码器为谷歌官方提供的BERT-Base模型,包含12层Transformer编码器子模块。
4.根据权利要求2所述的一种基于翻译匹配的跨语言属性级情感分类方法,其特征在于,领域分类部分损失函数如下式所示:
其中,θt∈{θtgt,θd},θtgt为目标语言编码器参数,θd为源域判别器参数,通过所述梯度反转层实现编码器与判别器相互对抗的训练方式,即寻求参数θd最小化损失函数同时寻求参数θtgt最大化损失函数,其通过在反向传播时,将所有关于参数θtgt的梯度值与一个超参数-λ相乘实现,λ值为5e-7。
5.根据权利要求1所述的一种基于翻译匹配的跨语言属性级情感分类方法,其特征在于,所述属性情感分类部分包括目标语言编码器、多头注意力层、自适应融合层、全连接层和softmax层,所述目标语言编码器将得到的属性序列表示、目标翻译句子序列表示由多头注意力层、自适应融合层得到属性和句子细粒度交互的属性级句子表示,再由全连接层和softmax层得到最终情感预测结果。
6.根据权利要求5所述的一种基于翻译匹配的跨语言属性级情感分类方法,其特征在于,所述多头自注意力层内部使用的是Transformer编码器子模块,以属性表示和翻译句子表示拼接后作为输入,其过程如下式所示:
其中表示拼接操作,Transformer(·)由X层Transformer编码器子模块堆叠而成,Atgt为属性表示,Stgt为翻译句子表示,Htgt为属性级隐向量表示。
7.根据权利要求5所述的一种基于翻译匹配的跨语言属性级情感分类方法,其特征在于,所述自适应融合层首先利用注意力加性模型计算属性级隐向量表示各个位置的注意力得分,再利用自适应参数和sotfmax函数得到综合注意力分布,最后使注意力分布与目标语言隐向量表示相乘得到自适应融合后的属性级表示,并且与属性序列表示经平均池化层的结果拼接后得到最终的向量表示,其过程如下式所示:
av=MeanPooling(Atgt)
其中,Htgt为属性级隐向量表示,W和b均为可训练参数,M∈RN×N,N为属性序列与句子序列拼接后的最大长度,Mij表示目标翻译表示中第i个词关于第j的词的注意力得分,Wt∈R1×N为自适应权重参数,αt表示每个位置的综合注意力得分,Atgt为属性表示。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东南大学,未经东南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111529633.8/1.html,转载请声明来源钻瓜专利网。





