[发明专利]一种基于领域对抗自适应的跨领域文本情感分类方法有效
申请号: | 201811263266.X | 申请日: | 2018-10-28 |
公开(公告)号: | CN109492099B | 公开(公告)日: | 2022-03-15 |
发明(设计)人: | 贾熹滨;曾檬;史佳帅;刘洋;苏醒;郭黎敏 | 申请(专利权)人: | 北京工业大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06K9/62 |
代理公司: | 北京思海天达知识产权代理有限公司 11203 | 代理人: | 沈波 |
地址: | 100124 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 领域 对抗 自适应 文本 情感 分类 方法 | ||
本发明公开了一种基于领域对抗自适应的跨领域文本情感分类方法,该方法包括:输入源领域和目标领域样本的词向量矩阵、类别标签和领域标签;利用基于卷积神经网络的特征提取模块,提取样本的低层特征;在主任务模块构建基于源领域和目标领域分布一致性的约束,将低层样本映射到再生核希尔伯特空间,学习具有可转移性的高层特征;将源领域的高层特征输入类别分类器,在减小领域差异的基础上,保证分类器对样本具备类别判别性;在辅助任务模块构建基于对抗学习的领域不变性约束,将低层特征输入具有对抗性质的领域分类器,令分类器尽可能无法判别样本所属领域,从而提取具有领域不变性的高层特征,有效解决了源领域分类器到目标领域的迁移问题。
技术领域
本发明属于文本分析技术领域,具体涉及一种基于领域对抗自适应的跨领域文本情感分类方法。
背景技术
近年来随着人工智能、机器学习技术的蓬勃发展,文本情感分类技术应运而生,该技术可自动地对文本数据的情感趋向分类,有效解决了人工判断费时费力的难题。传统的文本情感分类方法通常利用标定数据,为某个领域单独训练特定的情感分类器以完成情感分类任务。但是随着社交媒体的发展,与日俱增的新语料使得领域范围逐渐扩大,且每个领域的数据量非常庞大,传统的文本情感分类方法需要单独为每一个新增的领域手工标注大量的数据,以完成情感分类器的训练,该人工标注样本过程效率较低。同时随着时间的推移和社会的发展,已知领域的新特征词将逐步增加,因原样本与新样本的特征分布存在一定的差异,该领域原有的情感分类器将无法准确预测新评论数据的情感倾向。
为解决领域间样本存在差异导致情感分类器分类准确率较低的问题,研究者通常采用以下五种迁移学习技术实现源领域分类器到目标领域的迁移,其一是基于加权重采样(Re-weighting)的领域自适应技术,该技术令源领域样本逼近目标领域,使样本分布尽可能相似,从而减小领域间的分布差异。第二种基于特征对齐的领域自适应技术,将源领域和目标领域的样本投影到公共子空间学习公共的特征表示,从而令源领域的经验误差尽可能趋近目标领域的经验误差,实现领域特征分布的一致性,主要方法包括子空间统一(Subspace Unification)、流行对齐(Manifold Alignment)和子空间重建(SubspaceReconstruction)。其三是基于主题的领域自适应,通过提取领域的共有潜在特征以减小领域间样本分布的差异。近年来随着深度学习和生成式对抗学习的发展,基于深度模型和对抗式的迁移学习技术也逐渐应用在跨领域情感分类问题中,而深度模型通常采用微调(Fine-tune)、最大平均差异正则化(MMD-regularized)和领域混淆(Domain Confusion)的方法减小源领域和目标领域的差异,完成领域间特征的对齐。
发明内容
本发明的目的在于提供了一种基于领域对抗自适应的跨领域文本情感分类方法,该方法利用领域自适应和对抗学习的思想,通过构建基于源领域和目标领域分布一致性的约束和基于对抗学习的领域不变性约束,学习具备可转移性、领域不变性和对标签具有判别性的高层特征,从而在源领域和目标领域样本分布差异较大,且目标领域标定样本不足的情况下,获得适用于目标领域的情感分类器。
为实现上述目的,本发明采用以下技术方案:一种基于领域对抗自适应的跨领域文本情感分类方法,首先采用词向量矩阵的方式表示文本数据;其次将矩阵输入基于卷积神经网络(Convolutional Neural Network,CNN)的特征提取模块,获取样本的低层特征;接下来在主任务模块构建基于源领域和目标领域分布一致性的约束,即通过高斯核函数将低层特征映射到再生核希尔伯特空间(Reproducing Kernel Hilbert Space,RKHS),并利用最大平均差异(Maximum Mean Discrepancies,MMD)进行约束,从而在公共的特征映射空间中,保证源领域和目标领域样本特征分布的相似性,以学习具备领域间可转移性的高层特征;然后将高层特征输入类别分类器,在减小领域差异的基础上,保证分类器对样本具备类别判别性;此外引入辅助任务模块,加入梯度反转层,并将低层特征输入具有对抗性质的领域分类器,使分类器无法判别样本所属领域,以构建基于对抗学习的领域不变性约束,从而提取具有领域不变性的特征。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811263266.X/2.html,转载请声明来源钻瓜专利网。