[发明专利]基于混合对比学习和生成式数据增强的零样本文本立场检测方法有效
申请号: | 202211517007.1 | 申请日: | 2022-11-29 |
公开(公告)号: | CN115758159B | 公开(公告)日: | 2023-07-21 |
发明(设计)人: | 李洋;袁嘉伟 | 申请(专利权)人: | 东北林业大学 |
主分类号: | G06F18/214 | 分类号: | G06F18/214;G06F18/21;G06N3/0475;G06N3/094 |
代理公司: | 哈尔滨市松花江专利商标事务所 23109 | 代理人: | 张换男 |
地址: | 150040 黑龙*** | 国省代码: | 黑龙江;23 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 混合 对比 学习 生成 数据 增强 样本 文本 立场 检测 方法 | ||
1.基于混合对比学习和生成式数据增强的零样本文本立场检测方法,其特征在于:所述方法具体过程为:
步骤一、获取可见类样本数据和不可见类样本数据;
可见类样本数据和不可见类样本数据均为带标签数据;
可见类样本数据和不可见类样本数据的目标不同;
可见类样本数据作为训练集;
不可见类样本数据作为测试集;
训练集和测试集包括目标、立场、真实文本x;
步骤二、建立GDA-CL模型,GDA-CL模型包括:文本生成层、对比学习层、立场分类层;
文本生成层用于将训练集中真实文本x的目标和立场输入对抗生成网络模型,对抗生成网络模型输出合成文本,获得预训练好的对抗生成网络模型;
将训练集中真实文本x的目标和立场输入预训练好的对抗生成网络模型,输出合成文本,将合成文本集成到训练数据中,生成新的训练数据集;
对比学习层采用基于RoBERTa的序列编码器E和投影函数H,用于将文本映射到不同维度,通过实例级和类别级对比学习共同优化文本表示,获得训练好的对抗生成网络模型;
将测试集输入训练好的对抗生成网络模型,若输出结果满足要求,获得最终训练好的对抗生成网络模型;若输出结果不满足要求,继续训练对抗生成网络模型,直至满足要求;
将目标和随机立场输入最终训练好的对抗生成网络模型,输出文本,将输出文本输入立场分类层获得待测文本xi的立场标签yi。
2.根据权利要求1所述的基于混合对比学习和生成式数据增强的零样本文本立场检测方法,其特征在于:所述文本生成层用于将训练集中真实文本x的目标和立场输入对抗生成网络模型,对抗生成网络模型输出合成文本,获得预训练好的对抗生成网络模型;
将训练集中真实文本x的目标和立场输入预训练好的对抗生成网络模型,输出合成文本,将合成文本集成到训练数据中,生成新的训练数据集;
具体过程为:
所述对抗生成网络模型包括生成器和鉴别器;
所述生成器Gθ为文本生成器GPT-2;
所述鉴别器Dφ为Roberta;
将训练集中真实文本x的目标和立场输入文本生成器GPT-2,文本生成器GPT-2输出合成文本
其中,条件a为属性描述,为真实文本x的目标和立场;Gθ为文本生成器GPT-2,为文本生成器GPT-2输出合成文本;
将文本生成器GPT-2输出合成文本和真实文本x输入鉴别器Dφ,鉴别器Dφ输出真实文本x的置信度得分pr和合成文本的置信度得分pg;
所述鉴别器Dφ输出真实文本x的置信度得分0pr1;
所述鉴别器Dφ输出合成文本的置信度得分0pg1;
基于鉴别器Dφ输出的合成文本的置信度得分pg获得稀疏奖励Ry;
生成器损失函数为:
其中,y1:T是生成器输出文本序列,T是序列长度,ò是裁剪因子,是奖励信号Ry规范化后的奖励,clip是裁剪函数;r(θ)是当前生成器输出值和上一次生成器输出值得比值;
鉴别器损失为:
基于鉴别器Dφ输出合成文本的置信度得分pg计算交叉熵损失,将交叉熵损失作为鉴别器的损失函数,鉴别器为生成器提供奖励信号Ry;
同时,Roberta作为鉴别器Dφ来区分真实样本x和合成样本
在生成器和鉴别器同时满足以下目标函数对抗生成网络模型达到鞍点时,获得预训练好的对抗生成网络模型:
其中,为鉴别器Dφ期望,为生成器期望;为把x、输入鉴别器,Dφ(x,Gθ(a))为把x、Gθ(a)输入鉴别器;
将训练集中真实文本x的目标和立场输入预训练好的对抗生成网络模型,输出合成文本,将合成文本集成到训练数据中,生成新的训练数据集。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东北林业大学,未经东北林业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211517007.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:交替变压运行的烤烟调制工艺
- 下一篇:一种汽轮机抽汽调节阀