[发明专利]一种基于对抗训练融合BERT的微博文本情感分析方法及系统有效
申请号: | 202211321734.0 | 申请日: | 2022-10-27 |
公开(公告)号: | CN115392259B | 公开(公告)日: | 2023-04-07 |
发明(设计)人: | 黄斐然;刘文骁;刘炜麟;支庭荣 | 申请(专利权)人: | 暨南大学 |
主分类号: | G06F40/30 | 分类号: | G06F40/30;G06N3/044;G06N3/0464;G06F18/214;G06F16/35;G06F40/289 |
代理公司: | 广州汇盈知识产权代理事务所(普通合伙) 44603 | 代理人: | 邓有才 |
地址: | 510632 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 对抗 训练 融合 bert 文本 情感 分析 方法 系统 | ||
1.一种基于对抗训练融合BERT的微博文本情感分析方法,其特征在于,包括以下步骤:
S1文本预处理步骤:读取原始微博文本数据集,对原始微博文本数据集进行数据扩充,得到预处理文本数据;
S2预训练步骤:将所述预处理文本数据输入增量BERT模型中进行训练,得到增量预训练模型;
S3下游微调步骤:将所述增量预训练模型在下游任务中结合所述预处理文本数据集进行微调,并结合对抗训练的方法,对Embeddings的权重矩阵进行扰动,输出保存为情感分类预测模型;
其中所述微调步骤包括,
将预处理文本数据集按比例划分为训练集、验证集和测试集,其中训练集、验证集和测试集比例为(6:2:2);对增量预训练模型进行训练;输出包含增量预训练模型的参数配置信息,训练过程中,每一批次的中间在进行完前向计算loss和后向传播计算梯度grad后,加入所述对抗训练;
将所述增量预训练模型根据具体任务的不同所述参数配置信息微调得到下游微调模型;
所述对抗训练步骤包括,
根据所述下游微调模型反向传播计算出来的梯度来寻找最佳扰动项r,将r与数据集各Embeddings的权重矩阵进行相加,接着进行前向计算,使其对抗损失adv_loss达到最大;
对于最佳扰动项计算出的损失adv_loss,将其进行后向计算,得出梯度adv_grad,最后进行所述下游微调模型的权重参数的更新;
读取目标微博文本数据生成目标任务,通过所述情感分类预测模型执行目标任务,输出目标微博文本数据情感分析结果。
2.根据权利要求1所述的一种基于对抗训练融合BERT的微博文本情感分析方法,其特征在于,所述数据扩充方法包括:对原始微博文本数据的情感极性进行分析,得到第一文本与第二文本,所述第一文本为“第一情感极性”的文本数据,所述第二文本为除所述第一文本以外的其他文本数据;对所述第一文本进行第一预处理得到第一扩充文本;对所述第一扩充文本与所述第二文本进行第二预处理,得到预处理文本数据。
3.根据权利要求2所述的一种基于对抗训练融合BERT的微博文本情感分析方法,其特征在于,所述第一预处理方法包括以下步骤:
S11外部评论数据集扩充步骤:采用互联网搜集到的相关微博情感评论文本作为扩充来源进行扩充;
S12EDA数据增强扩充步骤:将所述第一文本进行分词处理得到分词集,对所述分词集进行EDA数据增强;
S13回译法扩充步骤:通过翻译器将所述第一文本翻译为第一译文,再将所述第一译文翻译为第二译文,所述第一译文与所述第二译文为不同语种,所述第二译文为中文,将所述第二译文数据添加至所述第一扩充文本中。
4.根据权利要求3所述的一种基于对抗训练融合BERT的微博文本情感分析方法,其特征在于,所述S12EDA数据增强扩充步骤包括:同义词替换步骤、随机插入步骤、随机交换步骤与随机删除步骤。
5.根据权利要求2所述的一种基于对抗训练融合BERT的微博文本情感分析方法,其特征在于,所述第二预处理方法包括:
S14超长文本截断步骤:设置单句文本标准长度,将超过单句文本标准长度的文本数据根据语义拆分成若干子句后,再进行输入;
S15超短文本补齐步骤:将长度小于单句文本标准长度的文本用符号[PAD]补齐;
S16特殊符号处理步骤:将所述文本中的回复和转发标记、用户ID、网址,通过正则表达式去除;将所述文本中的表情符号,采用Python的第三方开源库将其转换为对应的中文释义;
S17全角转半角步骤:将所述文本中的全角符号转换为半角符号。
6.根据权利要求1所述的一种基于对抗训练融合BERT的微博文本情感分析方法,其特征在于,所述预训练步骤包括:
生成增量BERT模型;
将预处理文本数据通过词嵌入后变成词向量,将词向量输入进增量BERT模型中,与分段Embeddings和位置Embeddings信息融合,输出词嵌入向量,完成编码。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于暨南大学,未经暨南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211321734.0/1.html,转载请声明来源钻瓜专利网。