[发明专利]自适应加权的短文本情感分类方法、电子设备和存储介质在审
申请号: | 202310052234.X | 申请日: | 2023-02-02 |
公开(公告)号: | CN116028625A | 公开(公告)日: | 2023-04-28 |
发明(设计)人: | 胡郅昊;田新梅 | 申请(专利权)人: | 中国科学技术大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F18/214;G06N3/084 |
代理公司: | 安徽省合肥新安专利代理有限责任公司 34101 | 代理人: | 陆丽莉;何梅生 |
地址: | 230026 安*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 自适应 加权 文本 情感 分类 方法 电子设备 存储 介质 | ||
本发明公开了一种自适应加权的短文本情感分类方法、电子设备和存储介质,该短文本情感分类方法步骤包括:1)获取短文本集合并进行预处理,使用DeepMoji模型提取特征向量;2)利用短文本情感标签和步骤1中提取到的短文本特征向量预训练分类模型;3)自适应地为不同年龄阶段的样本赋予权重,并基于加权后的损失函数更新分类模型参数;4)重复步骤3,直至样本权重和模型参数收敛为止,并得到更新后的分类模型;4)利用更新后的分类模型对短文本进行情感分类。本发明能去除情感分类模型对年龄的偏见,从而完成更加精准和公平的情感分类。
技术领域
本发明属于文本分类和公平表征领域,具体的说是一种自适应加权的短文本情感分类方法、电子设备和存储介质。
背景技术
近些年来电子商务技术的进步突飞猛进,电子商务用户的数量也呈几何倍的速度爆炸增长,这其中就产生了海量针对商品的用户评论,因此采用传统的人工阅读评论的方法已经不再合适,通过自然语言处理技术分辨评论者的情绪是未来的发展方向。但是由于人类语言的复杂性,在一个年龄群体中表达喜爱的评价,在另一个年龄群体中可能表示反讽,导致情感分类模型针对不同群体的准确率有差异,对部分群体不利。因此,提升模型的公平性,是自然语言处理任务中的重要问题。
发明内容
本发明是为了解决上述现有技术存在的不足之处,提出一种自适应加权的短文本情感分类方法、电子设备和存储介质,以期能在保证情感分类模型准确率的情况下,提升模型的公平性。
本发明为达到上述发明目的,采用如下技术方案:
本发明一种自适应加权的短文本情感分类方法的特点在于,包括以下步骤:
S1、获取评论数据中带有表情包的短文本并作为语料库,根据任意一条短文本的评论者年龄和其包含的表情包种类进行分类和数据清洗的预处理操作,得到相应带标签的短文本集合,记为其中,表示第k个年龄阶评论者的第i条短文本,表示第k个年龄阶评论者的第i条短文本的情感标签,取值为{0,1};i=1,2,…,Nk,Nk表示第k个年龄段评论者的短文本总数;k=1,2,…,K,K表示年龄阶段总数;
采用训练好的特征提取模型DeepMoji对短文本集合提取文本特征,得到短文本特征集合其中,表示第k个年龄段评论者的第i条短文本的特征向量;
S2、构建一个由全连接网络组成的分类模型,并将短文本特征集合输入所述分类模型中进行处理,输出第k个年龄段评论者的第i条短文本特征的情感预测值
S3、利用式(1)构建分类模型的交叉熵损失L:
S4、利用梯度下降法对所述分类模型进行预训练,并计算所述交叉熵损失L以更新模型参数,直到交叉熵损失L收敛为止,从而得到预训练后的分类模型;
S5、对预训练后的分类模型的更新:
S5.1、定义当前迭代次数为t,并初始化t=1;将预训练后的分类模型作为第t-1次迭代的分类模型;
S5.2、利用式(2)计算第t次迭代中第k个年龄段评论者的第i条短文本的权重
式(2)中,α是一个取值范围在[0,100]之间的参数,η是一个取值范围在[0,3]之间的参数,exp是自然底数,表示第t-1次迭代中第k个年龄段评论者的第i条短文本的权重,当t=1时,令表示第t次迭代中分类模型对第k个年龄段评论者的第i条短文本预测的情感标签,取值范围为[0,1],当t=1时,令第t-1次迭代中分类模型对第i条短文本预测的情感标签第t-2次迭代中分类模型对第i条短文本预测的情感标签
利用式(3)构建第t次迭代的加权损失函数Lt:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学技术大学,未经中国科学技术大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310052234.X/2.html,转载请声明来源钻瓜专利网。