[发明专利]一种基于BERT的多特征细粒度中文短文本情感分类方法在审
| 申请号: | 202210066218.1 | 申请日: | 2022-01-20 |
| 公开(公告)号: | CN114443845A | 公开(公告)日: | 2022-05-06 |
| 发明(设计)人: | 丁晓静;卓胜祥;范华俊;左宁 | 申请(专利权)人: | 序跋网络科技(上海)有限公司 |
| 主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/30;G06N3/04;G06N3/08 |
| 代理公司: | 暂无信息 | 代理人: | 暂无信息 |
| 地址: | 200000 上海市*** | 国省代码: | 上海;31 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 bert 特征 细粒度 中文 文本 情感 分类 方法 | ||
1.一种基于BERT的多特征细粒度中文短文本情感分类方法,其特征在于,包含以下步骤:
步骤A、多维度特征综合表达:模型的输入有效特征包括4种:独热编码特征、位置编码特征、字形特征、拼音特征;四种特征均有相同的维度大小,进一步求平均后得到一个综合性的特征表达,该特征经过BERT模型后得到最终的特征表达;BERT Transformer 叠加了多个多头自注意与前向神经网络模块,其中自注意模块使用双向注意机制,即每个token同时关注到其左右侧的上下文,多头自注意模块公式为MultiHead (Q ,K ,V)=Concat(head1,...,headh )W0,headi=Attention(QWiQ ,KWiK,VWiV),W0为head拼接后还原维度的权重矩阵,WiQ,WiK,WiV分别为Q,K,V的权重矩阵,其中中Attention的计算公式为,Q,K,V分别为输入query、key、value向量,dk为向量度,多头自注意模块通过减少维度来降低计算所消耗的资源;
步骤B、文本向量特征到情感分类概率化特征的映射:通过一个分类层实现上一步得到的文本向量特征到情感分类特征的映射,此时得到一个class_size的特征表示,经过softmax层将该表示概率化,即实现每一维度值处于0-1之间且所有维度值加和等于1,分类层公式为 S=(WT X+b),W为n×j的全连接权重矩阵,b为偏置项,X是特征提取层输出的向量,得到的S进入softmax层,公式为 ,其中Pi为文本类别i的概率,Si为分类层输出的第i个神经元内的数值,j为预测类别数;
步骤C、模型融合:将通过不通超参数设置得到的前3个模型预测结果进行加权平均。
2.根据权利要求1所述的一种基于BERT的多特征细粒度中文短文本情感分类方法,其特征在于,所述独热编码特征是生成了一个vocab_size*embedding_size的编码矩阵,由token的字典id在编码矩阵中进行查询得到。
3.根据权利要求1所述的一种基于BERT的多特征细粒度中文短文本情感分类方法,其特征在于,所述位置编码特征继承自BERT预训练模型中的512*embedding_size的编码矩阵,最多可对512长度的文本进行编码。
4.根据权利要求3所述的一种基于BERT的多特征细粒度中文短文本情感分类方法,其特征在于,所述字形特征采用了三种字体:仿宋、行楷和隶书,图形化表达进行卷积与池化操作得到。
5.根据权利要求4所述的一种基于BERT的多特征细粒度中文短文本情感分类方法,其特征在于,所述拼音特征是将汉字的全拼字母进行embedding映射后求平均得到。
6.根据权利要求1所述的一种基于BERT的多特征细粒度中文短文本情感分类方法,其特征在于,所述BERT模型结构是一系列Transformer编码器的叠加,旨在通过联合调节所有层中的上下文来预先训练深度双向表示。
7.根据权利要求1所述的一种基于BERT的多特征细粒度中文短文本情感分类方法,其特征在于,所述分类层为embedding_size*class_size的前向网络。
8.根据权利要求1所述的一种基于BERT的多特征细粒度中文短文本情感分类方法,其特征在于,模型的训练过程分为两步:
Mask ML无监督训练,对于特定领域未标注文本,通过Mask ML策略构造训练数据,对模型进行预训练,即对于每一个句子中的token:
85%的概率,保留原词不变;
15%的概率,使用以下方式替换:
80%的概率,使用字符[MASK],替换当前token;
10%的概率,使用词表随机抽取的token,替换当前token;
10%的概率,保留原词不变;
2)文本分类的有监督训练:根据标注标签计算在[CLS]位置输出的概率结果与真实标注结果的交叉熵损失,再通过梯度的反向传播计算各个参数的梯度,进行参数更新。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于序跋网络科技(上海)有限公司,未经序跋网络科技(上海)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210066218.1/1.html,转载请声明来源钻瓜专利网。





