[发明专利]一种基于BERT的多特征细粒度中文短文本情感分类方法在审

专利信息
申请号: 202210066218.1 申请日: 2022-01-20
公开(公告)号: CN114443845A 公开(公告)日: 2022-05-06
发明(设计)人: 丁晓静;卓胜祥;范华俊;左宁 申请(专利权)人: 序跋网络科技(上海)有限公司
主分类号: G06F16/35 分类号: G06F16/35;G06F40/30;G06N3/04;G06N3/08
代理公司: 暂无信息 代理人: 暂无信息
地址: 200000 上海市*** 国省代码: 上海;31
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 bert 特征 细粒度 中文 文本 情感 分类 方法
【说明书】:

发明公开了一种基于BERT的多特征细粒度中文短文本情感分类方法,包含以下步骤:步骤A、多维度特征综合表达:模型的输入有效特征包括4种:独热编码特征、位置编码特征、字形特征、拼音特征;四种特征均有相同的维度大小,进一步求平均后得到一个综合性的特征表达,该特征经过BERT模型后得到最终的特征表达;BERT Transformer叠加了多个多头自注意与前向神经网络模块,本发明加入的字形与拼音特征一定程度上可兼容输入文本中的字形相似或者同音字的错误,即使发生了这类错误也可正确提取相关语义,使模型可自适应于真实世界中的错误文本,提高模型预测的准确度。

技术领域

本发明涉及网络技术领域,具体是一种基于BERT的多特征细粒度中文短文本情感分类方法。

背景技术

情感分析的目标是从文本中分析出人们对于实体及其属性所表达的情感倾向,这项技术最早的研究始于2003年Nasukawa和Yi两位学者的关于商品评论的论文。随着微博等社交媒体以及电商平台的发展而产生大量带有情感倾向的内容,给情感分析提供了所需的数据基础。时至今日,情感分析已经在多个领域被广泛的应用。例如:在商品零售领域,用户的评价对于零售商和生产商都是非常重要的反馈信息,通过对海量用户的评价进行情感分析,可以量化用户对产品及其竞品的褒贬程度,从而了解用户对于产品的诉求以及自己产品与竞品的对比优劣;在社会舆情领域,通过分析大众对于社会热点事件的点评可以有效的掌握舆论的走向;在企业舆情方面,利用情感分析可以快速了解社会对企业的评价,为企业的战略规划提供决策依据,提升企业在市场中的竞争力;在金融交易领域,分析交易者对于股票及其他金融衍生品的态度,为行情交易提供辅助依据。

现有流行的情感分析模型可大致分为两个部分:

1、对文本进行特征提取,即进行编码表示。编码的方式分为两种,自回归与自编码。自回归是单向模型,基于Transformer模型中的解码部分;自编码是双向模型,基于Transformer模型中的编码部分。

Transformer是 Google 团队在2017年6月提出的 NLP 经典之作, 由AshishVaswani 等人在 2017 年发表的论文Attention Is All You Need中提出。它的模型结构如图1所示:

实现特征到情感类别的映射,一般是外接一个全连接层与softmax层,将特征转变为情感类别数维度的特征后将其归一化得到各类别的概率。

现有技术大多是直接在原始的BERT预训练模型基础上加入分类层进行微调。将在大量通用语料上预训练得到的BERT模型再使用某特定领域语料以及特定任务标注语料进行微调训练,充分抽取出特定语料在特征任务下的token的内在含义。

现有技术一的缺点如下:

a)原始BERT模型特征过于单一,输入encode部分的特征仅独热编码向量、位置编码向量以及token类型向量,其中因为情感分析场景中输入仅单句,因此token类型向量固定,不具备有效信息。

b)在标注数据稀少的情况下采用现有技术直接进行微调,容易陷入过拟合,无法保证模型的鲁棒性。

c)模型会受到分类层初始化以及学习率,batch大小,权重衰减率等其他超参数影响陷入不同的极值点,而各个极值点在不同测试集上的表现优劣不同,如果最终只采用单一模型结果可能在效果上会有所偏颇。

d)业界大多的情感分类标注为2-3个类别,如正向、负向、中性等。在实际应用中这样 的分类过于简陋,人类的情感表现与倾向会更细致复杂,因此这样粗粒度的情感分类信息量过少,不利于后续的深度分析。

发明内容

本发明的目的在于提供一种基于BERT的多特征细粒度中文短文本情感分类方法,以解决上述背景技术中提出的问题。

为实现上述目的,本发明提供如下技术方案:

一种基于BERT的多特征细粒度中文短文本情感分类方法,包含以下步骤:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于序跋网络科技(上海)有限公司,未经序跋网络科技(上海)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202210066218.1/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top