[发明专利]基于情感中心的文本情感分类方法有效
申请号: | 201710588604.6 | 申请日: | 2017-07-19 |
公开(公告)号: | CN107491490B | 公开(公告)日: | 2020-10-13 |
发明(设计)人: | 王茂全;陈诗韵;吕钊 | 申请(专利权)人: | 华东师范大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/30 |
代理公司: | 上海蓝迪专利商标事务所(普通合伙) 31215 | 代理人: | 徐筱梅;张翔 |
地址: | 200241 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 情感 中心 文本 分类 方法 | ||
本发明公开了一种基于情感中心的文本情感分类方法,该方法包括:先将文本向量与类别情感向量中心的距离加入损失函数,通过损失函数将情感中心的影响加入到分类模型中;然后使用BLSTM将文本进行初步编码,通过注意力机制改善文本表示的准确度;在文本表征之上,通过情感类别向量与文本表征的距离值引入情感中心的信息,并在模型训练的过程中不断更新情感中心的实值向量表示,使其更加精准。本发明关注改善目标函数,新的目标函数利用文本情感中心的限制改善了文本情感分类,提升了文本情感分类的准确率。
技术领域
本发明属于自然语言处理技术领域,尤其涉及一种基于情感中心的文本情感分类方法。
背景技术
随着互联网技术的发展,人们越来越倾向于在社交网站上发表自己对于产品、事件等的 情感和观点。于是在这些社交网站中包含了大量富含情感的文本,对这些文本包含的情感信 息进行挖掘对研究人员或商家都大有裨益。已经有很多研究致力于挖掘这些数据信息,情感 分析的一个关键技术就是情感分类,就是将文本情感分为积极、中立和消极或者更细粒度的 分类为非常积极、积极、中立、消极和非常消极。
传统情感分类方法都是基于词典的方法或者基于机器学习的方法,现目前基于深度学习 的分类技术取得了比传统分类法更好的效果。但是之前的基于深度学习的各种神经网络主要 研究文本表征来区别不同评论文本的情感,这和正常的文本表征方法没有太大的区别,于是 目前有很少一部分研究开始关注改善目标函数去提升特征工程的性能。
发明内容
本发明的目的在于关注改善目标函数而提出的一种基于情感中心的情感分类方法,新的 目标函数利用文本情感中心的限制改善了文本情感分类,提升了文本情感分类的准确率。
实现本发明目的的具体技术方案是:
一种基于情感中心的文本情感分类方法,特点是:该方法包括以下具体步骤:
步骤1:情感中心约束的损失函数
将文本向量与类别情感向量中心的距离加入损失函数,通过损失函数将情感中心的影响 加入到分类模型中;
步骤2:文本表征和注意力(Attention)机制
使用BLSTM将文本进行初步编码,通过注意力机制改善文本表示的准确度;在文本表征 之上,通过情感类别向量与文本表征的距离值引入情感中心的信息,并在模型训练的过程中 不断更新情感中心的实值向量表示,使其更加精准。
所述将情感中心向量与文本表征的距离归入损失函数,采用学生t-分布来度量文本表征 向量和相关情感中心向量的距离;记归一化函数(Softmax)的损失函数值为Lsoft,情感中心 的损失函数值为:Lcenter;通过引入一个超参λ将所述两个损失函数值链接起来构成整个模型 的损失函数,既:L=λLsoft+(1-λ)Lcenter。
所述情感中心的损失函数值Lcenter的计算,采用随机产生的批量样本来更新情感中心向量; 其计算更新梯度为:其中△Cj为梯度,δ(condition)是条件函 数,如果条件为真,则δ=1,否则δ=0;m为批量样本大小,用i表示第i个样本;,Cyi为yi的情感中心向量,为样本属于Cyi的概率,yi为样本类别,j∈[1,k],k为分类类别。
本发明关注于改善目标函数,新的目标函数利用文本情感中心的限制改善了文本情感分 类,通过引入类别情感中心向量来约束文本自动编码结果。提升了文本情感分类准确率,并 得到了更好的文本空间表示。
附图说明
图1为基于情感中心的分层神经网络结构图。
具体实施方式
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华东师范大学,未经华东师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710588604.6/2.html,转载请声明来源钻瓜专利网。