[发明专利]文本情感分类方法在审
申请号: | 201910452874.3 | 申请日: | 2019-05-28 |
公开(公告)号: | CN110134793A | 公开(公告)日: | 2019-08-16 |
发明(设计)人: | 张小松;范文慧;牛伟纳;任仲蔚;潘文强;蓝皓月 | 申请(专利权)人: | 电子科技大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35 |
代理公司: | 成都智言知识产权代理有限公司 51282 | 代理人: | 濮云杉 |
地址: | 610000 四川省成*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 词向量 文本数据 文本情感分类 预处理 神经网络 拼接 分类处理 分类能力 数据模型 语义分析 中文词语 数据集 小样本 优化 样本 概率 | ||
本发明涉及文本情感分类方法,包括有对待处理的文本数据进行预处理,步骤包括有:A.在所述的预处理中包括了通过不同的现有的词向量模型对待处理的文本数据进行预训练,将同一个词经不同的词向量模型预训练后所对应的所有不同的词向量表达拼接为一个整体,形成优化后的词向量;B.将所述优化后的词向量输入到不同的神经网络中,分别提取待处理的文本数据的不同特征;C.将不同神经网络提取的所有特征拼接后进行分类处理,得到待处理的文本数据的每个处理样本属于不同情感类别的概率值。本发明的文本情感分类方法,显著提高了中文词语语义分析的准确性,并且大幅度提升了数据模型在小样本数据集上的分类能力。
技术领域
本发明涉及自然语言处理,具体是一种文本情感分类方法。
背景技术
随着互联网技术的发展以及模型化深度学习的兴起,文本情感分析的研究越来越热门。该研究不仅对于科研人员,而且对日常生活也有着非常重要的实际意义,例如政府部门可以通过分析网络舆论情感倾向引导舆论发展,电商商家可以通过分析用户评论情感倾向了解用户偏好等。
目前常用的文本情感分类方法包括基于词典的情感分类、基于传统机器学习的情感分类和基于深度学习的分类方法。前两种分类方法对人工先验知识要求较高,需要人工提取特征和构建情感词典等,工作繁重复杂且不容易推广,因此现在更为流行和实用的是基于深度学习的情感分类方法。
文本情感分析目前还存在有跨语言、语料缺乏等问题。现有的很多分析模型在英文数据集上有良好的表现,但在中文数据集上不一定适用,而语料的缺乏又会影响到模型的性能,使得最终分析出的文本情感不准确或无法分析。
发明内容
本发明提供了一种文本情感分类方法,对基于深度学习的分类方法进行了改进,以能够更准确的分析出中文词语语义,并且提升数据模型在小样本数据集上的分类能力。
本发明的文本情感分类方法,包括有对待处理的文本数据进行预处理,步骤包括有:
A.在所述的预处理中包括了通过不同的现有的词向量模型对待处理的文本数据进行预训练,将同一个词经不同的词向量模型预训练后所对应的所有不同的词向量表达拼接为一个整体,形成优化后的词向量;
B.将所述优化后的词向量输入到不同的神经网络中,分别提取待处理的文本数据的不同特征;
C.将不同神经网络提取的所有特征拼接后进行分类处理,得到待处理的文本数据的每个处理样本属于不同情感类别的概率值。
通过多种不同的现有的词向量模型对文本数据进行预训练,并将所有训练后的词向量拼接进行优化,能够极大程度避免单个词向量模型对文本数据分析的局限性和片面性,有效提高了最终对文本所述不同情感类别的判断。
进一步的,步骤B中所述不同的神经网络包括卷积神经网络和循环神经网络。卷积神经网络(Convolutional Neural Networks,CNN)是一类包含卷积计算且具有深度结构的前馈神经网络(Feedforward Neural Networks),是深度学习的代表算法之一;循环神经网络(Recurrent Neural Network,RNN)是一类以序列数据为输入,在序列的演进方向进行递归且所有节点(循环单元)按链式连接的递归神经网络。循环神经网络在自然语言处理,如语音识别、语言建模、机器翻译等领域有重要的应用,其具有记忆性、参数共享并且图灵完备等特点,能以很高的效率对序列的非线性特征进行学习。
具体的,所述的卷积神经网络通过不同尺寸的卷积核来提取所述文本数据中不同尺寸的特征,卷积核的尺寸一般在3~7之间。并将提取的所述特征经RELU函数(RectifiedLinear Unit,修正线性单元,一种人工神经网络中常用的激活函数,通常指代以斜坡函数及其变种为代表的非线性函数)非线性激活之后再进行一次topK(K个最大值)的池化操作进一步提取其特征,然后将进一步提取的特征拼接起来输出到步骤C中。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学,未经电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910452874.3/2.html,转载请声明来源钻瓜专利网。