[发明专利]一种结合情感词典的卷积神经网络文本情感分析方法在审
申请号: | 201810215323.0 | 申请日: | 2018-03-15 |
公开(公告)号: | CN108647219A | 公开(公告)日: | 2018-10-12 |
发明(设计)人: | 杨骏;印鉴;高静 | 申请(专利权)人: | 中山大学;广东恒电信息科技股份有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06N3/04 |
代理公司: | 广州粤高专利商标代理有限公司 44102 | 代理人: | 林丽明 |
地址: | 510275 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 卷积神经网络 文本情感 情感词典 情感极性 词向量 语料 相乘 模型训练过程 准确度 矩阵表示 分析 关注点 停用词 算法 拼接 句子 嵌入 标注 词语 英文 评论 | ||
1.一种结合情感词典的卷积神经网络文本情感分析方法,其特征在于,包括以下步骤:
S1:首先获取英文文本语料,接着对语料进行情感分类标注,最后将语料分为训练和测试集两个集合;
S2:对步骤S1)中的所有语料集进行停用词处理;
S3:使用word2vec算法对步骤S2)中获取的语料进行训练得到相应的词向量;
S4:根据sentiwordnet(情感词典)获取预知的各词语的情感极性分布,并利用词语在不同极性上的权重与该词语的词向量相乘,得到词语在不同情感取向下的特征表示;
S5:将处理后的训练集语料按照句子顺序拼接起来形成矩阵放进卷积神经网络中进行训练,其中句子里的词语在多个情感取向下的表示可以拼接得到多个矩阵,而这多个矩阵对应卷积神经网络中的多个频道;
S6:将步骤S2)、S3和步骤S4处理获取的测试集语料放入步骤S5中训练好的情感分析模型,最终获取测试集的情感分类结果。
2.根据权利要求1所述的结合情感词典的卷积神经网络文本情感分析方法,其特征在于,所述步骤S1的具体过程是:
先通过爬虫或其它软件获取具有情感极性的英文文本语料;接着对文本语料进行情感分类标注,文本标注分为积极,中性,消极三种;最后将标注好的文本语料以8:2的比例划分为训练集和测试集两个集合。
3.根据权利要求2所述的结合情感词典的卷积神经网络文本情感分析方法,其特征在于,所述步骤S2的具体过程是:
对获取的英文语料做去停用词的处理,去除句子中“the”,“this”,“a”,“an”等不表达情感的词语。
4.根据权利要求3所述的结合情感词典的卷积神经网络文本情感分析方法,其特征在于,所述步骤S3的具体过程如下:
使用python中的gensim库,对步骤S2)得到的语料进行训练,通过训练获取语料库中每个词语对应的词向量。
5.根据权利要求4所述的结合情感词典的卷积神经网络文本情感分析方法,其特征在于,所述步骤S4的具体过程如下:
S41:根据情感词典sentiwordnet获取训练语料中各词语对应的积极值,消极值,客观值,若某词语在词典中的极性下有多个值,则取其平均值代表词语在该极性下的分值;若词典中不存在输入语料的某个词,则设置其积极值,消极值,客观值都为1;
S42:在步骤S3中,每个词语得到了一个向量表示,这个向量叫做词向量。在步骤S4中,每个词语得到了三个对应的情感值,在这里直接把词语的每个情感值与其词向量相乘,每个词即可得到三个对应的三个词向量,他们分别是积极词向量,消极词向量和客观词向量。
6.根据权利要求5所述的结合情感词典的卷积神经网络文本情感分析方法,其特征在于,所述步骤S5的具体过程如下:
S51:把每句话中的词语所对应的积极词向量拼接起来,作为句子的积极表示矩阵,把每句话中的词语所对应的消极词向量拼接起来,作为句子的消极表示矩阵,把每句话中的词语所对应的客观词向量拼接起来,作为句子的客观表示矩阵。这三个矩阵作为CNN输入中的三个不同频道;
S52:将拼接得到的词向量矩阵输入卷积神经网络CNN中训练出情感分析模型,CNN模型结构具体如下:
采用的CNN模型包含三个基本元素:卷积层、池化层和输出层,在卷积层中,定义了多个权值矩阵用于对输入矩阵进行卷积操作,不同的权值矩阵用来提取输入信息中不同的特征,在卷积层获取特征后,通过池化层来减少训练参数的数量,池化在每一个频道上独立完成,因此输入矩阵的纵深保持不变,这里使用的是最大池化;经过了卷积层和池化层的操作,输出层将来自它们的输入进行平化和连接,从而产生输出;若输出信息错误,将会进行反向传播,以不断改变权值矩阵权重和偏差值;
S53:对每个minibatch中的语料计算损失函数,并通过反向传播来优化网络内的参数。经过多轮迭代后,当准确率趋于稳定时,完成模型训练。
7.根据权利要求6所述的结合情感词典的卷积神经网络文本情感分析方法,其特征在于,所述步骤S6的具体过程如下:
将通过步骤S2和步骤S3处理后的测试集语料放入步骤S5中来获取情感分类结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中山大学;广东恒电信息科技股份有限公司,未经中山大学;广东恒电信息科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810215323.0/1.html,转载请声明来源钻瓜专利网。