[发明专利]基于汉字部件特征的卷积神经网络的文本情感分析方法有效
申请号: | 201810187041.4 | 申请日: | 2018-03-07 |
公开(公告)号: | CN108446271B | 公开(公告)日: | 2021-11-26 |
发明(设计)人: | 熊绘;龙冬阳;余跃;甘加升 | 申请(专利权)人: | 中山大学 |
主分类号: | G06F40/242 | 分类号: | G06F40/242;G06F40/289;G06F16/35;G06N3/04 |
代理公司: | 广州粤高专利商标代理有限公司 44102 | 代理人: | 林丽明 |
地址: | 510275 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提供一种基于汉字部件特征的卷积神经网络的文本情感分析方法,该方法首先考虑情感词的情感强烈程度,结合Attention优化情感词典中词的权重;同时在特征提取方面采用了更细粒度的特征,由于中文的基本语素是汉字部件,其携带语音和语义等丰富信息,不同于英文的26个字母,最终提出了一种基于汉字组成部件与情感词典的双通道词嵌入的卷积神经网络的中文文本情感分类方法,在多个公开数据集上实验证明,该模型可以显著提高文本的情感分类效果。 | ||
搜索关键词: | 基于 汉字 部件 特征 卷积 神经网络 文本 情感 分析 方法 | ||
【主权项】:
1.一种基于汉字部件特征的卷积神经网络的文本情感分析方法,其特征在于,包括以下步骤:S1:获取汉字和汉字组成部件的信息:从HTTPCN网站爬取所有汉字的组成部件和部首的数据,以列表形式保存所有基本部件,以字典形式保存所有汉字和其对应的部件序列,最后生成部件级别的词嵌入;S2:得到第一个输入通道表达:对情感分类语料的所有中文文本以汉字为单位,基于汉字组成部件的字典和部件级的词嵌入生成汉字级别的部件嵌入表达,即第一个通道的输入;S3:得到第二个输入通道表达:对情感分类语料的所有中文文本进行分词和词性标注,结合词性匹配情感词典,对情感词的情感强度结合Attention机制优化权重,获得第二个通道的输入;S4:第一个CNN:第一个输入通道作为char‑cnn的输入,连接卷积核大小为[2,3,4,5]、卷积核数目为256的卷积层,通过1‑max池化层选取最显著的特征,再接入全连接层和softmax层,得到情感类别;S5:第二个CNN:第二个输入通道作为cnn的输入,连接卷积核大小为[2,3,4]、卷积核数目为256的卷积层,通过1‑max池化层选取最显著的特征,再接入全连接层和softmax层,得到情感类别;S6:融合两个CNN:两个输入通道分别得到一个情感类别输出,作为一个新的DNN的输入,接入全连接层,通过分类器最终得到目标情感倾向。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中山大学,未经中山大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201810187041.4/,转载请声明来源钻瓜专利网。