[发明专利]一种基于改进CNN-LDA的情感分析方法有效

专利信息
申请号: 201910248424.2 申请日: 2019-03-29
公开(公告)号: CN109977413B 公开(公告)日: 2023-06-06
发明(设计)人: 张咪;章韵 申请(专利权)人: 南京邮电大学
主分类号: G06F40/30 分类号: G06F40/30;G06F40/279;G06N3/0464;G06N3/08
代理公司: 南京纵横知识产权代理有限公司 32224 代理人: 董建林
地址: 210003 江苏*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明公开了一种基于改进CNN‑LDA的情感分析方法,包括:爬虫豆瓣影评数据进行预处理;采用Word2vec获得语料集词向量;利用情感词典添加情感倾向权重;将Word2vec得到的词向量与情感倾向权重向量机获得情感倾向词向量;采用LDA主题生成模型获得语料集主题向量;将情感倾向词向量与主题向量叠加得到语料集的输入表征;将训练集词向量表征输入CNN模型以建立情感分析模型;最后将测试集词向量表征输入已训练网络进行分类评估。本发明提供了一种基于改进CNN‑LDA的情感分析方法,将情感倾向词向量与主题向量相结合,同时考虑了包含文本情感信息的词粒度和文本粒度层面的信息,从而可以在训练过程中更好的利用文本信息,提高文本情感分析的准确度。
搜索关键词: 一种 基于 改进 cnn lda 情感 分析 方法
【主权项】:
1.一种基于改进CNN‑LDA的情感分析方法,其特征在于:包括以下步骤:S01,从豆瓣平台采集豆瓣影评数据并进行预处理,豆瓣影评数据包括评论人ID,评论内容和影评星级评价,对影评评论内容中的语料进行情感分类标注,并将语料分为训练集和测试集两个集合;S02,使用Word2Vec算法训练S01获取的影评评论内容的语料集,将语句中的单词映射为多维度的连续向量,构建词向量矩阵;S03:构建情感词典,包括正向情感词、负向情感词、程度副词和否定副词,根据情感词典获取每条影评评论内容的正向情感词、负向情感词、程度副词和否定副词,将语料中词向量集合和情感词典作为输入,依次将语料中的词向量与词典集合中的情感词比较,计算相似度,并选取最优值作为该词向量的权值,输出词向量的情感倾向权重集合;S04:采用向量机的方式,结合S02得到的词向量矩阵与S03得到的情感倾向权重集合,对词向量赋予不同的权重,得到情感加权词向量表征;S05:利用LDA主题生成模型提取评论数据语料集主题特征,通过LDA训练S01获取的评论语料集,获得LDA主题分布概率,输出文本—主题、主题—词语矩阵,确定恰当个数的主题类别,将每条影评所属主题类别作为电影情感分析的主题特征,模型训练结束输出语料库任意文本的主题分布矩阵,得到主题向量表征;S06:采用向量拼接的方式,将S04得到的情感加权词向量表征与S05得到的主题向量表征叠加在一起,形成新的词向量表征,即同时包含词义特征和整体语义特征,并且加入情感倾向关注度;S07:将S06得到的训练集的新的词向量表征作为卷积神经网络的输入,训练模型;S08:将S06得到的测试集的新的词向量表征输入S07中已被训练的情感分析模型,进行情感分类,并计算其准确率。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京邮电大学,未经南京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201910248424.2/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top