[发明专利]一种基于文档向量的电影评论情感分析方法有效
申请号: | 201911334017.X | 申请日: | 2019-12-20 |
公开(公告)号: | CN111078840B | 公开(公告)日: | 2022-04-08 |
发明(设计)人: | 夏言;杜歆 | 申请(专利权)人: | 浙江大学 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/35;G06F40/242;G06F40/279;G06F40/30 |
代理公司: | 杭州求是专利事务所有限公司 33200 | 代理人: | 邱启旺 |
地址: | 310058 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 文档 向量 电影 评论 情感 分析 方法 | ||
本发明公开了一种基于文档向量的电影评论情感分析方法。该方法首先对电影评论进行数据清洗以及预处理,构建情感分析数据集。然后使用电影的评论和评论对应的评分训练改进的文档向量模型。然后将电影的评论输入到改进的文档向量模型得到电影评论的词向量和文档向量,并将电影评论对应的词向量平均后与文档向量拼接生成特征向量。最后使用基于电影评论生成的特征向量和电影评论对应的评分训练分类模型,对电影评论进行情感分类。本发明通过使用改进的文档向量生成方法,提高了电影评论情感分类的准确率。
技术领域
本发明属于文本分类领域,尤其涉及一种基于文档向量的电影评论情感分析方法。
背景技术
电影评价是用户在观影后发表的自己对于电影的评论和观点。一方面影片的评价是用户选择电影的重要依据,用户通常会通过查看影片的评价来了解影片的特点以及优缺点。另一方面制片商希望通过用户的评价来了解影片可能存在的问题以及用户的需求。制片商通过分析用户的评价可以对影片进行改进,提高影片的质量。情感分析作为用户评价分析的重要内容可以将用户评论按照情感极性进行分类,能够统计出影片积极情感和消极情感的比例以便对影片有更直观的认识。情感分析也能够帮助用户和制片商找到感兴趣的评价。
目前词嵌入的方法是情感分析的主流方法,这类方法主要通过无监督的方法训练词向量模型,得到单词的向量空间表示。然后通过对评论中的单词对应的词向量进行加权平均来得到文档向量。最后使用文档向量训练分类模型预测文档的情感类别。但是这类方法使用词向量加权平均的方法得到的文档向量不能够考虑评论中单词的顺序,因此会影响情感分类的性能。另一方面这类方法使用无监督的方式训练词向量,因此训练出的词向量只能够表示单词的语义和语法信息,无法表示和情感相关的信息也会影响情感分类的性能。
发明内容
本发明的目的在于针对现有方法的不足,提出了一种基于改进的文档向量的情感分析方法。
本发明的目的是通过以下技术方案来实现的:一种基于文档向量的电影评论情感分析方法,包括以下步骤:
(1)输入训练集电影评论,进行数据预处理,得到文档矩阵D和单词矩阵V及评论的情感类别;
(2)设置模型参数,随机初始化投影层参数H和投影层偏置b,根据步骤(1)得到的文档矩阵D和单词矩阵V及评论的情感类别训练文档向量模型,并得到训练集电影评论的特征向量;所述文档向量模型包括面向任务的分布式记忆模型和面向任务的分布式词袋模型;
(3)待测电影评论经过步骤(1)预处理后,将其文档向量输入到步骤(2)训练得到的文档向量模型中预测,更新文档向量并得到预测集电影评论的特征向量;
(4)将步骤(2)得到的训练集电影评论的特征向量结合对应的情感类别训练分类模型;模型的输入为电影评论的特征向量,输出为电影评论的情感类别;
(5)将步骤(3)得到的预测集电影评论的特征向量输入步骤(4)训练的分类模型,分析得到预测集电影评论的情感类别。
进一步地,所述步骤(1)包括以下子步骤:
(1.1)评论的情感类别包括消极情感Lable1、积极情感Lable2等;评分小于评分阈值的评论为消极情感的评论;评分大于评分阈值的评论为积极情感的评论;删除评分等于评分阈值的评论;
(1.2)删除评论中的特殊符号;删除少于最小字数的评论以及评分缺失和评分为零的评论;利用中文分词算法将评论拆分为单词,并删除停用词;删除剩余单词中出现次数少于三次的单词;
(1.3)将步骤(1.2)剩余的每条评论作为一个文档,将所有文档中出现的单词构成词典;为每个文档分配文档ID,为词典中的每个单词分配单词ID;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911334017.X/2.html,转载请声明来源钻瓜专利网。