[发明专利]影评情感分析中使用特征词集将影评以特征向量表示的方法有效
申请号: | 201810480149.2 | 申请日: | 2018-05-18 |
公开(公告)号: | CN108763203B | 公开(公告)日: | 2022-11-11 |
发明(设计)人: | 赵丹丹;高宠 | 申请(专利权)人: | 大连民族大学 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F16/35;G06K9/62 |
代理公司: | 大连智高专利事务所(特殊普通合伙) 21235 | 代理人: | 刘斌 |
地址: | 116600 辽宁省*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 影评 情感 分析 使用 特征 词集将 特征向量 表示 方法 | ||
影评情感分析中使用特征词集将影评以特征向量表示的方法,属于自然语言处理领域,为了解决影评情感分析可以被用于机器学习领域的问题,选取特征词,根据已下载的影评,提取有意义的情感词的集合作为特征词集,特征词集中的每个词为特征词;判断特征词集中的每一个特征词是否在该影评中出现,如果出现标注1,否则标注0,形成该影评的数组,将每条影评都转化为特征表示形式,作为特征向量,效果是可以使用在改进的朴素贝叶斯模型中,导致情感分析方法更为智能化,也提高了准确性。
技术领域
本发明属于自然语言处理领域,涉及一种影评情感分析中使用特征词集将影评以特征向量表示的方法。
背景技术
在各种论坛、购物网站、评论网站、微博等,越来越多的用户在上面发表着自己的意见、看法、态度、情感,如果能分析出用户的情感变化过程,那么这些评论就会为我们提供大量的信息。比如某个电影的评论,某个商品的评价等。根据对带有情感色彩的主观性文本进行分析,识别出用户的态度,是喜欢,讨厌,还是中立。在实际生活中有很多应用,例如通过对微博用户的情感分析,来预测股票走势、预测电影票房、选举结果等,还可以用来了解用户对公司、产品的喜好,分析结果可以被用来改善产品和服务,还可以发现竞争对手的优劣势等等。
在现有的技术中,对文本的情感分析主要是基于情感词典的中文情感分析,情感词典中的词语可以是单个字,也可以是词语。根据词典中的情感词情感极性的不同,将情感词典分为褒义词典及贬义词典,根据词典中情感词的极性及情感强度,计算整个句子的情感得分,最后得出句子的情感倾向,然而,该种方法对于一个具有等量的极性不同情感词的影评的情感整体倾向性判断准确性不高。
发明内容
为了解决影评情感分析可以被用于机器学习领域的问题,本发明提出如下技术方案:一种影评情感分析中使用特征词集将影评以特征向量表示的方法,语料下载,编写爬虫对影评进行下载;选取特征词,根据已下载的影评,提取有意义的情感词的集合作为特征词集,特征词集中的每个词为特征词;判断特征词集中的每一个特征词是否在该影评中出现,如果出现标注1,否则标注0,形成该影评的数组,将每条影评都转化为特征表示形式,作为特征向量。
有益效果:本发明判断特征词集中的每一个特征词是否在该影评中出现,如果出现标注1,否则标注0,形成该影评的数组,将每条影评都转化为特征表示形式,作为特征向量,以特征表示文本作为影评的表示,从而使得影评情感分析可以被用于机器学习领域,特别是可以使用在改进的朴素贝叶斯模型中,导致情感分析方法更为智能化,也提高了准确性。
附图说明
图1为实施例1中基于机器学习的影评情感倾向性分析方法的流程图;
图2为jieba分词提取主干处理结果图;
图3为分类结果与伯努利朴素贝叶斯分类结果比较图;
其中:实线为本发明的分类结果、虚线为伯努利朴素贝叶斯分类的结果;y轴为准确率、x轴为不同测试样本;
图4为分类器构建示意图。
具体实施方式
实施例1:
本实施例针对中文影评的情感倾向性分析,其提出了一种情感倾向的判别方法,主要包括训练方法、测试方法、分析方法,该方案使用机器学习的手段提取特征词、将文本转化为特征表示形式、通过朴素贝叶斯思想构建分类器,其转特征提取采用词性选取,避免因为影评少而没有提取出有意义的特征。
本实施例公开的技术方案如下:
一种基于机器学习的影评情感倾向性分析方法,包括以下步骤:
步骤1:编写爬虫对豆瓣电影影评进行下载,下载的影评形成语料库;
步骤(a):获取豆瓣中待下载电影的网址。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连民族大学,未经大连民族大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810480149.2/2.html,转载请声明来源钻瓜专利网。