[发明专利]数据情感分析方法、装置、电子设备及介质有效
申请号: | 202110043447.7 | 申请日: | 2021-01-13 |
公开(公告)号: | CN112364170B | 公开(公告)日: | 2021-06-29 |
发明(设计)人: | 王兆元;郭艳波;李青龙;白剑波;高媛 | 申请(专利权)人: | 北京智慧星光信息技术有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/33;G06F40/289;G06F40/242;G06N20/00 |
代理公司: | 北京鸿元知识产权代理有限公司 11327 | 代理人: | 张超艳;董永辉 |
地址: | 100080 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据 情感 分析 方法 装置 电子设备 介质 | ||
本发明提供一种数据情感分析方法、装置、电子设备及介质,包括:方法,包括:采集评论信息;获得评论信息中用户的评分;基于词典采用关键词匹配和词典规则获得评论信息的情感极性,所述情感极性包括中性、负向和正向;基于机器学习分析评论信息属于不同情感极性的概率;采用映射的方法将所述评分、情感极性和情感极性的概率转换到同一范围;将转换到同一范围的所述评分、情感极性和情感极性的概率采用加权投票融合的方式获得评论信息所属情感极性及分值。本发明泛化效果好、分析准确度高。
技术领域
本发明涉及数据挖掘技术领域,更为具体地,涉及一种数据情感分析方法、装置、电子设备及计算机可读存储介质。
背景技术
感分析技术目前主要采用的方法㓟基于情感词典的方法、基于机器学习技术的方法或基于深度学习的方法。
基于情感词典的方法,先对文本进行分词和停用词处理等预处理,再利用先构建好的情感词典,对文本进行字符串匹配,从而挖掘正面和负面信息。基于词典的文本匹配算法相对简单。逐个遍历分词后的语句中的词语,如果词语命中词典,则进行相应权重的处理。
基于词典情感的情感分类,简单易行,通用性也比较能够得到保障。但仍然有很多不足:(1)精度不高。语言是一个高度复杂的东西,采用简单的线性叠加显然会造成很大的精度损失。词语权重同样不是一成不变的,而且也难以做到准确。(2)新词发现难。(3)词典构建难。基于词典的情感分类,核心在于情感词典。而情感词典的构建需要有较强的背景知识,需要对语言有较深刻的理解。
基于机器学习的方法进行文本情感分析也是比较流行的方法,通过对训练数据进行识别,然后进行特征提取,通过模型训练生成文本情感分析模型,然后进行文本情感分析。比如,基于朴素贝叶斯(Naive Bayes,NB)的方法、基于最大熵(Maximum Entropy,ME)的方法和基于支持向量机(SVM)的方法。
基于朴素贝叶斯的文本情感分析技术是通过计算概率对文本情感进行分类,适合增量式训练,算法比较简单,对小规模数据表现良好。但该方法对输入数据的表达形式很敏感,而且需要计算先验概率,因此会在分类决策方面存在错误率。
基于最大熵的文本情感分析只要得到一些训练数据,然后进行迭代,就可以得到所需模型,进行自收敛,方法简单。但是由于最大熵往往只能得到局部最佳解而非全局最优解,因此运用该方法进行情感分析准确率有待提高。
基于SVM的文本情感分析方法,泛化错误率低,计算开销不大,而且对于训练样本较小的文本可以得到很好的情感分析效果,对高维数据的处理效果良好,能够得到较低的错误率,但该方法对参数调节和核函数的选择敏感。
基于深度学习的情感分类,首先对语句进行分词、停用词、简繁转换等预处理,然后进行词向量编码,然后利用LSTM或者GRU等RNN网络进行特征提取,最后通过全连接层和softmax输出每个分类的概率,从而得到情感分类。
基于深度学习的情感分类,具有精度高,通用性强,不需要情感词典等优点。
但单一基于深度学习的难点也很多。(1)语句长度太长。很多用户评论都特别长,分词完后也有几百个词语。而对于LSTM,序列过长会导致计算复杂、精度降低等问题。(2)新词和口语化的词语特别多。用户评论语句不像新闻那样规整,新词和口语化的词语特别多。这个问题给分词和词向量带来了很大难度。
发明内容
鉴于上述问题,本发明的目的是提供一种泛化效果好、分析准确度高的数据情感分析方法、装置、电子设备及计算机可读存储介质。
为了实现上述目的,本发明提供一种数据情感分析方法,包括:
采集评论信息;
获得评论信息中用户的评分;
基于词典采用关键词匹配和词典规则获得评论信息的情感极性,所述情感极性包括中性、负向和正向;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京智慧星光信息技术有限公司,未经北京智慧星光信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110043447.7/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置