[发明专利]一种基于情感词典学习的文本情感分析方法和系统有效
| 申请号: | 201710713213.2 | 申请日: | 2017-08-18 |
| 公开(公告)号: | CN107301171B | 公开(公告)日: | 2020-09-01 |
| 发明(设计)人: | 姬东鸿;柳宜江;周启楫 | 申请(专利权)人: | 武汉红茶数据技术有限公司 |
| 主分类号: | G06F40/242 | 分类号: | G06F40/242;G06F40/30;G06F16/35 |
| 代理公司: | 武汉谦源知识产权代理事务所(普通合伙) 42251 | 代理人: | 王力 |
| 地址: | 430000 湖北省*** | 国省代码: | 湖北;42 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 情感 词典 学习 文本 分析 方法 系统 | ||
1.一种基于情感词典学习的文本情感分析方法,其特征在于,包括以下步骤:
步骤1,采集用于训练的初始文本数据,并对所述初始文本数据进行规范化处理,生成预处理文本数据;
步骤2,采取预设的聚类方法,将所述预处理文本数据聚类到预设关键词对应的预设领域;
步骤3,将预设的基础情感词典作为种子情感词典,并采用基于所述种子情感词典的情感词语发现方法,获取所述预处理文本数据中的第一情感词语,根据所述第一情感词语形成所述预处理文本数据对应预设领域的专有情感词典;
步骤4,对所述专有情感词典进行筛选,从所述专有情感词典的所述第一情感词语中获取情感倾向明显且无歧义的词语为第二情感词语,并在所述专有情感词典对应预设领域的预处理文本数据中进行检索,获取包括所述第二情感词语的目标文本数据,将所述目标文本数据作为对应预设领域的初始训练语料;
步骤5,针对不同预设领域,使用每个预设领域的初始训练语料训练出对应预设领域的分类器;
步骤6,获取待分类文本,采用所有预设领域分别对应的分类器对所述待分类文本进行分类,生成所述待分类文本的情感分类结果并输出显示。
2.根据权利要求1所述的基于情感词典学习的文本情感分析方法,其特征在于,还包括步骤7,具体为:分析所述待分类文本的情感分类结果是否正确,若不正确,则将所述待分类文本作为所述初始文本数据,并重复步骤1~步骤5,根据所述待分类文本对对应预设领域的专有情感词典和分类器进行更新。
3.根据权利要求1或2所述的基于情感词典学习的文本情感分析方法,其特征在于,步骤1的所述规范化处理包括对所述初始文本数据进行去非文字符号处理和/或分隔符清理;
以及所述步骤2中,采用ElasticSearch检索工具将所述预处理文本数据聚类到预设关键词对应的预设领域。
4.根据权利要求3所述的基于情感词典学习的文本情感分析方法,其特征在于,所述步骤3具体包括以下步骤:
计算所述预处理文本数据中每个词语的词向量,形成词向量表;
计算所述预处理文本数据中每个词语和所述种子情感词典中情感词语之间的PMI值,获取PMI值非0的目标词语;
查询所述词向量表,且计算所述目标词语的词向量与情感词语向量中值的Cosin距离,若所述Cosin距离小于预设阈值且极性与所述目标词语的PMI结果相一致,则将所述目标词语作为所述第一情感词语加入对应预设领域的专有情感词典。
5.根据权利要求4所述的基于情感词典学习的文本情感分析方法,其特征在于,所述步骤5具体为:对每个预设领域的初始训练语料进行分词处理生成分词结果,使用分词结果中每个词语的TF-IDF值作为特征值训练SVM,使用所述种子情感词典的情感词语和所述初始训练语料对应预设领域的专有情感词典的情感词语作为特征训练CRF,使用全文本训练双层LSTM神经网络,然后基于Adaboost迭代算法进行训练,并组合成每个预设领域对应的强分类器。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉红茶数据技术有限公司,未经武汉红茶数据技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710713213.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种主板以及服务器
- 下一篇:一种视频搜索中的查询词纠错方法和装置





