[发明专利]一种基于情感词典学习的文本情感分析方法和系统有效
| 申请号: | 201710713213.2 | 申请日: | 2017-08-18 |
| 公开(公告)号: | CN107301171B | 公开(公告)日: | 2020-09-01 |
| 发明(设计)人: | 姬东鸿;柳宜江;周启楫 | 申请(专利权)人: | 武汉红茶数据技术有限公司 |
| 主分类号: | G06F40/242 | 分类号: | G06F40/242;G06F40/30;G06F16/35 |
| 代理公司: | 武汉谦源知识产权代理事务所(普通合伙) 42251 | 代理人: | 王力 |
| 地址: | 430000 湖北省*** | 国省代码: | 湖北;42 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 情感 词典 学习 文本 分析 方法 系统 | ||
本发明特别涉及一种基于情感词典学习的文本情感分析方法和系统。方法包括以下步骤:对初始文本数据进行规范化处理,生成预处理文本数据,并将预处理文本数据聚类到预设领域;采用基于种子情感词典的情感词语发现方法,形成预设领域的专有情感词典;根据专有情感词典对预处理文本数据进行检索,获取目标文本数据作为对应预设领域的初始训练语料,并形成多分类器对输入的待分类文本进行分类。本发明减少了人力成本,避免了由单一分类器导致的过拟合问题,同时将文本相关领域纳入考虑,提高了对文本进行情感分析的准确性。
技术领域
本发明自然语言处理领域,尤其涉及一种基于情感词典学习的文本情感分析方法和系统。
背景技术
Web2.0时代,每一个网民都成了互联网的信息发布源。各种用途的信息发布平台应运而生,诸如FaceBook、校内网、新浪微博等,供用户发表、获取、分享各种信息。由于互联网用户基数大,每个信息发布平台信息发布平台平均每天产生的信息量也大,所以互联网每天产生的信息量也巨大。而情感分析又称情感挖掘、意见挖掘,是对文本进行处理、分析、归纳并推理,得出文本的情感色彩的过程,基于互联网每天产生的巨大信息量,对互联网数据进行挖掘和情感分析的难度也非常大。
在文本情感分析方面,外国学者主要是针对Twitter上的短文本信息作为语料进行分析。比如国外学者利用网站带情感标签的文本作为训练语料,采用文本抽象特征训练各种分类器进行主客观分类和情感极性分类。中文文本情感极性分析近来呈现高速发展的趋向,然而中文文本的复杂性比英文文本的复杂性要高得多,所以中文文本的分词质量往往对最后的分类结果影响很大。除此之外,由于中文的信息熵更大,中文文本内容丰富多彩,有很多网络词和新词加入其中,在研究工作中都是挑战。
就情感分析而言,有基于规则和基于学习的方法两种类别。基于规则的方法,一般由人工定义的规则库和情感词典组成,这种方法效果一般不错,但是人工工作量很大;基于学习的方法,大多是基于统计学习的方法,使用人工标注的语料进行模型训练,这种方法工作量较之前者稍低,但是效果不太理想。上述情感分析的各类方法中,人工标注处理的人力和物力成本很大且没有根据领域进行分领域处理,因此情感分析效果都不理想。
发明内容
为解决上述技术问题,本发明提供了一种基于情感词典学习的文本情感分析方法和系统。
第一方面,本发明实施例提供了一种基于情感词典学习的文本情感分析方法,包括以下步骤:
步骤1,采集用于训练的初始文本数据,并对所述初始文本数据进行规范化处理,生成预处理文本数据;
步骤2,采取预设的聚类方法,将所述预处理文本数据聚类到预设关键词对应的预设领域;
步骤3,将预设的基础情感词典作为种子情感词典,并采用基于所述种子情感词典的情感词语发现方法,获取所述预处理文本数据中的第一情感词语,根据所述第一情感词语形成所述预处理文本数据对应预设领域的专有情感词典;
步骤4,对所述专有情感词典进行筛选,从所述专有情感词典的所述第一情感词语中获取符合预设判断规则的第二情感词语,并在所述专有情感词典对应预设领域的预处理文本数据中进行检索,获取包括所述第二情感词语的目标文本数据,将所述目标文本数据作为对应预设领域的初始训练语料;
步骤5,针对不同预设领域,使用每个预设领域的初始训练语料训练出对应领域的分类器;
步骤6,获取待分类文本,采用所有预设领域分别对应的分类器对所述待分类文本进行分类,生成所述待分类文本的情感分类结果并输出显示。
上述方案的有益效果在于:本发明的基于情感词典学习的文本情感分析方法通过对情感分析分领域进行处理,不断自动扩充不同领域对应的情感词典,同时使用多分类器结合的方式对输入文本进行情感分析。与现有技术相比,本发明具有以下优点和有益效果:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉红茶数据技术有限公司,未经武汉红茶数据技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710713213.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种主板以及服务器
- 下一篇:一种视频搜索中的查询词纠错方法和装置





