[发明专利]一种中文文本情感分析装置及方法在审
申请号: | 201710185937.4 | 申请日: | 2017-03-24 |
公开(公告)号: | CN107015965A | 公开(公告)日: | 2017-08-04 |
发明(设计)人: | 吴含前;李洁;薛晨洋;陈钢 | 申请(专利权)人: | 苏州希格玛科技有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/30 |
代理公司: | 苏州华博知识产权代理有限公司32232 | 代理人: | 黄珩 |
地址: | 215000 江苏省*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 中文 文本 情感 分析 装置 方法 | ||
技术领域
本发明属于数据挖掘、信息检索领域,具体涉及一种中文文本情感分析装置及方法。
背景技术
现如今,互联网已经成为人们生活中不可或缺的一部分,人们不仅可以从互联网上接收信息,还可以将自己对于某一事件、人物或者产品的看法、观点发布到网络上。这些网络信息反映了大众的情感倾向,如果能够在繁杂众多的文本中挖掘出其中包含的情感信息,将大有裨益。
然而正是由于互联网的普及,网络上出现了海量的中文文本,如一些评论,这些文本大多杂乱无章、无结构化可言,仅仅利用人工的方法进行情感倾向的判断几乎是不可行的。
因此,情感分析技术有着重要的研究价值。
现阶段,面向篇章级别的情感分类相对比较成熟,对于句子级别的情感分类则主要采用人工标注的方法。在现如今大数据背景下,人工标注的方法已经逐渐显示出它的弊端,比如:效率低、需支付高额的人工费用等。由此可见,采用人工标注的方法进行句子级别的情感分析已经不适用这个信息爆炸的时代。
发明内容
为了解决上述技术问题,本发明提出了一种中文文本情感分析装置及方法,其装置结构简单,效率高,成本低,分析结果准确率高。
为了达到上述目的,本发明的技术方案如下:
一种中文文本情感分析装置包括:数据采集模块,用于采集多条中文文本;数据预处理模块,用于对数据采集模块采集的每条中文文本进行预处理;文本分类模块,用于将数据预处理处理后的中文文本通过最大熵原理进行情感文本分类;数据采集模块、数据预处理模块和文本分类模块依次连接。
本发明提出了一种中文文本情感分析装置及方法,其装置结构简单,效率高,成本低,分析结果准确率高。
在上述技术方案的基础上,还可做如下改进:
作为优选的方案,数据预处理模块包括:评论分析模块,用于对数据采集模块采集的中文文本进行情感的正负倾向分类;转折词处理模块,用于对中文文本中出现的转折词进行提取,保留转折词之后的中文文本,形成新的中文文本;分词及词性标注模块,用于对转折词处理模块处理后的新的中文文本进行词语识别,并将该中文文本内每个词语的词性进行标注;情感词语收集模块,用于对中文文本出现的形容词、名词以及动词进行提取,将提取出的词与原始情感词典进行匹配,若该词在情感庆典中存在,则不写入情感词典;否则,则写入情感词典;抽取模块,用于从原始的多条中文文本中分别抽取若干条形成训练集和测试集;评论分析模块、转折词处理模块、分词及词性标注模块、情感词语收集模块以及抽取模块依次连接。
采用上述优选的方案,为后期的情感分类进行预处理,保证分类结果的精确度。
作为优选的方案,评论分析模块在评判中文文本情感的正负倾向时,每条中文文本携带有相应的星级或等级信息,评论分析模块对该星级或等级的大小进行评判;当星级或等级的大小大于正向设定值时,评论分析模块判断该中文文本为正向文本;当星级或等级的大小小于负向设定值时,评论分析模块判断该中文文本为负向文本;当星级或等级的大小在负向设定值和正向设定值之间时,评论分析模块判断该中文文本为中性文本。
采用上述优选的方案,利用星级或等级信息进行标注判断,无需采用人工的方法进行正负极性的标注,操作更便捷,高效。
作为优选的方案,抽取模块具体工作过程如下:首先,将原始的多条中文文本划分为正向文本和负向文本并分别保存在正向文本文档和负向文本文档中,在进行训练集和测试集的划分时,分别在正向文本文档和负向文本文档中以一定比例将多条中文文本划分为测试集和训练集两部分;其次,使用上述构建的情感词典将测试集和训练集表示成文本分类模块所需的输入形式。
采用上述优选的方案,形成有效的训练集和测试集。
作为优选的方案,文本分类模块包括:训练最大熵分类器,抽取训练集训练得到一个最大熵分类器;测试最大熵分类器,使用测试集对上述最大熵分类器进行测试。
采用上述优选的方案,进行快速有效的情感分类。
作为优选的方案,训练最大分类器的工作过程如下:首先,构建训练集内每条中文文本与分类结果之间的特征函数;其次,计算其经验期望和模型期望,最大熵模型的约束条件就是使得任意特征函数的模型期望等于其经验期望,得到多个满足此约束条件的概率分布,其中熵最大的分布即为最优概率分布;最后,利用迭代缩放算法得到特征函数的权重。
采用上述优选的方案,可以有效得到训练最大分类器。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州希格玛科技有限公司,未经苏州希格玛科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710185937.4/2.html,转载请声明来源钻瓜专利网。