[发明专利]一种中文文本情感分析装置及方法在审
申请号: | 201710185937.4 | 申请日: | 2017-03-24 |
公开(公告)号: | CN107015965A | 公开(公告)日: | 2017-08-04 |
发明(设计)人: | 吴含前;李洁;薛晨洋;陈钢 | 申请(专利权)人: | 苏州希格玛科技有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/30 |
代理公司: | 苏州华博知识产权代理有限公司32232 | 代理人: | 黄珩 |
地址: | 215000 江苏省*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 中文 文本 情感 分析 装置 方法 | ||
1.一种中文文本情感分析装置,其特征在于,包括:
数据采集模块,用于采集多条中文文本;
数据预处理模块,用于对所述数据采集模块采集的每条中文文本进行预处理;
文本分类模块,用于将所述数据预处理处理后的中文文本通过最大熵原理进行情感文本分类;
所述数据采集模块、所述数据预处理模块和所述文本分类模块依次连接。
2.根据权利要求1所述的中文文本情感分析装置,其特征在于,所述数据预处理模块包括:
评论分析模块,用于对所述数据采集模块采集的中文文本进行情感的正负倾向分类;
转折词处理模块,用于对中文文本中出现的转折词进行提取,保留转折词之后的中文文本,形成新的中文文本;
分词及词性标注模块,用于对所述转折词处理模块处理后的新的中文文本进行词语识别,并将该中文文本内每个词语的词性进行标注;
情感词语收集模块,用于对中文文本出现的形容词、名词以及动词进行提取,将提取出的词与原始情感词典进行匹配,若该词在情感庆典中存在,则不写入情感词典;否则,则写入情感词典;
抽取模块,用于从原始的多条中文文本中分别抽取若干条形成训练集和测试集;
所述评论分析模块、所述转折词处理模块、所述分词及词性标注模块、所述情感词语收集模块以及所述抽取模块依次连接。
3.根据权利要求2所述的中文文本情感分析装置,其特征在于,所述评论分析模块在评判中文文本情感的正负倾向时,每条中文文本携带有相应的星级或等级信息,所述评论分析模块对该星级或等级的大小进行评判;
当星级或等级的大小大于正向设定值时,所述评论分析模块判断该中文文本为正向文本;
当星级或等级的大小小于负向设定值时,所述评论分析模块判断该中文文本为负向文本;
当星级或等级的大小在负向设定值和正向设定值之间时,所述评论分析模块判断该中文文本为中性文本。
4.根据权利要求2或3所述的中文文本情感分析装置,其特征在于,所述抽取模块具体工作过程如下:
首先,将原始的多条中文文本划分为正向文本和负向文本并分别保存在正向文本文档和负向文本文档中,在进行训练集和测试集的划分时,分别在正向文本文档和负向文本文档中以一定比例将多条中文文本划分为测试集和训练集两部分;
其次,使用上述构建的情感词典将测试集和训练集表示成所述文本分类模块所需的输入形式。
5.根据权利要求4所述的中文文本情感分析装置,其特征在于,所述文本分类模块包括:
训练最大熵分类器,抽取训练集训练得到一个最大熵分类器;
测试最大熵分类器,使用测试集对上述最大熵分类器进行测试。
6.根据权利要求5所述的中文文本情感分析装置,其特征在于,所述训练最大分类器的工作过程如下:
首先,构建训练集内每条中文文本与分类结果之间的特征函数;
其次,计算其经验期望和模型期望,最大熵模型的约束条件就是使得任意特征函数的模型期望等于其经验期望,得到多个满足此约束条件的概率分布,其中熵最大的分布即为最优概率分布;
最后,利用迭代缩放算法得到特征函数的权重。
7.根据权利要求6所述的中文文本情感分析装置,其特征在于,所述测试最大熵分类器的工作过程如下:
首先,将上述最大熵分类器应用于测试集上进行测试;
然后,将分类结果与原有测试集的极性标注进行对比,得到tp、fp、fn、tn;
其中,tp指分类器分类结果为正,同时测试集中标注也为正的文本条数;
fp指分类器分类结果为正而测试集中标注是负的文本条数;
fn指分类器分类结果为负而测试集中标注是正的文本条数;
tn指分类器分类结果为负同时测试集中标注也是负的文本条数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州希格玛科技有限公司,未经苏州希格玛科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710185937.4/1.html,转载请声明来源钻瓜专利网。