[发明专利]一种文本正负类情感分类方法有效
申请号: | 201710532502.2 | 申请日: | 2017-07-03 |
公开(公告)号: | CN107423371B | 公开(公告)日: | 2020-09-08 |
发明(设计)人: | 李光敏;林志伟;王晖;魏欣 | 申请(专利权)人: | 湖北师范大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/289;G06F40/30 |
代理公司: | 武汉智嘉联合知识产权代理事务所(普通合伙) 42231 | 代理人: | 黄君军 |
地址: | 435002*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明是一种文本正负类情感分类方法,包括步骤:对文本集合中的所有文本进行预处理,形成无噪音的正负例文本集合,对正负例文本进行unigram分词和bigram分词,并去掉停用词后,形成无重复的多维特征向量空间,对多维特征向量空间中的各维特征向量进行变体词频逆文档频率计算,最后结合已标注的正负情感类别标签,将形成的词项‑文档矩阵作为监督分类器支持向量机和逻辑回归的输入因子,进行训练后得到最终的文本线性分类器预测模型,即可为新的未知文本进行情感分类。本发明有效利用已标注语料中的情感词先天具备分类能力的特征,提出新的计算方法来最大化这些情感词的类别区分度,提高了计算机对文本情感分类的精确度。 | ||
搜索关键词: | 一种 文本 正负 情感 分类 方法 | ||
【主权项】:
一种文本正负类情感分类方法,包括如下步骤:步骤一,对文本集合中的所有文本进行预处理,形成无噪音的正负例文本集合;步骤二,使用词袋语言模型,对正负例文本分别进行unigram分词和bigram分词,并去掉停用词后,形成无重复的多维特征向量空间;步骤三,采用参数可调化的特征权重计算方法,对多维特征向量空间中的各维特征向量进行变体词频逆文档频率计算,正例文本的变体词频逆文档频率计算公式为式中,表示词ti在当前正例文本d(j,+)中出现的总次数,tfmax(d+)表示取正例文本中的所有词项出现次数的最大值,N+表示正例文本总数,表示所有包含词ti的正例文本总数,α表示平滑因子,是范围在0和1之间的实数值,log表示自然对数;负例文本的变体词频逆文档频率计算公式为式中,表示词ti在当前负例文本d(j,‑)中出现的总次数,tfmax(d‑)表示取负例文本中的所有词项出现次数的最大值,N‑表示负例文本总数,表示所有包含词ti的负例文本总数;步骤四,计算多维特征向量空间中第i个词在第j个文本中的特征值V(i,j),公式为如果V(i,j)大于0,判定词ti属于正例情感词,如果V(i,j)小于0,判定词ti属于负例情感词,如果V(i,j)等于0,判定词ti对文本情感的分类没有区分度,最后形成词项‑文档矩阵;步骤五,将词项‑文档矩阵作为监督分类器支持向量机和逻辑回归的输入因子,进行训练后得到最终的文本线性分类器预测模型,为新的未知文本进行情感分类。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于湖北师范大学,未经湖北师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201710532502.2/,转载请声明来源钻瓜专利网。
- 上一篇:复合包装膜
- 下一篇:一种半导体复合聚酯基膜