[发明专利]一种基于特征分类的文本情感分析方法在审
申请号: | 201711477206.3 | 申请日: | 2017-12-29 |
公开(公告)号: | CN108108462A | 公开(公告)日: | 2018-06-01 |
发明(设计)人: | 霍华;常国沁;李成;吕靖 | 申请(专利权)人: | 河南科技大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27;G06K9/62 |
代理公司: | 洛阳公信知识产权事务所(普通合伙) 41120 | 代理人: | 陈佳丽 |
地址: | 471000 河*** | 国省代码: | 河南;41 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 权重计算 特征分类 特征选择 文本情感 测试集 情感词 训练集 文本 预处理 构建分类器 归一化处理 情感分析 情感倾向 特征向量 分析 贝叶斯 分类器 正确率 权重 分类 改进 | ||
本发明是一种基于特征分类的文本情感分析方法,包含如下步骤:对文本进行基本的预处理;对文本进行特征选择;对特征进行权重计算并对所求权重进行归一化处理;将特征和权重生成特征向量,并划分出测试集与训练集;采用朴素贝叶斯构建分类器并对训练集进行训练;使用分类器对测试集进行分析并判断其情感倾向,同时计算分类的精确率,召回率和F值。本发明有益效果:本发明针对现有方法没有将情感词考虑到特征选择与权重计算的缺点进行了改进,增加了情感词在特征中的比重,并有效的提升了情感分析的正确率。
技术领域
本发明涉及智能信息处理技术领域,具体地说是一种基于特征分类的文本情感分析方法。
背景技术
随着互联网的快速发展,网络的功能越来越全面,使用也越来越便捷,其中移动互联网的迅猛发展与手机用户的大规模增长,各种功能的APP也在这瞬息万变的网络环下不断的发展与更替。Twitter、Facebook、微博等社交平台由于其具有即时性与便捷性等优点,在飞速发展的网络空间也快速的崛起,并逐步由单一web端逐步向以移动端为主的双平台发展。微博评论与实时短文本中有许多都包含用户个人的情感与倾向,对用户进行个性化推荐以及网络舆情的监控都具有十分重要的意义,如何借用计算机技术获取和分析这些评论中的情感信息吸引了广大专家学者的竞相研究,其中涉及人工智能、自然语言处理、数据分析与挖掘等多重领域。
传统的文本情感分类方法在特征选择与权重计算的过程中常用点互信息或信息熵来选择文本特征,或者单纯的通过词频或反文档词频来计算权重,这些特征选择与权重计算的算法在进行单纯的文本分类可以取得很好的效果,但使用在判断文本情感倾向性时并没有考虑到情感词与修饰词的影响,无法使文本情感分类达到更好的分类效果。
发明内容
本发明所要解决的技术问题是提供一种基于特征分类的文本情感分析方法,解决目前现有方法中忽略情感词影响的问题,提高文本情感分析的正确率。
本发明为解决上述技术问题所采用的技术方案是:一种基于特征分类的文本情感分析方法,包括以下步骤:
步骤一、对文本进行预处理;
步骤二、对步骤一预处理后的文本进行特征选择,具体方法为:
(1)采用以下公式进行特征选择:NCHI(t,c)=CHI(t,c)×f(t),其中
t表示特征项,c表示类别,f表示特征词t的频数,A表示包含特征t且属于类别c的文本数目,B表示包含特征t但不属于类别c的文本数目,C表示不包含特征t但属于类别c的文本数目,D表示即不包含特征t也不属于类别c的文本数目;
(2)选择合适的特征维度;
步骤三、对步骤二选择的特征进行权重计算并对计算得到的权重进行归一化处理;
步骤四、将步骤三得到的特征和权重生成特征向量,并划分测试集与训练集;
步骤五、采用朴素贝叶斯构建分类器并对训练集进行训练;
步骤六、使用分类器对测试集进行分析并判断其情感倾向,同时计算分类的精确率、召回率和F值。
优选的,所述对文本进行预处理的方法为:
步骤1.1、将文本中既不包含情感倾向还会对情感信息分类造成干扰的冗余信息进行数据清理;
步骤1.2、对文本进行分词处理;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河南科技大学,未经河南科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711477206.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:确定封面图像的方法及装置
- 下一篇:基于时间片调度的同步任务处理方法及装置