[发明专利]一种基于支持向量机的文本情感分析方法及设备在审
| 申请号: | 201410602800.0 | 申请日: | 2014-10-31 |
| 公开(公告)号: | CN105630809A | 公开(公告)日: | 2016-06-01 |
| 发明(设计)人: | 郭叶 | 申请(专利权)人: | 中国移动通信集团公司 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30;G06K9/62 |
| 代理公司: | 北京同达信恒知识产权代理有限公司 11291 | 代理人: | 郭润湘 |
| 地址: | 100032 *** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 支持 向量 文本 情感 分析 方法 设备 | ||
技术领域
本发明涉及信息处理技术领域,尤其涉及一种基于SVM(SupportVector Machine,支持向量机)的文本情感分析方法及设备。
背景技术
随着用户创造内容、分享内容的网络信息模式的出现与普及,以及网络媒 体的内容、形式等的日益丰富,网络中带有个人情感色彩的文本也越来越多, 尤其以各类论坛、微博等形式的网络媒体为典型。这些文本中的内容通常是用 户对一些新闻时事、法规政策、公众人物、消费产品、影视娱乐等话题的个人 评论,反映的是用户个体的观点和意见,因而,对这些反映用户个体观点和意 见的文本的内容进行分析,可以帮助用户及时发现产品缺点,以便为改良产品、 提升用户产品体验提供便利。除此之外,也可以使得用户能够对新闻时事、公 众人物、影视娱乐等舆情进行相应地监督。
但是,由于随着互联网的不断发展,网络中的信息资源(如能够反映用户 个体观点和意见的文本资源)的数量日益庞大,因而,对网络中的上述能够反 映用户个体观点和意见的文本资源进行整理与分析的复杂度也变得越来较高, 因此,如何采用机器自动处理的手段对这些文本的内容进行相应地情感分析与 判别,已成为当前互联网智能信息处理的一个研究热点。
目前,业界常采用以下基于机器学习的方法对文本进行相应地情感分析: 采用MI(词条与类别的互信息)、IG(信息增益)、CHI(统计方法)或DF (文档频率)等四种方法对待分析文本进行特征选取,之后,再使用标准的机 器学习方法,如SVM等分类算法对提取到的特征项进行情感分类。
但是,由于目前,在使用SVM分类器对文本进行褒义、贬义、中立等情 感类别的分类时,没有对分类的顺序进行优化,且由于SVM分类器通常为二 分类,即为了将文本分成褒义、贬义、中立三类,需用二级SVM来实现,从 而导致会存在分类错误在越靠近前面的SVM中发生,则对SVM分类器整体 性能的影响就越大的问题,使得分类的准确性较低。
发明内容
本发明实施例提供了一种基于SVM的文本情感分析方法及设备,用以解 决现有技术中存在的文本情感分类不准确的问题。
本发明实施例提供了一种基于SVM的文本情感分析方法,包括:
提取待分析文本中的各特征项;
计算提取到的各特征项的特征权值,并根据提取到的各特征项以及各特征 项的特征权值构造与所述待分析文本相对应的文本向量;
计算各设定文本类的类间距离,并根据计算得到的各设定文本类的类间距 离,选取对应的类间距离最大的一文本类作为第一级分类,将剩余的其他各文 本类作为第二级分类,并按照所述第一级分类的分类顺序优先于所述第二级分 类的分类方式,采用SVM对所述文本向量中的各特征项进行分类。
进一步地,本发明实施例还提供了一种基于SVM的文本情感分析设备, 包括:
提取模块,用于提取待分析文本中的各特征项;
构造模块,用于计算提取到的各特征项的特征权值,并根据提取到的各特 征项以及各特征项的特征权值构造与所述待分析文本相对应的文本向量;
分类模块,用于计算各设定文本类的类间距离,并根据计算得到的各设定 文本类的类间距离,选取对应的类间距离最大的一文本类作为第一级分类,将 剩余的其他各文本类作为第二级分类,并按照所述第一级分类的分类顺序优先 于所述第二级分类的分类方式,采用SVM对所述文本向量中的各特征项进行 分类。
本发明有益效果如下:
本发明实施例提供了一种基于SVM的文本情感分析方法及设备,在本发 明所述技术方案中,通过计算提取到的待分析文本中的各特征项的特征权值, 并根据提取到的各特征项以及各特征项的特征权值构造与所述待分析文本相 对应的文本向量,以及在采用SVM对所述文本向量中的各特征项进行分类时, 根据各设定文本类的类间距离对各文本类的分类顺序进行优化,如将所对应的 类间距离最大的一类文本,即最容易区分的文本类作为第一级分类,将剩余的 其他各文本类,即相对不容易区分的文本类作为第二级分类,从而提高了基于 SVM的文本情感分类的准确性。
附图说明
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国移动通信集团公司,未经中国移动通信集团公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410602800.0/2.html,转载请声明来源钻瓜专利网。





