[发明专利]情感数据分类方法和系统有效
申请号: | 201410361587.9 | 申请日: | 2014-07-25 |
公开(公告)号: | CN104199829B | 公开(公告)日: | 2017-07-04 |
发明(设计)人: | 周光有;王巨宏;蒋杰;薛伟;管刚;赵军 | 申请(专利权)人: | 中国科学院自动化研究所;腾讯科技(深圳)有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 广州华进联合专利商标代理有限公司44224 | 代理人: | 何平,邓云鹏 |
地址: | 100190 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 情感 数据 分类 方法 系统 | ||
技术领域
本发明涉及自然语言处理技术,特别是涉及一种情感数据分类方法和系统。
背景技术
随着Web2.0的发展,越来越多的用户在网页中产生具有情感的数据,这些数据通常以网络中的评论、博客数据的形式存在。情感分类指的是自动预测用户产生的情感数据的情感倾向,比如,预测一条评论是积极的还是消极的。
近期,情感分类在自然语言处理中获得了普遍关注,情感分类方法可分为有监督的情感分析和无监督的情感分析。有监督的情感分析依赖于人工标注的训练数据,而在一些情况下,标注工作是费时和昂贵的,这促使了无监督或半监督的情感分析。
传统的无监督(或半监督)的情感分析的方法是基于词典的方法。基于词典的方法采用情感词汇来确定文档的整体情感倾向。然而,很难去界定一个普适的最佳情感词汇来涵盖从不同领域的所有单词。此外,大多数半自动的基于词典的方法,都得不到令人满意的结果。传统的较为先进的基于词典的方法是基于约束的非负矩阵三因子分解(Constrained Non-negative Matrix Tri-factorization,简称CNMTF)的情感分类方法,其将与领域无关的情感词汇作为先验知识进行情感分类,然而实验表明,基于CNMTF的情感分类方法的情感分类精度仍有待于提高。
发明内容
基于此,有必要针对上述问题,提供一种能提高分类精度的情感数据分类方法和系统。
一种情感数据分类方法,所述方法包括:
构造训练数据集对应的文档-文档图和词-词图,所述文档-文档图中,节点表示所述训练数据集中的文档,边的几何信息表示文档之间的相关度,所述词-词图中,节点表示所述训练数据集中的词,边的几何信息表示词之间的相关度;
根据所述文档-文档图和词-词图的几何信息构造目标函数中的基于图的正则化项;
对所述目标函数进行优化处理,输出文档-情感矩阵;
获取测试数据集中的文档,根据所述文档-情感矩阵获取与所述测试数据集中的文档对应的情感倾向。
一种情感数据分类系统,所述系统包括:
图构造模块,用于构造训练数据集对应的文档-文档图和词-词图,所述文档-文档图中,节点表示所述训练数据集中的文档,边的几何信息表示文档之间的相关度,所述词-词图中,节点表示所述训练数据集中的词,边属性表示词之间的相关度;
正则化项构造模块,用于根据所述文档-文档图和词-词图的几何信息构造目标函数中的基于图的正则化项;
优化处理模块,用于对所述目标函数进行优化处理,输出文档-情感矩阵;
情感倾向确定模块,用于获取测试数据集中的文档,根据所述文档-情感矩阵获取与所述测试数据集中的文档对应的情感倾向。
上述情感数据分类方法和系统,通过构造训练数据集对应的两个图,即文档-文档图和词-词图,在构造目标函数时,充分考虑到了文档空间和词空间中的几何信息,利用了邻近的词或文档往往有着相同的情感倾向的原理,对目标函数进行优化处理后,输出的文档-情感矩阵更加精确,使得对于测试数据集中的文档,确定对应的情感倾向更加准确,从而提高了情感数据的分类精度。
附图说明
图1为一个实施例中情感数据分类方法的流程示意图;
图2为一个实施例中情感数据分类系统的结构框图;
图3为在两个不同的数据集上的不同参数下的情感分类精度的对比示意图;
图4为在两个不同数据集上的不同最邻近值下的情感分类精度的对比示意图;
图5为在两个数据集上的GNMTF的参数分析的对比示意图;
图6为半监督模式下具有不同百分比标记文件下的情感分类精度的对比示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院自动化研究所;腾讯科技(深圳)有限公司,未经中国科学院自动化研究所;腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410361587.9/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置