[发明专利]基于卷积神经网络的中文微博文本情绪分类方法及其系统在审
申请号: | 201710046072.3 | 申请日: | 2017-01-22 |
公开(公告)号: | CN106874410A | 公开(公告)日: | 2017-06-20 |
发明(设计)人: | 徐华;贾霏;孙晓民;邓俊辉 | 申请(专利权)人: | 清华大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06N3/04 |
代理公司: | 北京清亦华知识产权代理事务所(普通合伙)11201 | 代理人: | 张润 |
地址: | 10008*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 卷积 神经网络 中文 文本 情绪 分类 方法 及其 系统 | ||
技术领域
本发明涉及计算机应用机器学习领域,具体涉及一种基于卷积神经网络的中文微博文本情绪分类方法及其系统。
背景技术
微博信息,尤其是某些热门话题的评论信息,对业界和科研人员来说都是极其宝贵的参考材料,在观点挖掘、未来预测等方面都有着极大的参考价值。
观点挖掘,也称为情绪分析,是对于人们关于某一实体的特征、组件、属性等所产生的观点、态度和情绪进行挖掘和分析的一种技术,是自然语言处理学科中重要的一个领域,得到了学术界和业界的重视。
结合产品评论,观点挖掘能十分有效地反应用户的对于某具体事物的具体观点,具有实时性、话题敏感性和多变性的特点。自然语言处理的重要组成部分,也是机器学习中的一个重要研究领域。同时,由于微博数据的多变性和数据规模的庞大,基于在线数据的观点挖掘一直是研究的热点和难点。特征抽取是观点挖掘中的重要环节,提取结果的好坏将直接影响观点挖掘的结果好坏。大多数模型往往对产品评论利用监督学习或半监督学习来进行特征提取,这需要大量的人力。
发明内容
本发明旨在至少解决上述技术问题之一。
为此,本发明的一个目的在于提出一种基于卷积神经网络的中文微博文本情绪分类方法,提升了微博文本分类的效率和正确率。
为了实现上述目的,本发明的实施例公开了一种基于卷积神经网络的中文微博文本情绪分类方法,包括以下步骤:S1:获取微博数据;S2:对所述微博数据进行预处理,以去除所述微博数据中的无关噪声和重复数据;S3:对预处理后的微博数据使用Word2vec模型将词表征为实数值向;S4:将不同大小的词的组合通过对应大小的滤波器上,通过前向传播,生成二维的特征图;S5:将所述特征图堆积后进行池化,以实现特征降维;S6:使用Softmax回归模型对池化后的特征图进行情绪分类。
进一步地,所述预处理包括:删除网页链接、位置信息和重复的子句;将网络流行语及网络缩写在遍历用语词典获取对应的文字信息,在遍历用语词典后找不着对应含义的网络流行语及网络缩写进行人工标注;将表情符号用对应的文字代替。
进一步地,在步骤S4中,通过以下公式生成所述特征图:
mi=W*xi,i+h-1+b,b∈R
Mi=[m1,m2,...,mi-h+1]
Ni=ReLU(Mi)=max(0,Mi)
其中,x为输入到卷积层的语句的向量表示,b是偏置项,mi为一个滤波器输出函数,Mi为原始特征,滤波器W∈Rhk,R表示向量空间,h表示窗口大小,k表示维度为k维,Relu为非线性函数。
进一步地,在步骤S5中,使用1-max策略进行所述池化。
进一步地,在步骤S6中,使用基于OCC模型的ECOCC模型进行所述情绪分类。
根据本发明实施例的基于卷积神经网络的中文微博文本情绪分类方法,用卷积神经网络算法来进行特征提取和降维,利用上述算法来抽取词与词、语句与语句之间关系中来实现无监督观点挖掘,提升了微博文本分类的效率和正确率,通过将微博文本按照事件结果、主体行为和实体对象三大部分,并通过设定的事件状态与事件标准、行为主体与行为规范、对象实体和实体标准将微博文本的情绪进行分类,形成多层次的情感分类体系可将情绪分为22种,实现与微博文本进行良好的结合,可以满足常见的情感类型分类。
为此,本发明的另一个目的在于提出一种基于卷积神经网络的中文微博文本情绪分类系统,提升了微博文本分类的效率和正确率。
为了实现上述目的,本发明的实施例公开了一种基于卷积神经网络的中文微博文本情绪分类系统,包括:信息获取模块,用于获取微博数据;数据预处理模块,用于对所述微博数据进行预处理,以去除所述微博数据中的无关噪声和重复数据;语句嵌入模块,用于对预处理后的微博数据使用Word2vec模型将词表征为实数值向;卷积模块,用于将不同大小的词的组合通过对应大小的滤波器上,通过前向传播,生成二维的特征图;池化模块,用于将所述特征图堆积后进行池化,以实现特征降维;分类模块,用于使用Softmax回归模型对池化后的特征图进行情绪分类。
进一步地,所述数据预处理模块进一步用于:删除网页链接、位置信息和重复的子句;将网络流行语及网络缩写在遍历用语词典获取对应的文字信息,在遍历用语词典后找不着对应含义的网络流行语及网络缩写进行人工标注;将表情符号用对应的文字代替。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710046072.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:点云数据的存储方法及装置
- 下一篇:一种表格的搜索方法及搜索平台