[发明专利]一种基于卷积神经网络的企业舆情情感分类方法及系统在审
申请号: | 201910207891.0 | 申请日: | 2019-03-19 |
公开(公告)号: | CN110083700A | 公开(公告)日: | 2019-08-02 |
发明(设计)人: | 李鹏飞;徐俊刚 | 申请(专利权)人: | 北京中兴通网络科技股份有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F17/27 |
代理公司: | 北京君尚知识产权代理事务所(普通合伙) 11200 | 代理人: | 司立彬 |
地址: | 100094 北京市海淀区西*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 池化 卷积神经网络 词向量 连接层 矩阵 情感分类模型 分类 情感分类 文本 嵌入层 卷积 并列 预处理 输入文本 特征提取 向量特征 第三层 第一层 特征图 文本词 积层 | ||
本发明公开了一种基于卷积神经网络的企业舆情情感分类方法及系统,本方法为:1)利用卷积神经网络训练生成一企业舆情情感分类模型,其第一层为词嵌入层,第二层为多个并列的卷积层,第三层为多个并列的池化层,第四层为全连接层;2)词嵌入层对待分类的企业舆情文本进行预处理生成对应的词向量矩阵;3)各卷积层分别对输入的词向量矩阵进行特征提取,每一卷积层对应得到一文本词向量特征图并输入到一对应的池化层;4)各池化层分别提取所输入文本词向量特征图的平均特征和最强特征,并将其输入到该企业舆情情感分类模型的全连接层;5)全连接层根据各池化层输入的特征对待分类的企业舆情文本进行分类,得到待分类的企业舆情文本的舆情类别。
技术领域
本发明是使用深度学习技术对文本数据进行企业舆情篇章级的情感方向分类,具体是基于卷积神经网络建立情感分类模型的一种方法。
背景技术
情感分析(Sentiment Analysis)是人们对于带有情感色彩的文本类数据进行主观性的分析,形成对其的观点、情绪并评估对企业、组织、个人等实体的态度。情感分析是自然语言处理(NLP)中最活跃的研究领域之一。
传统的企业舆情数据情感分类主要是基于情感词典和基于机器学习。基于情感词典的技术是通过对人脑简单的模拟,核心是基于词典和规则,文本的情感倾向是通过情感词典作为主要判断的方法,根据以往的经验对现有词汇做出评价的一种模型,如:通常把开心、快乐、幸福等一类的词汇作为积极词汇,把迟缓、低迷、落后等作为消极词汇。这种技术的机制也很简单,通过句子中所出现的情感词来预测句子的情感倾向。因此,情感模型的建立依赖于情感词典的构建和判断规则的质量,同时需要人工设计和先验知识。显然,这个过程是需要耗费大量的人力资源,效率低下。基于机器学习的技术建立情感分类模型的核心是模型的训练,其需要对训练数据进行人为的标注,因此,标注的质量是影响模型质量的原因之一。高质量的标注也需要大量的人力资源成本。主要过程为分词的处理、特征向量化、特征选择、模型调参。其中特征的构造和选取常用的是N-gram特征、句法特征等。此方法除了需要人工标注样本在某些领域需要一定的专业知识外,特征工程也是此方法的重要环节之一,可以说,一个模型的好坏很大程度上取决于这一环节是否有效,这需要对业务场景进行深度的剖析,从而设计出相应的特征,这一过程所投入的人力和物力成本也是非常大的。
随着新媒体时代技术和网络技术的不断发展,网络舆情数据不断增长,单单按照前面所使用的传统技术进行情感分析模型的建立,显然是不能够满足实际的需要的。除了传统机器学习方法之外,近年来,随着深度学习技术的快速发展,也有许多通过深度学习技术来进行情感分类任务的实现,其与传统机器学习不同的是在与特征处理和模型结构上。首先,深度学习可以通过训练数据本身让机器自动进行特征提取,当数据量比较大时,机器自动提取特征比人工进行特征选择的效果显著。其次,主要是通过模拟人脑的智能行为,以类人脑的多层神经网络模型为主,包括卷积神经网络、循环神经网络等不同网络组织形式和训练方法。
卷积神经网络(Convolution Neural Network,CNN)在计算机视觉领域无论在学术界还是工业界都取得了长足的进步。尤其是CNN进行图像分类取得了巨大突破,如Facebook的图像标注系统和自动驾驶的汽车系统等CNN都发挥着重要作用。与此同时,将CNN应用于自然语言处理(Natural Language Processing,NLP)领域也可以表现出比较好的效果,主要方面是由于词向量的发展,如:GloVe(Global Vectors for WordRepresentation)、 word2vector、连续词袋模型(continuous bag of words,CBOW)、跳字模型(Skip-gram)等现有的词向量库已经能较好的表达词语的含义。基于深度学习抽象特征,不仅避免了人工提取特征的工作,也可通过词向量技术模拟词语之间的联系,具有局部特征抽象以及记忆功能在情感分类的建模中具有非常大的优势。因此,利用CNN结合词向量技术进行情感分类建模对于提升和改进使用传统机器学习方法的效率和不足具有重要的研究和实践意义。
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京中兴通网络科技股份有限公司,未经北京中兴通网络科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910207891.0/2.html,转载请声明来源钻瓜专利网。