[发明专利]基于神经网络生成大规模情感词典的方法在审

专利信息
申请号: 201810297088.6 申请日: 2018-04-04
公开(公告)号: CN108519976A 公开(公告)日: 2018-09-11
发明(设计)人: 王黎明;李永帅;柴玉梅;张卓;韩慧;徐源音;韩飞 申请(专利权)人: 郑州大学
主分类号: G06F17/27 分类号: G06F17/27;G06F17/30;G06N3/08
代理公司: 河南大象律师事务所 41129 代理人: 王克鹏;田永红
地址: 450000 河南省郑州*** 国省代码: 河南;41
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 情感词 情感词典 向量 记忆神经网络 句法结构 神经网络 正规化 神经网络分类器 测试数据 目标函数 情感信息 生成数据 损失函数 向量表示 语义信息 爬虫 交叉熵 连续型 改进
【说明书】:

发明涉及基于神经网络生成大规模情感词典的方法,包括以下步骤:通过爬虫爬取数据并处理后生成数据词典D;通过改进的连续词袋方法进行训练情感词向量,得到同时具有句法结构信息和情感信息的词表示;对情感词向量进行正规化;利用正规化后的情感词向量进行双向长短期记忆神经网络训练;采用损失函数交叉熵作为目标函数;经过训练出来的双向LSTM神经网络分类器,进一步利用测试数据获得大规模情感词典。本发明利用改进的连续型词袋方法训练出一套具有高质量的情感词的向量表示,并通过长短期记忆神经网络不仅考虑到句法结构信息还包含了语义信息,从而获取更高的情感词获取质量以及增大了情感词的数量。

技术领域

本发明涉及到情感分析、机器学习和数据挖掘技术领域,具体涉 及到基于神经网络生成大规模情感词典的方法。

背景技术

目前的情感词典学习算法主要就是利用传播算法去估计情感词 的分值,这种方法利用WordNet词典的句法语境或者语言信息去计算 两个词语之间的相似性,但是这种信息都不适合构建大规模的情感词 典,原因就是WordNet并不能全面覆盖微博上一些通俗口语化的表达, 这样会导致一些情感词的遗漏。

情感词典质量的好坏一般直接影响着一个对文本情感分析的结 果的好坏,情感词典可以手工标注训练数据,而且可以大大提高在情 感分类任务中的准确率。所谓情感词就是带有情感色彩的词或词组, 通常含有某种极性,一般为正向的情感词和负向的情感词。正向情感 词如漂亮、高兴、幸福等。负向情感词如可怕、颓废、伤心。本方法 利用了人工神经网络,人工神经网络是一种应用类似于大脑神经突触 联接的结构进行信息处理的数学方法。人工神经网络通常呈现为相互 连接的“神经元”,它可以从输入的计算值,并且能够机器学习以及 模式识别由于它们的自适应性质的系统。利用这些概念我们可以很好 的建立一个基于一个长短期记忆神经网络的一个情感词分类器。

然而目前情感词典在情感分析人物中存在以下几点不足。词典规 模太小。很多词典的规模都在几千甚至几百词,不能很好的涵盖网络 用语的情感信息。词典只包含词语,没有词组的情况。许多词被独立 起来是没有情感极性的,但当几个词组合到一块的时候就能表达出情 感极性,动态极性词和不同的词组搭配会出现不同的情感极性,没有 涵盖流行词汇。

发明内容

针对现有技术的缺陷,本发明提出了基于神经网络生成大规模情 感词典的方法,目的在于利用改进的连续型词袋方法训练出一套具有 高质量的情感词的向量表示,在情感词向量正规化后,并通过长短期 记忆神经网络考虑了情感词的上下文关系,同时还考虑了情感词的语 义关系,从而获取更高的情感词获取质量以及增大了情感词的数量。 本发明提出了用基于改进的CBOW方法训练出情感词向量,并用双向 LSTM神经网络对情感词进行分类,既考虑了情感词的上下文关系同 时还考虑了情感词的语义关系。

为实现上述目的,本发明提出基于神经网络生成大规模情感词典 的方法,包括以下步骤:

基于神经网络生成大规模情感词典的方法,其特征在于,包括以 下步骤:

步骤1,通过爬虫爬取数据并处理后生成相应的数据词典D;

步骤2,通过连续词袋方法进行训练情感词向量,输入层是预测 词wt的2m个上下文词wt-m wt-(m-1).....wt+m,那么经过Vn×|V|矩阵转换, 由one-hot转化为Word Embedding进一步描述,转化后的词向量 vi=Vwi,i∈{t-m,....,t+m},作为整个网络的输入的一部分其中m=2;

步骤3,输入情感信息方法假设情感语句sj中词语的数量为C, 那么在知道一个情感极性句子的情况下,作为 整个网络的输入;

步骤4,约束句法结构信息和情感信息,并得到同时具有句法结 构信息和情感信息的词表示;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于郑州大学,未经郑州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201810297088.6/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top