[发明专利]一种基于双通道深度学习模型的文本情感分析方法在审
申请号: | 201910741879.8 | 申请日: | 2019-08-13 |
公开(公告)号: | CN110532549A | 公开(公告)日: | 2019-12-03 |
发明(设计)人: | 赵建视;梁俊卿;吕笑琳;董文瑾 | 申请(专利权)人: | 青岛理工大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F16/35;G06N3/04 |
代理公司: | 11531 北京汇捷知识产权代理事务所(普通合伙) | 代理人: | 马金华<国际申请>=<国际公布>=<进入 |
地址: | 266520 山东省青*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本情感 文本特征 词向量 向量 学习 内部结构信息 注意力机制 传统机器 基本单元 输入通道 特征表示 文本转化 学习算法 重要信息 分析 单通道 嵌入的 双通道 引入 准确率 嵌入 视角 联合 | ||
1.一种基于双通道深度学习模型的文本情感分析方法,其特征在于,包括以下步骤:
步骤S1:对数据集进行预处理,利用Word2Vec训练词向量和字向量,将文本表示成词向量矩阵和字向量矩阵;
步骤S2:将训练好的词向量矩阵作为第一个通道Word-BLSTM-A的输入,利用BLSTM从词向量的角度学习文本特征,并在其后引入注意力机制;
步骤S3:将训练好的字向量矩阵作为第二个通道Char-BLSTM-A的输入,利用BLSTM从字向量的角度学习文本特征,并利用注意力机制学习关键的文本信息;
步骤S4:两个通道分别从词向量和字向量的角度提取到两种不同的含有注意力概率分布语义编码的文本特征向量,将这两种文本特征向量进行合并,接入Dense层,通过分类器最终得到文本情感倾向。
2.根据权利要求1所述的一种基于双通道深度学习模型的文本情感分析方法,其特征在于,所述步骤S1中对数据集进行预处理,利用Word2Vec训练词向量和字向量,将文本表示成词向量矩阵和字向量矩阵;包括以下步骤:
步骤S11:为了减少训练的参数,本发明采用预训练词嵌入和字嵌入的方式,因此本发明数据集分为两部分:第一部分为维基百科中文语料库;第二部分数据集为中科院谭松波博士整理的有关中文情感挖掘的酒店评论语料(ChnsentiCorp)作为本文的测试集以验证本文提出模型的有效性,该公布的语料通过携程网自动采集并整理而成,其规模为10000篇,被分为4个子集,本发明选用ChnSentiCorp-Htl-ba-6000数据来进行实验,该语料为平衡语料,正、负类各3000篇;
步骤S12:获取词文本:对两部分数据集进行预处理,包括利用结巴分词工具将文本数据进行分词操作,并利用哈工大停用词表进行去停用词;
步骤S13:获取字文本:通过对获取的词文本通过简单的字符串操作得到字文本;
步骤S14:获取词向量和字向量:首先对第一部分数据集利用Skip-gram模型训练得到300维的词向量和字向量,其中上下文窗口大小为5,采样值设为1e-3;然后利用得到的300维的词向量和字向量去初始化第二部分数据集,如果第二部分数据集中的词或字不在维基百科中文语料库中,则采用均匀分布[-0.25,0.25]以随机初始化的方式表示;最终,得到第二部分数据集的词向量和字向量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于青岛理工大学,未经青岛理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910741879.8/1.html,转载请声明来源钻瓜专利网。