[发明专利]一种基于改进的胶囊网络的评论文本情感分析方法在审
申请号: | 202110315537.7 | 申请日: | 2021-03-24 |
公开(公告)号: | CN113159831A | 公开(公告)日: | 2021-07-23 |
发明(设计)人: | 杨科华;杨祝武 | 申请(专利权)人: | 湖南大学 |
主分类号: | G06Q30/02 | 分类号: | G06Q30/02;G06Q50/12;G06F40/289;G06F40/30;G06N3/04 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 410082 湖南省*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 改进 胶囊 网络 评论 文本 情感 分析 方法 | ||
1.一种基于改进胶囊网络的评论文本情感分类方法,其特征在于,包括如下步骤:
步骤1:使用爬虫技术获取评论数据并设置相对应的标签,进行数据清洗等预处理,去除噪声信息,保留具有情感语义特征等词汇;
步骤2:对步骤1中预处理后的评论文本数据进行词嵌入建模,形成词向量;
步骤3:对步骤2中所述文档词向量利用改进对胶囊网络构建局部语义特征提取模型,进行局部语义特征提取,所述局部语义特征提取模型包括一层卷积层、两层胶囊层,卷积层通过卷积操作来提取各个位置的局部特征,胶囊层使用动态路由进行特征聚类;
步骤4:构建LSTM模型,对所述步骤3中胶囊网络输出的文本向量进行上下文信息提取;
步骤5:通过softmax函数进行分本分类。
2.根据权利要求1所述的基于改进的胶囊网络的酒店评论文本情感分析方法,其特征在于,所述步骤1中数据获取包括:
(1)酒店评论获取的相关技术;
(2)爬虫过程中所用到的相应配置信息。
3.根据权利要求1所述的基于改进的胶囊网络的酒店评论文本情感分析方法,其特征在于,所述步骤1中数据预处理包括:
(1)数据清洗时删除掉数据中的标点符号、特殊字符、英文字母以及emoji表情;
(2)由于中文文本的特殊性,使用jieba分词工具进行分词,并且在哈工大停词表的基础上构建酒店行业相关的特殊停词表,在分词时使用;
(3)使用word2dev算法将预处理后的评论文本数据转化为包含文本特征的词向量模型。
4.根据权利要求1中所述基于改进的胶囊网络的酒店评论文本情感分析分类方法,其特征在于,包括标准的卷积层、卷积胶囊层以及主胶囊层,标准的卷积层通过多个不同的卷积核在文本句子的不同位置提取特征;卷积胶囊层将卷积操作中的标量输出替换为矢量输出,保留词向量的空间位置特征关系;主胶囊层通过与变换矩阵相乘来计算子胶囊关于父胶囊的预测向量,然后与耦合系数相乘得到胶囊层的总输入,最后通过动态路由算法来输出父胶囊。
5.根据权利要求1中所述的基于改进的胶囊网络的酒店评论文本情感分析分类方法,其特征在于改进了胶囊网络原有的squash方法,使其模长很接近于0时起到放大作用,而不像原来的函数那样全局都压缩,实验结果证明改进后的squash方法可以取得更高的效果。
6.根据权利要求1中所述的基于改进的胶囊网络的酒店评论文本情感分析分类方法,其特征在于改进了胶囊网络(CapsNet)的动态路由(dynamic-Routing)方法,使其具有更优的性能。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于湖南大学,未经湖南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110315537.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种外开侧滑铰链及外开窗结构
- 下一篇:一种针对增量配电业务投资的测算模型