[发明专利]一种基于混合平铺卷积神经网络的文本情感分类系统在审

专利信息
申请号: 202110257658.0 申请日: 2021-03-09
公开(公告)号: CN113094501A 公开(公告)日: 2021-07-09
发明(设计)人: 潘晓光;潘哲;焦璐璐;令狐彬;宋晓晨 申请(专利权)人: 山西三友和智慧信息技术股份有限公司
主分类号: G06F16/35 分类号: G06F16/35;G06F40/216;G06F40/30;G06N3/04;G06N3/08
代理公司: 深圳科润知识产权代理事务所(普通合伙) 44724 代理人: 李小妮
地址: 030000 山西省*** 国省代码: 山西;14
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 混合 平铺 卷积 神经网络 文本 情感 分类 系统
【说明书】:

本申请涉及自然语言处理领域,特别涉及一种基于混合平铺卷积神经网络的文本情感分类系统,包括如下模块:数据输入模块、卷积层模块和最大池化层模块,所述数据输入模块用于获取文本数据集;所述卷积层模块用于对所述文本数据集中的单词进行卷积操作;所述最大池化层模块用于将所述卷积操作后的数据进行最大池化操作;本发明通过提出混合平铺卷积神经网络的新结构,相比于TCNN拥有灵活的滤波结构,能提高自然语言分类处理的效率。

技术领域

本申请涉及自然语言处理领域,特别涉及一种基于混合平铺卷积神经网络的文本情感分类系统。

背景技术

目前平铺卷积神经网络TCNN一般仅用于学习不变性的计算机视觉,其适用性受到限制的原因就在于它具有多元不变性学习者的性质。TCNN的结构并不适用于自然语言处理,其主要原因是不具备灵活的滤波结构,需要对滤波结构加以改进。

TCNN平铺卷积神经网络是一种改进CNN卷积神经网络,被提议用于图像处理,以捕捉广泛的图像不变性,但是在NLP(自然语言处理)领域应用性较差,不能满足情感分类的性能需要。

发明内容

基于此,本发明通过调整模型以满足自然语言处理NLP中情感分类的要求,将特征映射的每个滤波器设置为只覆盖一组n-gram而不是像纯CNN模型那样覆盖所有n-gram。按照每个特征映射的精确滤波结构,最相关特征的提取更有效,而且并不依赖于权值的初始值。

本申请公开了以下技术方案:

本申请公开的一种基于混合平铺卷积神经网络的文本情感分类系统,包括如下模块:数据输入模块、卷积层模块和最大池化层模块,

所述数据输入模块用于获取文本数据集;

所述卷积层模块用于对所述文本数据集中的单词进行卷积操作;

所述最大池化层模块用于将所述卷积操作后的数据进行最大池化操作。

进一步,数据输入模块中,具体包括如下模块:

所述数据输入模块中,通过构建单词嵌入捕捉单词上下文以及捕捉单词的句法和语义相似性:强和弱这样的单词具有相似的单词嵌入,可以被分配到同一个聚类中。

进一步,卷积层模块中,具体包括如下模块:

所述卷积层模块中,通过聚类模型,将单词向量分组到k个聚类中,利用高斯分布的EM算法给出了聚类解,EM算法有两个步骤,反复应用,直到发现收敛性:首先,计算一个单词属于一个聚类的概率,知道集群中的单词遵循正态分布即期望步骤;其次,根据之前计算的概率即最大化步骤更新集群均值;

对于每个聚类,通过算法描述工具PAD对句子外部的聚类词进行编码,并保持与之相关的词不变,根据字典单词索引生成的序列,对于PAD单词取0,否则取大于0的值,从而定义k个输入,并使用所述k个输入来提供k个同时存在的卷积层。

进一步,最大池化层模块中,具体包括如下模块:

所述最大池化层模块中,对于每个卷积层,修改输入,在每个索引不同于0的单词的左侧和右侧,添加n-1个相邻单词,添加的单词可以在同一组中,也可以不在同一组中。

本申请具有如下有益效果:

本方案鉴于TCNN在NLP领域的主要缺点是其不灵活的滤波结构,提出了一种新的结构,称为混合平铺卷积神经网络(HTCNN),它只对出现在类似上下文中的单词及其相邻的单词(防止某些n-grams丢失的必要步骤)应用滤波器。其中n-gram是一种基于统计语言模型的算法。它的基本思想是将文本里面的内容按照字节进行大小为N的滑动窗口操作,形成了长度是n的字节片段序列。本方案相比于TCNN拥有灵活的滤波结构,能提高自然语言分类处理的效率。

附图说明

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山西三友和智慧信息技术股份有限公司,未经山西三友和智慧信息技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110257658.0/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top