[发明专利]学习长时依赖和分层结构的文本分类模型、方法及介质在审
申请号: | 201910769110.7 | 申请日: | 2019-08-20 |
公开(公告)号: | CN110569358A | 公开(公告)日: | 2019-12-13 |
发明(设计)人: | 赵一;沈艳艳;黄林鹏 | 申请(专利权)人: | 上海交通大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06N3/04;G06N3/08 |
代理公司: | 31236 上海汉声知识产权代理有限公司 | 代理人: | 庄文莉 |
地址: | 200240 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 循环块 循环神经网络 循环单元 有效地 引入 时间序列数据 时间序列预测 文本分类模型 注意力机制 长期趋势 分层结构 建立连接 连接方式 频域特征 神经网路 时间维度 时间序列 小波变换 时间步 长时 时域 融合 共享 全局 学习 | ||
1.一种学习长时依赖和分层结构的文本分类模型,其特征在于,包括:
密集连接循环神经网络模块:在循环神经网络中引入密集连接,在不同的时间步之间建立连接,使得每个循环单元可以直接连接到前面的所有的循环单元,再引入密集循环块将时间维度划分成不同的密集循环块,不同的密集循环块之间以循环神经网络的连接方式相连,共享不同密集循环块的参数,获得引入了密集循环块的循环神经网路;
密集循环神经网络更新模块:根据获得的引入了密集循环块的循环神经网路,再引入分层多尺度更新的结构。
2.根据权利要求1所述的学习长时依赖和分层结构的文本分类模型,其特征在于,所述密集连接循环神经网络模块:
密集连接引入模块:在循环神经网络中引入密集连接,在不同的时间步之间建立连接,使得每个循环单元可以直接连接到前面的所有的循环单元;
密集循环块引入模块:引入密集循环块将时间维度划分成不同的密集循环块,不同的密集循环块之间以传统循环神经网络中不同时间步的连接方式相连,共享不同密集循环块的参数,获得引入了密集循环块的循环神经网路;
所述密集循环块内每一个循环单元都连接到密集循环块中前面所有的循环单元。
3.根据权利要求2所述的学习长时依赖和分层结构的文本分类模型,其特征在于,所述密集连接循环神经网络模块:
所述密集循环块的更新机制如下:
给定文本序列[x1,x2,…,xT],假设密集块的长度为k,记为密集长度,对于文本序列中的一个时间步t∈[1,T],T表示文本的长度,假设t=mk+n,m≥0,n∈[1,k],表示第t个词语属于第m+1个密集块中的第n步,当n=1的时候,将[xt,ht-1]作为输入,包括当前文本序列的输入和前一个密集块的最后一步隐藏状态;当n>1的时候,将密集块前面的所有步的隐藏状态全都结合起来,然后按照下面的方式来更新模型的状态:
其中,
表示与当前步建立连接的前面的隐藏状态的合集;
ht-1表示上一步的隐藏状态;
k表示密集块的长度,即密集长度;
表示第l层的t时刻的隐藏状态;
W1表示xt对应的参数矩阵;
W2表示对应的参数矩阵;
b表示误差项;
f是一个非线性的激活函数。
4.根据权利要求3所述的学习长时依赖和分层结构的文本分类模型,其特征在于,所述密集循环神经网络更新模块:
所述分层多尺度更新的结构指:
第l层按如下的公式更新:
其中,
表示第l-1层第t步的隐藏状态
l≥1,kl是第l层的密集块的长度。是第l-1层第t步的隐藏状态;
所述非线性函数f包括:标准的RNN单元函数、加入门机制的LSTM和GRU单元函数。
5.一种学习长时依赖和分层结构的文本分类方法,其特征在于,包括:
密集连接循环神经网络步骤:在循环神经网络中引入密集连接,在不同的时间步之间建立连接,使得每个循环单元可以直接连接到前面的所有的循环单元,再引入密集循环块将时间维度划分成不同的密集循环块,不同的密集循环块之间以循环神经网络的连接方式相连,共享不同密集循环块的参数,获得引入了密集循环块的循环神经网路;
密集循环神经网络更新步骤:根据获得的引入了密集循环块的循环神经网路,再引入分层多尺度更新的结构。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海交通大学,未经上海交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910769110.7/1.html,转载请声明来源钻瓜专利网。