[发明专利]一种LSTM神经网络训练方法及装置有效

专利信息
申请号: 201910863211.0 申请日: 2019-09-12
公开(公告)号: CN110782002B 公开(公告)日: 2022-04-05
发明(设计)人: 曾理;王纯斌;蓝科 申请(专利权)人: 成都四方伟业软件股份有限公司
主分类号: G06N3/04 分类号: G06N3/04;G06N3/08;G06F40/289;G06F40/295
代理公司: 暂无信息 代理人: 暂无信息
地址: 610041 四川省*** 国省代码: 四川;51
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 lstm 神经网络 训练 方法 装置
【说明书】:

发明公开了一种LSTM神经网络训练方法及装置,本发明的目的在于提供一种基于文本感知聚焦机制的长短时记忆网络训练方法。该发明将人类感知事物时对关键信息形成聚焦,给予更多注意力权重的机理用于神经网络模型训练;将词向量模式应用于文本中实体关系、事件等关键信息,计算实体向量和事件向量,对训练数据进行实体增强、关系增强和事件增强,在不改变网络结构的前提下,增加训练数据中关键信息的比重,从而获得更加适用于训练数据的网络参数,提升LSTM神经网络性能。

技术领域

本发明涉及自然语言处理和人工智能领域,特别涉及一种LSTM神经网络训练方法及装置。

背景技术

深度学习技术作为人工智能“连接主义”学派的代表,近年来在语音、视觉、自然语言处理等领域取得了令人瞩目的成就,并已在互联网、安防、教育、医疗、工业制造等行业实现了落地。

人类产生的数据中包含大量时间序列,如语音信号、音频信号、文本、金融数据、设备日志等,这些数据存在时间维度上的前后关系。卷积神经网络RNN(Recurrent NeuralNetwork)因此被发明,通过将每时刻的隐藏状态传递给下一时刻来“记忆”之前的信息,进而获得对时序数据进行学习的能力。目前,基于RNN神经网络已出现了语音识别、机器翻译、乐曲生成、文本生成、情感分析、DNA序列分析、视频行为识别、命名实体识别、文本分类等多个应用。然而,对于较长的时序数据,逐层的记忆传递会因为参数矩阵的谱范数以及激活函数导数的累乘而出现疾速下降,出现“梯度消失”,最终无法保留长时间的信息。

在RNN网络的基础上,Hochreater和Schmidhuber等学者提出了长短时记忆网络LSTM(Long Short Time Memory),通过精心设计和训练的门函数来控制每个时刻的记忆进入后续单元的比例来保证长期记忆的不丢失。定量分析可以认为,LSTM将反向传播的梯度计算由联乘变为了求和,从而降低了传播误差大幅下降的概率,有效解决了“梯度消失”问题。由于LSTM包含遗忘门、输入门和输出门,每个门都需要对相应的参数矩阵进行训练,导致计算开销过大,Cho等提出了门控单元网络GRU,将三个门减少至两个,在保持网络性能的前提下降低了网络训练的计算量。进一步地,研究发现数据的输入顺序可能导致网络训练结果的改变。在此基础上又提出了双向长短时记忆网络Bi-LSTM。因此,当前所指采用循环神经网络实现的应用一般指基于LSTM网络及其变体。

近两年的研究进一步发现,人类对于信息的获取并非按照顺序或者反序依次处理的方式,而会对部分重要信息产生更高级别的关注,最终获得对全部信息的理解。Google在2017年提出了注意力(Attention)机制,将上述生理规律转换为编码器和解码器之间映射的权重表示,取得了较好的效果。然而基于注意力机制的Transformer模型结构复杂,训练计算开销极大。

发明内容

本发明的目的在于:提供了一种LSTM神经网络训练方法及装置,解决了在自然语言处理中,基于注意力机制的Transformer模型结构复杂,训练计算开销极大的问题。

本发明采用的技术方案如下:

一种LSTM神经网络训练方法,包括由无标注文本生成的训练数据,将无标注文本中的关键词处理后根据关键词对训练数据进行加权,提升训练数据对特征信息的携带能力,将加权后的训练数据用于LSTM神经网络训练。本发明借鉴人类在获取信息时对关键位置或者词语形成注意力聚焦的生理学基础,结合长短时记忆网络LSTM,提出了一种不改变模型结构的模型训练方法,通过改变训练数据中关键信息的权重,获得性能更好的模型训练结果。

进一步的,所述由无标注文本生成的训练数据,将无标注文本中的关键词处理后根据关键词对训练数据进行加权,提升训练数据对特征信息的携带能力,将加权后的训练数据用于LSTM神经网络训练的方法包括以下步骤:

S1、将无标注文本作为训练文本,对训练文本进行预处理;

S2、对预处理后的训练文本进行识别,生成训练文本的关键词;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都四方伟业软件股份有限公司,未经成都四方伟业软件股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201910863211.0/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top