[发明专利]用于正则化神经网络的系统和方法在审

申请号：	201910324199.6	申请日：	2019-04-22
公开（公告）号：	CN110084368A	公开（公告）日：	2019-08-02
发明（设计）人：	G.I.沙米尔	申请（专利权）人：	谷歌有限责任公司
主分类号：	G06N3/08	分类号：	G06N3/08
代理公司：	北京市柳沈律师事务所 11105	代理人：	金玉洁
地址：	美国加利***	国省代码：	美国;US
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	神经网络正则化神经元机器学习解相关
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本公开通常涉及机器学习。更具体地，本公开涉及通过在神经网络的训练期间解相关神经网络的神经元或其他参数来正则化神经网络的系统和方法，从而促进这些参数相互创新。

相关申请

本申请要求美国临时专利申请号62/660,617的优先权，该临时专利申请通过引用整体并入本文。

技术领域

本公开通常涉及机器学习。更具体地，本公开涉及通过在神经网络的训练期间解相关(decorrelate)神经网络的神经元和/或其他组件或参数来正则化神经网络的系统和方法。

背景技术

神经网络在大数据预测方面已经提供了巨大突破，以及改善了机器学习的预测准确度和能力。然而，由于神经网络为了实现这样的性能而试图学习的非常大量的参数，因此它们可能显著地过度拟合训练数据，潜在地引起对训练期间未观察到的数据的不良泛化。

神经网络还遭受训练中潜在的不稳定性和不可再现性。对于不可再现性，例如，有可能在相同的数据上两次独立训练相同的网络结构仍然可以得到两个非常不同的神经网络，并且有可能对训练期间未观察到的数据产生不同的预测。这可以发生在不保证以相同的顺序访问训练示例的高度并行化和分布式的训练系统中。然后，如果网络然后控制哪些后续训练示例被看见，那么该网络可以随着协变量移位非常不同地演进。这些偏差可以从训练示例的不同随机初始化、并行化和/或顺序产生。

已经示出了神经网络中存在大量冗余。冗余可能导致上述过度拟合和其他问题。具体地，网络可以被很好地过度参数化，其中一些参数可以由其他参数预测。因为学习(遗憾)惩罚支付给比所需更多的参数，并且收敛速度和泛化能力减慢，所以这特别导致具有有限的训练示例的过度拟合。

因此，当在相同的数据上重新训练但具有训练示例的潜在的不同初始化、并行化和顺序时，神经网络遭受过度拟合、对看不见的数据的潜在的不良泛化、不稳定性和不可再现性。这些问题使得使用神经网络部署大规模系统变得困难，有时甚至是不可能的，由于在提供更准确的预测时无法利用神经网络的显著优势和优点而导致巨大损失。当前的解决方案要求在训练和部署中重复，引起CPU和内存的过度利用，并且由于缺乏资源而阻碍部署更多系统的能力。

发明内容

本公开的实施例的方面和优点将部分地在以下描述中阐述，或者可以从描述中学习，或者可以通过实施例的实践来学习。

本公开的一个示例方面针对一种用于训练神经网络的计算机实施的方法。该方法包括由一个或多个计算设备获得描述神经网络的数据。神经网络包括多层神经元。该方法包括由一个或多个计算设备通过神经网络反向传播损失函数来训练神经网络。损失函数描述神经网络相对于一组训练示例的性能。由一个或多个计算设备通过神经网络反向传播损失函数包括，对于神经网络的多个层中的一个或多个层中的每个层：由一个或多个计算设备确定损失函数相对于层中包括的神经元的梯度。对于至少该层，损失函数包括创新损失项，该创新损失项为层中包括的一个或多个神经元或单元中的每一个提供基于层中的一个或多个其他神经元的能力的损失值，以预测这样的神经元的值。通过一个或多个计算设备通过神经网络反向传播损失函数包括，对于神经网络的多个层中的一个或多个层中的每个层：由一个或多个计算设备至少部分地基于包括创新损失项的损失函数的梯度修改该层中包括的神经元，以解相关该层中包括的神经元。

本公开的另一示例方面针对一种用于训练神经网络的计算机实施的方法。该方法包括由一个或多个计算设备获得描述神经网络的数据。神经网络包括多层神经元。该方法包括由一个或多个计算设备至少部分地基于由相同层中包括的一个或多个其他神经元预测这样的神经元的值的误差来为多个层中的一个或多个层中包括的一个或多个神经元中的每一个神经元确定有益分数(benefit score)。该方法包括由一个或多个计算设备至少部分地基于为至少一个神经元确定的有益分数来修改与一个或多个神经元中的这样的至少一个相关联的权重。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于谷歌有限责任公司，未经谷歌有限责任公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201910324199.6/2.html，转载请声明来源钻瓜专利网。

上一篇：一种基于LSTM深度学习模型的土壤墒情预测方法
下一篇：基于多目标优化的变异测试变异体约简方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06N 基于特定计算模型的计算机系统
G06N3-00 基于生物学模型的计算机系统
G06N3-02 .采用神经网络模型
G06N3-12 .采用遗传模型
G06N3-04 ..体系结构，例如，互连拓扑
G06N3-06 ..物理实现，即神经网络、神经元或神经元部分的硬件实现
G06N3-08 ..学习方法

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]用于正则化神经网络的系统和方法在审

专利文献下载