[发明专利]用于卷积神经网络的神经架构搜索在审
申请号: | 201880022762.8 | 申请日: | 2018-07-17 |
公开(公告)号: | CN110476172A | 公开(公告)日: | 2019-11-19 |
发明(设计)人: | V.瓦萨德万;B.佐夫;J.施伦斯;Q.V.勒 | 申请(专利权)人: | 谷歌有限责任公司 |
主分类号: | G06N3/04 | 分类号: | G06N3/04;G06N3/08 |
代理公司: | 11105 北京市柳沈律师事务所 | 代理人: | 金玉洁<国际申请>=PCT/US2018 |
地址: | 美国加利*** | 国省代码: | 美国;US |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 控制器参数 输出序列 卷积神经网络 神经网络 性能度量 架构 计算机存储介质 控制器神经网络 调节控制器 计算机程序 图像处理 生成子 卷积 评估 | ||
包括被编码在计算机存储介质上的计算机程序、用于确定神经网络架构的方法、系统以及装置。该方法中的一个包括使用具有控制器参数的控制器神经网络并根据控制器参数的当前值生成一批输出序列。该方法包括,对于该批中的每个输出序列:生成子卷积神经网络(CNN)的实例,其中该子卷积神经网络的实例包括具有由输出序列限定的架构的第一卷积单元的多个实例;训练子CNN的实例以执行图像处理任务;以及评估子CNN的经训练的实例在任务上的性能,以确定子CNN的经训练的实例的性能度量;并且使用子CNN的经训练的实例的性能度量来调节控制器神经网络的控制器参数的当前值。
相关申请的交叉引用
本申请要求于2017年7月21日提交的美国临时申请序列号62/535,806的优先权。在先申请的公开内容被认为是本申请的一部分,并且通过引用并入本申请的公开内容中。
背景技术
本说明书涉及确定用于卷积神经网络的架构。
神经网络是采用一层或多层非线性单元层以预测所接收的输入的输出的机器学习模型。一些神经网络除了输出层之外还包括一个或多个隐藏层。每个隐藏层的输出被用作网络中的下一层(即下一个隐藏层或输出层)的输入。网络的每一层根据相应的一组参数的当前值从所接收的输入中生成输出。
一些神经网络是递归神经网络。递归神经网络是接收输入序列并从该输入序列生成输出序列的神经网络。具体地,递归神经网络可以在当前时间步长处计算输出时使用来自先前时间步长的网络的一些或全部内部状态。递归神经网络的示例是包括一个或多个LSTM记忆块的长短期(LSTM)神经网络。每个LSTM记忆块可以包括一个或多个单元,该一个或多个单元各自包括输入门、遗忘门和输出门,这些门允许单元存储该单元的先前状态,例如,用于生成电流激活或被提供给LSTM神经网络的其他组件。
发明内容
本说明书描述了在一个或多个位置中的一个或多个计算机上被实施为计算机程序的系统,该系统通过确定用于在整个网络架构中重复的卷积单元的架构来确定用于卷积神经网络的网络架构。
本说明书中描述的主题可以在具体实施例中实施,以便实现以下优点中一个或多个。通过预测一个或多个类型的卷积单元的架构,并且然后对卷积神经网络中出现的这种类型的每个卷积单元重新使用相同的架构,该系统有效地限制了可能架构的搜索空间,而没有负面地影响(并且在某些情况下,甚至提高了)所得到的架构的性能。因此,通过如本说明书中所描述的有效地限制可能架构的搜索空间,该系统可以确定匹配或超过由搜索较大的架构空间的其他技术发现的架构的性能的架构,同时使用比其他技术更少的计算资源。附加地,该系统可以有效地确定在较小数据集上的卷积单元的架构,并且然后在数据范围和计算规模上重新使用相同的单元架构。具体地,该系统可以有效地采用所得到的经学习的架构来用减少的计算预算执行图像处理任务,该计算预算匹配或优于面向移动和嵌入式平台的流线型(streamlined)架构。
本说明书中描述的主题的一个或多个实施例的细节在附图和以下描述中阐述。根据描述、附图和权利要求书,主题的其他特征、方面和优点将变得显而易见。
附图说明
图1示出了示例神经架构搜索系统。
图2A示出了第一卷积单元的示例操作块。
图2B是生成输出序列的控制器神经网络的示例的图。
图3是用于更新控制器参数的当前值的示例过程的流程图。
在各种附图中,相同的附图标记和标号指示相同的情况。
具体实施方式
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于谷歌有限责任公司,未经谷歌有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201880022762.8/2.html,转载请声明来源钻瓜专利网。