[发明专利]用于使用跨域批量归一化进行神经网络中的域适配的系统和方法在审
申请号: | 201980072165.0 | 申请日: | 2019-07-12 |
公开(公告)号: | CN112955913A | 公开(公告)日: | 2021-06-11 |
发明(设计)人: | R.陈;M-H.陈;J.俞;X.刘 | 申请(专利权)人: | 索尼互动娱乐股份有限公司 |
主分类号: | G06N20/00 | 分类号: | G06N20/00;G06N3/02 |
代理公司: | 北京市柳沈律师事务所 11105 | 代理人: | 张晓明 |
地址: | 日本*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 使用 批量 归一化 进行 神经网络 中的 域适配 系统 方法 | ||
域适配模块(1800)用于使用来自域的相应平行隐藏层的相应输出来优化从第二域(1802)导出的第一域(1804)。
技术领域
本申请总体上涉及技术上有创造性的非常规解决方案,这些解决方案必须植根于计算机技术并产生具体的技术改进。
背景技术
机器学习(有时称为深度学习)可用于与数据理解、检测和/或分类有关的各种有用应用,包括图像分类、光学字符识别(OCR)、对象识别、动作识别、语音识别以及情绪识别。然而,如本文中所理解的,机器学习系统可能不足以使用来自另一个域的训练数据集(例如,电影视频)来识别例如一个域(诸如计算机游戏)中的动作。
例如,在计算机游戏行业中,视频和音频是两个独立的过程。首先设计和制作没有音频的游戏,然后音频小组调查整个游戏视频,并从音效(SFX)数据库中插入对应SFX,这非常耗时。如本文所理解的,机器学习可以用于加速该过程,但是当前动作识别模型是在真实世界视频数据集上训练的,从而使它们在用于游戏视频时受到数据集移位或数据集偏差的影响。
发明内容
为了克服上述域不匹配问题,训练数据(图像或视频或音频)的至少两个通用域用于对目标数据集进行分类。可以通过例如真实世界视频和计算机游戏视频、第一和第二说话者语音(用于语音识别)、标准字体文本和草书(用于手写识别)等来建立一对训练数据域。
因此,由损失函数和/或实际神经网络建立的通用域适配模块从深度学习的两个训练域接收来自多个输出点的输入,并提供输出测度,使得可以对神经网络的两个轨迹中的一个以及可能两个进行优化。也可以使用通用的跨域特征归一化模块,并将其插入到神经网络的任一层中。
因此,在一个方面,设备包括至少一个处理器和至少一个计算机存储装置,所述计算机存储装置不是瞬时信号并且包括可由至少一个处理器执行的指令。所述指令可执行以:访问与第一数据类型相关联的第一神经网络;访问与不同于第一数据类型的第二数据类型相关联的第二神经网络;将第一训练数据作为输入提供给第一神经网络;以及将第二训练数据作为输入提供给第二神经网络。第一训练数据不同于第二训练数据。所述指令还可执行以:识别来自第一神经网络的中间层的第一输出,其中第一输出是基于第一训练数据;以及识别来自第二神经网络的中间层的第二输出,其中第二输出是基于第二训练数据。第一神经网络和第二神经网络的相应中间层是平行的层。所述指令还可执行以:识别用于对第一输出和第二输出进行归一化的比率;以及应用将所述比率考虑在内的方程式来改变第二神经网络的中间层的一个或多个权重。
在一些示例中,比率可以与平均值有关。此外,可以对第一输出与第二输出之间的均值和方差两者进行分析以应用方程式。使用跨域批量归一化(CDBN)可以识别比率并且可以应用方程式。
在一些实现方式中,在将第二训练数据提供给第二神经网络之前,可以通过第一神经网络的副本建立第二神经网络。此外,第一神经网络和第二神经网络的中间层可以是除输出层之外的层。
而且,在一些实现方式中,第一训练数据可以与第二训练数据相关。因此,例如,在第一神经网络和第二神经网络与动作识别有关的情况下,第一训练数据可以与第二训练数据相关,因为第一训练数据和第二训练数据两者都可以与同一动作有关。作为另一示例,在第一神经网络和第二神经网络与对象识别有关的情况下,第一训练数据可以与第二训练数据相关,因为第一训练数据和第二训练数据两者都可以与同一对象有关。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于索尼互动娱乐股份有限公司,未经索尼互动娱乐股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201980072165.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:高温超导体带的对齐
- 下一篇:用于执行对象的增材制造的模块化系统和方法