[发明专利]基于未标注数据的多过程协同训练有效
申请号: | 201610837511.8 | 申请日: | 2016-09-01 |
公开(公告)号: | CN107798386B | 公开(公告)日: | 2022-02-15 |
发明(设计)人: | 贺笛;刘铁岩;秦涛 | 申请(专利权)人: | 微软技术许可有限责任公司 |
主分类号: | G06F40/40 | 分类号: | G06F40/40;G06N5/02 |
代理公司: | 北京市金杜律师事务所 11256 | 代理人: | 王茂华;马明月 |
地址: | 美国华*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 标注 数据 过程 协同 训练 | ||
本公开的实施例涉及基于未标注数据的多过程协同训练。在利用一个转换过程将一种类型的信息转换为另一种不同类型的信息之后,确定利用逆向的转换过程将该信息转换回原始信息的可能性,继而至少部分地基于该可能性来更新互逆的转换过程中的至少一个。此种方式仅使用两种类型信息的未标注数据来训练,而无需两种类型信息的对齐的平行数据,从而既提高了训练效率,又显著降低了学习成本。
背景技术
机器翻译(Machine Translation,简称MT)允许在无需用户介入的情况下利用计算机将一种语言的文本翻译成另一种语言的文本。当前的机器翻译系统通常使用如下两种翻译方式:一种是传统的基于短语的统计翻译方式,另一种是当前新兴的基于神经网络的翻译方式。这两种翻译方式都使用对齐的双语平行语料库,对两种语言之间的翻译模型进行单独训练。以中英文翻译系统为例,通常基于经过标注的中英文词句配对,分别对中文到英文的翻译模型以及英文到中文的翻译模型进行训练。
为了优化翻译的性能,例如得到较高的翻译准确性,往往需要大规模的训练数据。特别是在利用深度学习技术来训练翻译模型时,模型往往很复杂,需要的参数很多,因而所需的训练数据也相当多。然而,获得对齐的双语平行语料库的成本是很高的。同样的问题也广泛存在于需要利用对齐的、经过标注的数据样本来完成训练的其他模型或者过程中。
发明内容
发明人注意到,网络(例如Web)之类的信息源能够提供大量未标注数据,这些数据是很容易收集的。因此,不同于基于对齐标注样本库的传统机器学习方法,本公开的实施例所采用的是未标注数据。具体而言,在此提出了一种全新的基于多过程(或称多模型)循环反馈的训练机制。借助于这种循环反馈,两个或者更多互逆的转换过程可以在训练中被逐步优化。这在工作原理和机制上都显著不同于任何已知方案。
在一些实施例中,一个转换过程(或模型)被用来将第一类型的信息转换为不同的第二类型的信息。继而,获得的信息被输入逆向的转换过程,其可以将第二类型的信息转换回第一类型的信息。此时,可以确定逆向转换过程获得初始信息的可能性,这种可能性反应了这两个转换过程中至少一个的准确性。由此,可以至少部分地基于该可能性来更新互逆的转换过程中的一个或二者。此种方式,可以借助于未标注的数据来完成过程或模型的训练,而且对样本数据进行额外的对齐。这既提高了训练效率,又显著降低了学习成本。
提供发明内容部分是为了简化的形式来介绍对概念的选择,它们在下文的具体实施方式中将被进一步描述。发明内容部分无意标识要求保护的主题的关键特征或主要特征,也无意限制要求保护的主题的范围。
附图说明
结合附图并参考以下详细说明,本公开各实施例的上述和其他特征、优点及方面将变得更加明显。在附图中,相同或相似的附图标注表示相同或相似的元素,其中:
图1示出了根据本公开的某些实施例的示例训练过程;
图2示出了根据本公开的某些其他实施例的示例训练过程;
图3示出了根据本公开的某些实施例的方法的流程图;以及
图4示出了其中可以实施本公开的一个或多个实施例的计算系统/服务器的框图。
在所有附图中,相同或相似参考数字表示相同或相似元素。
具体实施方式
下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例,然而应当理解的是,本公开可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例,相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是,本公开的附图及实施例仅用于示例性作用,并非用于限制本公开的保护范围。
在此使用的术语“对齐的数据”是指具有已标注的配对关系的不同类型的数据。已标注了配对关系的数据可用于相关类型的数据之间的转换,并且该配对关系可以用转换概率来指示。例如,在翻译系统的学习过程中,可以使用已标注了翻译概率的源语言词句和目标语言词句来训练翻译系统。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于微软技术许可有限责任公司,未经微软技术许可有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610837511.8/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置