[发明专利]一种机器翻译方法、装置、电子设备及存储介质有效
申请号: | 201811542809.1 | 申请日: | 2018-12-17 |
公开(公告)号: | CN109558604B | 公开(公告)日: | 2022-06-14 |
发明(设计)人: | 张睿卿;何中军;吴华;王海峰 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G06F40/58 | 分类号: | G06F40/58 |
代理公司: | 北京品源专利代理有限公司 11332 | 代理人: | 孟金喆 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 机器翻译 方法 装置 电子设备 存储 介质 | ||
本发明实施例公开了一种机器翻译方法、装置、电子设备及存储介质。所述方法包括:将源语言的初始待翻译文本翻译为与其对应的目标语言的初始候选译文;获取所述目标语言的初始候选译文对应的M个目标语言的相似候选译文;其中,M为大于1的自然数;将所述目标语言的初始候选译文翻译为与其对应的N个源语言的相似待翻译文本;其中,N为大于1的自然数;根据M个目标语言的相似候选译文以及N个源语言的相似待翻译文本确定所述源语言的初始待翻译文本对应的目标语言的目标候选译文。可以生成较多数量的翻译样本,从而能够有效地改善稀缺语种的机器翻译效果。
技术领域
本发明实施例涉及机器翻译技术领域,尤其涉及一种机器翻译方法、装置、电子设备及存储介质。
背景技术
机器翻译是利用机器对用户输入的待翻译语句进行翻译得到目标语句的技术。基于神经网络的机器翻译是目前最好的机器翻译方法。该方法通过训练神经网络,让神经网络模型参数自动拟合,从而实现源语言到目标语言的映射。但是在机器翻译的过程中,稀缺语料的翻译一直是个比较大的挑战。尤其是在进行小语种翻译时,基于神经网络的机器翻译方法难以进行参数拟合。例如,单独的中文语料和单独的阿拉伯语语料都很多,但是中阿互译的语料比较少,此时可以通过大量单语语料解决网络难以训练的问题,从而帮助基于神经网络的机器翻译方法应用于小语种翻译。
在现有的机器翻译方法中,通常采用回译的方法进行小语种翻译,即采用目标语言到源语言的翻译模型,生成目标语言对应的源语言样本,将这份翻译样本加入到源语言到目标语言的翻译模型中,从而改善稀缺语种的机器翻译效果。但是采用回译的方法生成的翻译样本的数量较少,不能有效地改善稀缺语种的机器翻译效果。
发明内容
有鉴于此,本发明实施例提供一种机器翻译方法、装置、电子设备及存储介质,可以生成较多数量的翻译样本,从而能够有效地改善稀缺语种的机器翻译效果。
第一方面,本发明实施例提供了一种机器翻译方法,所述方法包括:
将源语言的初始待翻译文本翻译为与其对应的目标语言的初始候选译文;
获取所述目标语言的初始候选译文对应的M个目标语言的相似候选译文;其中,M为大于1的自然数;
将所述目标语言的初始候选译文翻译为与其对应的N个源语言的相似待翻译文本;其中,N为大于1的自然数;
根据M个目标语言的相似候选译文以及N个源语言的相似待翻译文本确定所述源语言的初始待翻译文本对应的目标语言的目标候选译文。
在上述实施例中,所述获取所述目标语言的初始候选译文对应的M个目标语言的相似候选译文,包括:
确定所述目标语言的初始候选译文对应的目标语言的句表示向量;
根据所述目标语言的初始候选译文对应的目标语言的句表示向量获取所述目标语言的初始候选译文对应的M个目标语言的相似候选译文。
在上述实施例中,所述将所述目标语言的初始候选译文翻译为与其对应的N个源语言的相似待翻译文本,包括:
确定所述目标语言的初始候选译文对应的源语言的句表示向量;
根据所述目标语言的初始候选译文对应的源语言的句表示向量将所述目标语言的初始候选译文翻译为与其对应的N个源语言的相似待翻译文本。
在上述实施例中,所述根据M个目标语言的相似候选译文以及N个源语言的相似待翻译文本确定所述源语言的初始待翻译文本对应的目标语言的目标候选译文,包括:
根据M个目标语言的相似候选译文以及N个源语言的相似待翻译文本确定出M×N组翻译样本;
根据M×N组翻译样本确定所述源语言的初始待翻译文本对应的目标语言的目标候选译文。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811542809.1/2.html,转载请声明来源钻瓜专利网。