[发明专利]机器翻译设备和方法在审

专利信息
申请号: 201910700240.5 申请日: 2019-07-31
公开(公告)号: CN112395888A 公开(公告)日: 2021-02-23
发明(设计)人: 郭垿宏;郭心语;李安新;陈岚 申请(专利权)人: 株式会社NTT都科摩
主分类号: G06F40/58 分类号: G06F40/58;G06N3/04;G06N3/08
代理公司: 北京市柳沈律师事务所 11105 代理人: 于小宁;黄玫
地址: 日本*** 国省代码: 暂无信息
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 机器翻译 设备 方法
【说明书】:

公开了机器翻译设备和方法。所述机器翻译设备,包括:预处理单元,用于对源语言输入文本执行处理,以产生与所述源语言输入文本中的各源语言单词对应的多个向量;编码单元,用于对所述多个向量进行编码以产生多个编码向量;以及解码单元,用于将所述多个编码向量以及指示翻译方向的信息输入至单个解码网络,并且从所述单个解码网络输出与源语言输入文本对应的目标语言输出文本,其中,所述输出文本中包括的目标语言单词的输出顺序与所述翻译方向一致,其中当向所述单个解码网络输入的信息所指示的翻译方向改变时,所述单个解码网络中各节点的参数不变。

技术领域

发明涉及自然语言处理的领域,更具体地说,涉及机器翻译设备和方法。

背景技术

机器翻译是利用计算机将一种自然语言(源语言)转换为另一种自然语言(目标语言)的过程。它是计算语言学的一个分支,是人工智能的终极目标之一,具有重要的科学研究价值。同时,机器翻译又具有重要的实用价值。随着经济全球化及互联网的飞速发展,机器翻译技术在促进政治、经济、文化交流等方面起到越来越重要的作用。

随着深度学习的研究取得较大进展,基于人工神经网络的机器翻译(NeuralMachine Translation,NMT)逐渐兴起。其技术核心是一个拥有海量结点(神经元)的深度神经网络,可以自动地从语料库中学习翻译知识。一种语言的句子被向量化之后,在网络中层层传递,转化为计算机可以“理解”的表示形式,再经过多层复杂的传导运算,生成另一种语言的译文。实现了“理解语言,生成译文”的翻译方式。这种翻译方法最大的优势在于译文流畅,更加符合语法规范,容易理解。相比之前的翻译技术,质量有“跃进式”的提升。

谷歌提出了一种新的架构(Transformer),用来实现NMT。Transformer架构包括编码器(Encoder)和解码器(Decoder)两部分。编码器对输入文本进行深层语义表示,解码器依据输入文本的语义表示产生输出文本。编码器和解码器都是由多层网络堆积而成。

现有的解码网络仅能够按照设置好的翻译方向(如,自左往右或自右向左)逐词地产生译文输出。也就是说,一个解码网络只能够按照一种固定的翻译方向来构造并训练。如果用户希望改变翻译方向,则只能重新构造并训练与该翻译方向对应的另一个解码网络。然而,这显然不利于节约时间成本和软硬件成本。

发明内容

鉴于以上情形,期望提供新的机器翻译方法和设备,其能够针对不同的翻译方向,共享相同的解码网络。

根据本公开的一个方面,提供了一种机器翻译方法,包括:对源语言输入文本执行处理,以产生与所述源语言输入文本中的各源语言单词对应的多个向量;对所述多个向量进行编码以产生多个编码向量;将所述多个编码向量以及指示翻译方向的信息输入至单个解码网络;以及从所述单个解码网络输出与源语言输入文本对应的目标语言输出文本,其中,所述输出文本中包括的目标语言单词的输出顺序与所述翻译方向一致,其中当向所述单个解码网络输入的信息所指示的翻译方向改变时,所述单个解码网络中各节点的参数不变。

另外,在根据本公开实施例的方法中,通过以下处理来训练所述解码网络:对源语言训练输入文本执行处理,以产生与所述源语言训练输入文本中的各源语言单词对应的多个训练向量;对所述多个训练向量进行编码以产生多个编码训练向量;将所述多个编码训练向量以及指示翻译方向的信息输入至单个解码网络;分别在多个时间步从所述单个解码网络输出多个训练预测向量,其中每一个训练预测向量包括目标语言词库中的各单词在一个时间步作为目标语言输出文本中的单词的概率,且各时间步分别与目标语言输出文本中的各单词对应;基于与所述翻译方向对应的、目标语言正解文本在多个时间步应该输出的单词,确定多个正解向量,其中每一个正解向量包括目标语言词库中的各单词在一个时间步作为目标语言输出文本中的单词的概率,并且与该时间步应该输出的单词对应的概率最大;以及至少基于表示训练预测向量与相应的正解向量之间的差异的第一损失函数,调整所述解码网络中各节点的参数。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于株式会社NTT都科摩,未经株式会社NTT都科摩许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201910700240.5/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top