[发明专利]一种机器翻译方法、装置、电子设备及存储介质在审
申请号: | 202010763363.6 | 申请日: | 2020-07-31 |
公开(公告)号: | CN111860001A | 公开(公告)日: | 2020-10-30 |
发明(设计)人: | 李响 | 申请(专利权)人: | 北京小米松果电子有限公司 |
主分类号: | G06F40/58 | 分类号: | G06F40/58;G06F40/289;G06N3/04 |
代理公司: | 北京志霖恒远知识产权代理事务所(普通合伙) 11435 | 代理人: | 郭栋梁 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 机器翻译 方法 装置 电子设备 存储 介质 | ||
本申请公开了一种机器翻译方法、装置、电子设备及存储介质,该方法包括获取待翻译源语句;将所述待翻译源语句的第一复合子词向量输入预先训练的机器翻译模型,确定所述待翻译源语句对应的目标译文语句;其中,所述第一复合子词向量根据所述待翻译源语句的第一子词序列与第一子词边界序列得到,所述第一子词边界序列用于表征所述第一子词序列中各个子词在对应整词内的位置。由于复合子词向量除了包含该待翻译源语句的子词序列,还包含表征各个子词在对应整词内位置信息的子词边界序列,由此避免了割裂同一整词中各个子词间的原有语义关联,有效提升了翻译的准确度。
技术领域
本申请一般涉及自然语言处理技术领域,具体涉及一种机器翻译方法、装置、电子设备及存储介质。
背景技术
神经机器翻译(Neural Machine Translation,NMT)是指直接采用神经网络,以端到端方式进行翻译建模的机器翻译方法。早期的神经机器翻译采用词级别作为建模单元,而由于在大规模双语训练过程中,考虑到存储和效率的问题,词表只包含源语言或者目标语言中词频最高的词,这就会导致出现大量集外词(Out of Vocabulary,OOV),造成翻译质量较低。
目前,相关技术中以子词(Subword)作为文本建模单元,通过字节对编码(BytePair Encoding,BPE)方式来消除集外词,同时由于采用较小的词表,保证了模型可训练以及解码的速度。
然而,在实现本发明的过程中,发明人发现相关技术至少存在如下问题:字节对编码方式在将原本的整词(Whole Word)文本序列转换为子词(Subword)文本序列之后,每个子词成为一个独立的“词语”,使得来源于一个整词的各个子词间原有语义关联出现缺失,影响翻译的准确度。
发明内容
鉴于相关技术中的上述缺陷或不足,期望提供一种机器翻译方法、装置、电子设备及存储介质,能够将子词边界信息融合到翻译过程中,有效提升翻译的准确度。
第一方面,本申请提供一种机器翻译方法,所述方法包括:
获取待翻译源语句;
将所述待翻译源语句的第一复合子词向量输入预先训练的机器翻译模型,确定所述待翻译源语句对应的目标译文语句;
其中,所述第一复合子词向量根据所述待翻译源语句的第一子词序列与第一子词边界序列得到,所述第一子词边界序列用于表征所述第一子词序列中各个子词在对应整词内的位置。
在本申请一些实施例中,所述机器翻译模型通过如下步骤训练而成:
根据对源语言语句和所述源语言语句对应的目标语言语句进行词语切分得到的整词序列,学习BPE编码规则,所述BPE编码规则包括源语言BPE编码规则和目标语言BPE编码规则;
基于所述源语言BPE编码规则确定所述源语言语句的第二复合子词向量,所述第二复合子词向量根据所述源语言语句的第二子词序列和第二子词边界序列得到;以及,基于所述目标语言BPE编码规则确定所述目标语言语句的第二子词序列;
根据所述源语言语句的第二复合子词向量与所述目标语言语句的第二子词序列进行编码和解码训练,得到所述机器翻译模型。
在本申请一些实施例中,所述基于所述源语言BPE编码规则确定所述源语言语句的第二复合子词向量,所述第二复合子词向量根据所述源语言语句的第二子词序列和第二子词边界序列得到,包括:
根据所述源语言BPE编码规则,对所述源语言语句的整词序列再次进行切分,得到所述源语言语句的第二子词序列;
标注所述源语言语句的第二子词序列中各个子词在对应整词内的位置,得到所述第二子词边界序列;
转换所述源语言语句的第二子词序列为所述源语言语句的第二子词向量,以及所述第二子词边界序列为第二子词边界向量;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京小米松果电子有限公司,未经北京小米松果电子有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010763363.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种评估检验固定衰减器的装置
- 下一篇:一种电子技术实验台