[发明专利]一种翻译处理方法及系统有效
申请号: | 201810555273.0 | 申请日: | 2018-06-01 |
公开(公告)号: | CN108874785B | 公开(公告)日: | 2020-11-03 |
发明(设计)人: | 刘洋;丁延卓;栾焕博;孙茂松;翟飞飞;许静芳 | 申请(专利权)人: | 清华大学;北京搜狗科技发展有限公司 |
主分类号: | G06F40/44 | 分类号: | G06F40/44;G06F40/58;G06F40/279 |
代理公司: | 北京路浩知识产权代理有限公司 11002 | 代理人: | 王莹;吴欢燕 |
地址: | 100084 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 翻译 处理 方法 系统 | ||
本发明实施例提供一种翻译处理方法及系统,其中方法包括:获取源语言的语句;将所述源语言的语句进行编码,得到向量序列,所述向量序列包括由从所述语句分得的各个分词分别转换成的词向量;根据所述向量序列逐词地预测目标语言中相应的候选词;根据预测得到的候选词生成目标语言的语句,在任一所述候选词的预测处理中,从预设的翻译词表中获取多个初选词,根据预先训练的机器翻译模型计算每个初选词的翻译概率,以根据所述翻译概率从所述初选词中选取所述候选词。本发明实施例使得数据稀疏的语言对可以获得更佳的翻译质量。
技术领域
本发明涉及机器翻译技术领域,更具体地,涉及一种翻译处理方法及系统。
背景技术
随着国际交流的日益深入,人们对语言翻译的需求与日俱增。然而,世界上存在的语言种类繁多,各有特征,形式灵活,使得训练所有语言对之间的机器翻译模型,成为尚待解决的难题。
为了实现自动的机器翻译,目前的技术通常基于神经网络的方法。神经网络是数据驱动的,为此,需要收集大规模高质量的平行语料以获得可靠的翻译模型。然而,高质量的平行语料常常只存在于少量的几种语言之间,并且往往受限于某些特定的领域,比如政府文件、新闻等。
因此,基于神经网络的机器翻译面临着一个很大的问题:大部分的语言对没有质量很高、数量很多的平行语料。在小规模的数据上训练的神经机器翻译模型翻译效果是很差的,因此导致了大多数的语言对没办法训练一个可靠的神经网络翻译模型。
为了解决这个问题,现有技术提出了用多语言的神经机器翻译模型来缓解数据稀疏问题。这些方法的核心思想是“共享”,即同时利用多个语言对的平行预料来训练神经机器翻译模型,共享神经网络的一些子节点甚至是整个神经网络,从而可以在一定程度上解决训练语料稀疏的问题。然而,由于每种语言都有自己独特的特性如语序、词汇等等,只利用“共享”的神经网络去训练多语言翻译模型可能会忽略每种语言的特性,从而导致翻译模型的翻译效果变差。
发明内容
本发明提供一种克服上述问题或者至少部分地解决上述问题的一种翻译处理方法及系统。
根据本发明实施例的第一个方面,提供一种翻译处理方法,包括:
获取源语言的语句;
将所述源语言的语句进行编码,得到向量序列,所述向量序列包括由从所述语句分得的各个分词分别转换成的词向量;
根据所述向量序列逐词地预测目标语言中相应的候选词;
根据预测得到的候选词生成目标语言的语句;
其中,在任一所述候选词的预测处理中,从预设的翻译词表中获取多个初选词,根据预先训练的机器翻译模型计算每个初选词的翻译概率,以根据所述翻译概率从所述初选词中选取所述候选词;
所述预先训练的机器翻译模型根据公有翻译模型输出的隐状态和私有翻译模型输出的隐状态建立,所述公有翻译模型根据多个样本语言对训练而成,所述私有翻译模型根据所述源语言和目标语言对应的样本语言对训练而成。
根据本发明实施例的第二个方面,还提供一种翻译处理系统,包括:
源语句获取模块,用于获取源语言的语句;
编码模块,用于将所述源语言的语句进行编码,得到向量序列,所述向量序列包括由从所述语句分得的各个分词分别转换成的词向量;
预测模块,用于根据所述向量序列逐词地预测目标语言中相应的候选词;
目标语句生成模块,用于根据预测得到的候选词生成目标语言的语句;
其中,所述预测模块在任一所述候选词的预测处理中,从预设的翻译词表中获取多个初选词,根据预先训练的机器翻译模型计算每个初选词的翻译概率,以根据所述翻译概率从所述初选词中选取所述候选词;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学;北京搜狗科技发展有限公司,未经清华大学;北京搜狗科技发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810555273.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种移动翻译设备和音频翻译方法
- 下一篇:机器翻译方法及装置