[发明专利]一种翻译模型训练方法及装置在审
申请号: | 201810936280.5 | 申请日: | 2018-08-16 |
公开(公告)号: | CN109271644A | 公开(公告)日: | 2019-01-25 |
发明(设计)人: | 王峰 | 申请(专利权)人: | 北京紫冬认知科技有限公司 |
主分类号: | G06F17/28 | 分类号: | G06F17/28;G06F17/27 |
代理公司: | 北京华夏泰和知识产权代理有限公司 11662 | 代理人: | 陈英 |
地址: | 100190 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 翻译 目标语言 源语言 语料 模型训练 平行 人工标注 双向翻译 减小 神经 | ||
本发明实施例提供一种翻译模型训练方法及装置,通过大规模源语言端单语语料和目标语言端单语语料对翻译模型进行训练,通过上述训练后的翻译模型可以同时进行从源语言端到目标语言端和从目标语言端到源语言端的双向翻译,且具有如下优势:能够在无平行语料的情况下获得较高的翻译性能。因此,该方法可以大大减小神经翻译模型对平行语料的依赖,大大降低了人工标注语料的成本和时间。
技术领域
本发明实施例涉及自然语言处理技术领域,具体涉及一种翻译模型训练方法及装置。
背景技术
随着全球化的发展,国际交流及信息传递呈现爆发式增长。传统的依赖于人工翻译的方法已经无法满足人们日常跨语言交流的需求。而机器翻译作为一种能自动提供准确翻译结果的技术,逐渐得到广泛的关注和研究。从传统的基于规则的翻译方法到统计机器翻译方法,再到现在主流的神经机器翻译方法,机器翻译的性能已经取得了巨大的进展。
目前主流的神经机器翻译方法严重依赖于大规模的高质量的平行语料。在平行语料数量不足或者没有平行语料的情况下,目前的神经机器翻译方法很难取得令人满意的翻译性能。在实际应用场景中,一般很难获得较大规模的平行语料;虽然人工标注是一个获得平行语料的可行途径,然而,人工标注的成本十分昂贵且极度费时,严重限制了人工标准的大规模展开。
发明内容
为了解决上述技术问题或者至少部分地解决上述技术问题,本发明实施例提供了一种翻译模型训练方法及装置。
有鉴于此,第一方面,本发明实施例提供一种翻译模型训练方法,包括:
获取大规模的源语言端单语语料和目标语言端单语语料;
训练所述源语言端单语语料和目标语言端单语语料,得到源语言端词向量和目标语言端词向量;
将所述源语言端词向量和目标语言端词向量映射到同一个向量空间,得到对齐的源语言端词向量和目标语言端词向量;
利用对齐的源语言端词向量和目标语言端词向量初始化预先构建的翻译模型;
在所述源语言端单语语料和目标语言端单语语料中加入可控的随机噪声;
利用带噪声的所述源语言端单语语料和目标语言端单语语料,对初始化后的翻译模型进行迭代训练。
可选的,训练所述源语言端单语语料和目标语言端单语语料,得到源语言端词向量和目标语言端词向量,包括:
分别对所述源语言端单语语料和目标语言端单语语料进行分词处理,得到分词后的词语;
对所述分词后的词语进行分割,得到粒度更小的子词;
对所述子词进行向量化处理,得到源语言端词向量和目标语言端词向量。
可选的,将所述源语言端词向量和目标语言端词向量映射到同一个向量空间,得到对齐的源语言端词向量和目标语言端词向量,包括:
在源语言端单语语料和目标语言端单语语料中找出共有的词语;
根据所述共有的词语构建源语言端词向量和目标语言端词向量的映射关系;
根据所述映射关系将源语言端词向量和目标语言端词向量映射到同一个向量空间,得到对齐的源语言端词向量和目标语言端词向量。
可选的,利用对齐的源语言端词向量和目标语言端词向量初始化预先构建的翻译模型,包括:
利用所述对齐的源语言端词向量和目标语言端词向量初始化所述翻译模型的网络结构中预先定义好的词向量表。
可选的,在所述源语言端单语语料和目标语言端单语语料中加入可控的随机噪声,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京紫冬认知科技有限公司,未经北京紫冬认知科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810936280.5/2.html,转载请声明来源钻瓜专利网。