[发明专利]一种基于跨语言预训练模型的藏汉神经机器翻译方法在审
申请号: | 202210952474.0 | 申请日: | 2022-08-09 |
公开(公告)号: | CN115329783A | 公开(公告)日: | 2022-11-11 |
发明(设计)人: | 拥措;杨丹;尼玛扎西 | 申请(专利权)人: | 拥措 |
主分类号: | G06F40/58 | 分类号: | G06F40/58;G06F40/42;G06F40/30;G06N3/04 |
代理公司: | 成都鱼爪智云知识产权代理有限公司 51308 | 代理人: | 邓渠清 |
地址: | 850000 西藏*** | 国省代码: | 西藏;54 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 语言 训练 模型 神经 机器翻译 方法 | ||
本发明提出了一种基于跨语言预训练模型的藏汉神经机器翻译方法,涉及语言翻译技术领域。包括将预设的藏汉平行数据进行预处理,得到待处理语料;采用数据增强的方式对所述语料进行同义词替换和回译;对所述语料中藏汉平行语料分词后使用subword‑nmt算法进行切分,将所有单词切分成子词单元,并重新构建新词表,而后使用VOLT模型优化所述新词表;使用mRASP模型中包含多个语言对的多语言预训练翻译模型,基于transformer‑big神经网络机器翻译架构对所述藏汉平行语料进行训练,得到翻译模型;在解码时采用不同的长度惩罚因子对所述翻译模型进行评估。其能够提升翻译效果以及弥补语言之间的表达差距。
技术领域
本发明涉及语言翻译技术领域,具体而言,涉及一种基于跨语言预训练模型的藏汉神经机器翻译方法。
背景技术
现有技术中,有采用新的神经机器翻译模型来对比统计机器翻译在藏汉双语上的表现,得出了采用带注意力机制的神经机器翻译模型能有效应用在藏汉机器翻译上;其后,慈祯嘉措等人,首先利用神经网络实现藏语的单语语言模型,然后使用Transformer模型,实现藏汉神经网络机器翻译模型,最后将藏语单语语言模型融合到藏汉神经网络机器翻译中;直至2021年,头旦才让等人通过改进字节对编码的算法,提出了带字数阈值的藏文字节对编码算法,优化了基于注意力机制的汉藏神经机器翻译模型。其后2022年,孙义栋等人通过改进生成藏汉词表来提升下游藏汉双向机器翻译的性能。
这些方法均有效改善了藏汉双向机器翻译的性能,但是由于藏汉平行语料匮乏、语料的质量以及现有语料的领域限制,藏汉机器翻译的性能相较于其他大语种的翻译性能来说效果较差。且在机器翻译中融入单语语言模型后,其翻译性能虽有所提升,但是语言之间的表达差距较为明显。由此需要新的一种基于跨语言预训练模型的藏汉神经机器翻译方法。
发明内容
本发明的目的在于提供一种基于跨语言预训练模型的藏汉神经机器翻译方法,其能够提升翻译效果以及弥补语言之间的表达差距。
本发明的实施例是这样实现的:
第一方面,本申请实施例提供一种基于跨语言预训练模型的藏汉神经机器翻译方法,其包括将预设的藏汉平行数据进行预处理,得到待处理语料;采用数据增强的方式对语料进行同义词替换和回译;对语料中藏汉平行语料分词后使用subword-nmt算法进行切分,将所有单词切分成子词单元,并重新构建新词表,而后使用VOLT模型优化新词表;使用mRASP模型中包含多个语言对的多语言预训练翻译模型,基于transformer-big神经网络机器翻译架构对藏汉平行语料进行训练,得到翻译模型;在解码时采用不同的长度惩罚因子对翻译模型进行评估。
在本发明的一些实施例中,将预设的藏汉平行数据进行预处理的步骤包括:对预设的藏汉平行数据内的符号进行标准化;利用分词工具分别对汉语内容和藏语内容进行分词,采用subword-nmt算法训练BPE模型,并应用于语料中,而后分别生成藏语词表和汉语词表;对所有数据进行长度比过滤,过滤藏汉双语句对长度超过预设第一阈值的语句对,通过随机抽样方法从中随机抽取数据,并划分为验证集和测试集;将验证集和测试集中,与训练集重复的语句对进行删除。
在本发明的一些实施例中,同义词替换的步骤包括:利用基于神经网络的词向量生成模型的skip-gram模型对藏语语料进行同义词替换;并对结果进行可视化展示。
在本发明的一些实施例中,回译的步骤包括:训练一个藏汉或汉藏机器翻译模型,利用藏汉或汉藏机器翻译模型将藏语或汉语的语料分别翻译成汉语或藏语语料,得到一批新的伪平行语料。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于拥措,未经拥措许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210952474.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种固固相变材料及制备方法和应用
- 下一篇:大数据传输时长分析平台及方法