[发明专利]一种基于跨语言预训练模型的藏汉神经机器翻译方法在审
申请号: | 202210952474.0 | 申请日: | 2022-08-09 |
公开(公告)号: | CN115329783A | 公开(公告)日: | 2022-11-11 |
发明(设计)人: | 拥措;杨丹;尼玛扎西 | 申请(专利权)人: | 拥措 |
主分类号: | G06F40/58 | 分类号: | G06F40/58;G06F40/42;G06F40/30;G06N3/04 |
代理公司: | 成都鱼爪智云知识产权代理有限公司 51308 | 代理人: | 邓渠清 |
地址: | 850000 西藏*** | 国省代码: | 西藏;54 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 语言 训练 模型 神经 机器翻译 方法 | ||
1.一种基于跨语言预训练模型的藏汉神经机器翻译方法,其特征在于,包括:
将预设的藏汉平行数据进行预处理,得到待处理语料;
采用数据增强的方式对所述语料进行同义词替换和回译;
对所述语料中藏汉平行语料分词后使用subword-nmt算法进行切分,将所有单词切分成子词单元,并重新构建新词表,而后使用VOLT模型优化所述新词表;
使用mRASP模型中包含多个语言对的多语言预训练翻译模型,基于transformer-big神经网络机器翻译架构对所述藏汉平行语料进行训练,得到翻译模型;
在解码时采用不同的长度惩罚因子对所述翻译模型进行评估。
2.如权利要求1所述的一种基于跨语言预训练模型的藏汉神经机器翻译方法,其特征在于,将预设的藏汉平行数据进行预处理的步骤包括:
对预设的藏汉平行数据内的符号进行标准化;
利用分词工具分别对汉语内容和藏语内容进行分词,采用subword-nmt算法训练BPE模型,并应用于语料中,而后分别生成藏语词表和汉语词表;
对所有数据进行长度比过滤,过滤藏汉双语句对长度超过预设第一阈值的语句对,通过随机抽样方法从中随机抽取数据,并划分为验证集和测试集;
将所述验证集和所述测试集中,与训练集重复的语句对进行删除。
3.如权利要求1所述的一种基于跨语言预训练模型的藏汉神经机器翻译方法,其特征在于,所述同义词替换的步骤包括:
利用基于神经网络的词向量生成模型的skip-gram模型对藏语语料进行同义词替换;并对结果进行可视化展示。
4.如权利要求1所述的一种基于跨语言预训练模型的藏汉神经机器翻译方法,其特征在于,所述回译的步骤包括:
训练一个藏汉或汉藏机器翻译模型,利用所述藏汉或汉藏机器翻译模型将藏语或汉语的语料分别翻译成汉语或藏语语料,得到一批新的伪平行语料。
5.如权利要求1所述的一种基于跨语言预训练模型的藏汉神经机器翻译方法,其特征在于,使用VOLT模型优化所述新词表的步骤包括:
对词表内的标记词汇所有按频率从大到小排序,采用BPE模型生成的标记词汇作为候选标记词汇;
使用所有所述候选标记词汇以及各自对应的概率初始化算法;
设置超参数的大小;
对于每一个时间步,基于转移矩阵使用最大熵得到新词表,同时删除频率低于预设第二阈值的标记词汇;
枚举出所有时间步,选择出满足基于信息边际效用评估方法公式的词表作为最终词表,利用VOLT模型中的贪婪策略对文本进行编码,先将句子切分成字符级,然后合并连续的两个标记词汇,直到没有标记词汇可以被合并为止。
6.如权利要求5所述的一种基于跨语言预训练模型的藏汉神经机器翻译方法,其特征在于,所述基于信息边际效用评估方法公式为:
其中i是t-1词表和t词表大小的差值,Hv表示语料库的熵。
7.如权利要求1所述的一种基于跨语言预训练模型的藏汉神经机器翻译方法,其特征在于,使用mRASP模型中包含多个语言对的多语言预训练翻译模型,基于transformer-big神经网络机器翻译架构对所述藏汉平行语料进行训练,得到翻译模型的步骤包括:
采用Fairseq系统的transformer-big神经网络模型,使用Adam梯度优化算法来训练得到最终的模型参数,再把所有语料混合,通过数据采样平衡藏语和汉语词汇量,然后通过BPE模型切分得到包含多种语言的联合词表,把其中的藏语词表和汉语词表合并到原有的词表中,扩大藏语和汉语的词表占比,由此得到最终的翻译模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于拥措,未经拥措许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210952474.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种固固相变材料及制备方法和应用
- 下一篇:大数据传输时长分析平台及方法