[发明专利]一种面向神经机器翻译的数据选择及训练方法在审

申请号：	202110868021.5	申请日：	2021-07-30
公开（公告）号：	CN113505571A	公开（公告）日：	2021-10-15
发明（设计）人：	刘兴宇;姜炎宏;杨木润	申请（专利权）人：	沈阳雅译网络技术有限公司
主分类号：	G06F40/126	分类号：	G06F40/126;G06F40/194;G06F40/279;G06F40/58;G06N3/08
代理公司：	沈阳新科知识产权代理事务所(特殊普通合伙) 21117	代理人：	李晓光
地址：	110004 辽宁省沈阳市***	国省代码：	辽宁;21
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种面向神经机器翻译数据选择训练方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种面向神经机器翻译的数据选择及训练方法，其特征在于包括以下步骤：

1)构建单语语料库；

2)对单语语料进行清洗过滤、分词、子词切分预处理，作为训练数据；

3)使用训练数据通过语言模型微调预训练模型；

4)将两种语言的单语数据输入编码，比较编码的两种单语的向量相似度，将相似度最高的两句并入伪双语数据中，构建伪平行语料；

5)使用预训练模型的分词和子词切分方法处理伪平行语料，使用预训练模型初始化神经机器翻译框架的编码器参数；

6)使用处理后的伪平行语料对神经机器翻译模型进行预训练；

7)使用真正的双语数据微调神经机器翻译模型，完成训练过程。

2.按权利要求1所述的面向神经机器翻译的数据选择及训练方法，其特征在于：步骤1)中，构建单语语料库，具体为：

101)对于要使用的单语数据，分为两部分，一是可比较的单语数据，二是不相关的单语数据；

102)可比较的单语数据通过在语料库中获得或则网络爬取的方式，不相关的单语数据通过单语数据库获得，并加入单语语料库。

3.按权利要求1所述的面向神经机器翻译的数据选择及训练方法，其特征在于：步骤3)中，使用训练数据通过语言模型微调预训练模型，具体为：将预处理后两种语言的单语数据混合后打乱顺序，利用语言模型任务对预训练模型的参数进行修正。

4.按权利要求1所述的面向神经机器翻译的数据选择及训练方法，其特征在于：步骤4)中，将两种语言的单语数据输入预训练模型中，比较编码的两种单语的向量相似度，将相似度最高的两句并入伪双语数据中，构建伪平行语料，具体为：

401)将可比较单语数据输入预训练模型中，比较编码后的两种单语数据的向量相似度，将相似度最高的两句并入伪双语数据中，构建伪平行语料；

402)将单语数据库中两种语言的单语数据输入预训练模型中，比较编码后的两种单语的向量相似度，将相似度最高的两句并入伪双语数据中，构建伪平行语料。

5.按权利要求1所述的面向神经机器翻译的数据选择及训练方法，其特征在于：步骤5)中，使用预训练模型的分词和子词切分方法处理伪平行语料，具体为：使用预训练模型的语料预处理方法来处理伪平行语料，包括分词和字词切分方法，并使用预训练模型的词表减小神经机器翻译模型和预训练模型的差异。

6.按权利要求1所述的面向神经机器翻译的数据选择及训练方法，其特征在于：步骤6)中，使用处理后的伪平行语料对神经机器翻译模型进行预训练，具体为：在预训练的过程中，采用0.0001～0.0005的学习率对模型的参数进行更新，使神经机器翻译模型收敛到更好的效果。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于沈阳雅译网络技术有限公司，未经沈阳雅译网络技术有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202110868021.5/1.html，转载请声明来源钻瓜专利网。

专利分类

专利文献下载